一、要求:
負責指定的網站/APP的網頁信息抓取、數據提取、清洗、入庫;
兩年以上JAVA開發經驗, 熟練使用一門以上腳本語言(Python/PHP等),熟悉LINUX;
熟悉網頁抓取原理及技術,熟悉各種網頁解析的策略和算法,熟悉基于正則表達式、XPath等網頁信息抽取技術,熟悉基于Cookie的網站登錄原理;
熟悉多線程、網絡通信編程相關知識;
2年以上大規模網頁爬蟲開發經驗, 熟悉JS,AJAX,網頁消重等;
有分布式爬蟲架構經驗優先;
有新聞/垂直領域爬蟲開發經驗優先;
有良好的溝通能力、語言表達能力、團隊協作能力、工作細心、認真負責。
二、工作內容:
1.實時采集微票兒的正在上映影片列表數據,包括:
“電影名稱
簡介
主創
評分
想看人數”
2.實時采集微票兒的即將上映影片列表數據,包括:
“電影名稱
簡介
主創
想看人數”
3.實時采集微票兒的影片信息數據,包括:
“電影名稱(中文)
電影名稱(英文)
想看人數
評分
類型
時長
上映日期
簡介
主創
評論用戶
用戶評論總數
用戶評論List
用戶評論內容
用戶評論點贊數
用戶評論評價類型
用戶評論回復內容
用戶評論回復數
用戶評論時間
影片票房今日排名
影片今日票房
影片累計票房
評論用戶信息
評論用戶觀影軌跡
評論用戶觀影時間
評論用戶影片名稱
評論用戶評論內容
評論用戶評價
評論用戶想看清單
評論用戶想看清單影片名稱
評論用戶想看清單影片主演
評論用戶想看清單影片想看人數
評論用戶想看清單影片評分
評論用戶想看清單影片上映日期”
4.實時采集淘票票的正在熱映影片列表數據,包括:
“電影名稱
評分
簡介
主演”
5.實時采集淘票票的即將上映影片列表數據,包括:
“電影名稱
想看人數
導演
主演”
6.實時采集淘票票的影片信息數據,包括:
“電影名稱(中文)
電影名稱(英文)
類型
地區
時長
上映日期
評分(上映)
評分人數(上映)
想看人數(未上映)
簡介
演職人員
影片票房今日排名
影片首周票房
影片累計票房
影評用戶
影評總數
影評List
影評內容
影評點贊數
影評星級
影評回復內容
影評回復數
影評時間”
三、項目制,總共13000