掌握Python基礎語法,具備基礎的編程能力;掌握Linux基本操作命令,掌握MySQL進階內容。知識點包括Python基本語法規則及變量、邏輯控制、內置數據結構、文件操作、高級函數、模塊、Python常用標準庫模塊、函數、異常處理、MySQL使用、協程等。掌握爬蟲、數據采集、數據機構與算法,掌握人工智能技術。涉及的知識點有數據抓取、數據提取、數據存儲、爬蟲并發、動態網頁抓取、scrapy框架、分布式爬蟲、爬蟲攻防、數據結構、算法等。
項目時間:2017-01到2011-10
項目名稱:分布式爬蟲爬取北京市企業信用信息網
項目描述:
項目介紹
這個項目是通過scrapy-redis搭建分布式爬蟲爬取企業信用信息網公布欄,爬取列表頁每一項下的子頁獲取數據
我的職責
首先爬取首頁后通過xpath匹配每個的信息塊的span后構建請求,并通過scrapy.Request發送請求,用xpath匹配需要的信息。
同時循環創建下一頁請求的form表單,通過scrapy.FormRequest發送POST請求。所有爬取的信息緩存到redis數據庫中,
最后通過編寫python腳本將redis數據庫中數據讀取出來加入mysql數據庫。
其他爬取的網站:搜狐新聞、豆瓣、騰訊新聞網