欧美操bb-欧美不卡在线视频-欧美不卡视频在线-欧美不卡1卡2卡三卡老狼-欧美爆插-欧美白人极品性喷潮

猿急送>

上海后端兼職程序員外包

William WANG華

職位ID:105523

python爬蟲工程師

合作方式：
項目制全國遠程

預估日薪：
500

預估總價：
1000元

預估工時：
2天

所在區域：
全國遠程

需求描述

要求爬取一個外文網站的公版免費書，gutenberg.org，數量比較多，但格式一致。要求如下：1，爬書籍的概要，比如書名，分類，作者，出版社，書號，作者介紹，圖書介紹這些基本信息，書的封面的圖片，存到books_info表中；2，爬取書籍正文，一段一段存到表中，表明sections，如果遇到圖片，將圖u片下到云盤，應該下到oss，在數據庫保持圖片鏈接，圖片按照約定規則命名；在存的時候，需要識別出文章目錄，比如第一章第二章，第一節第二節，目錄信息也要存到同一個表中。此過程可能要求存一些樣式信息。3，除了上述二個表，還有二個表要存，一個叫books_content，將一本書的文本存到一個字段中mediumtext，第二個叫table_text，因為為了提高速度，初步定義一個表放500本書，因此要求爬蟲自動分表，自動建表，每500本書另起一張表，同時在table_index中注明表的對應關系。4，爬取時可能要進行一點格式化，比如同一個自然段里面要去除回車換行符。5，爬取shelves，就是書籍分類關系。6 爬取css。

要求你很精通爬蟲，熟練操作mysql數據庫。
最后除了爬取這個網站的書籍外，要交代碼。爬取書籍可以在我的服務器操作。系統是ubuntu。阿里云的。
希望你逐段爬取，直接存庫。關鍵點在于如何識別出哪些段落屬于章節標題。

已完成

相似職位推薦

聯系需求方端客服

熱門標簽列表

程序員接私活程序員兼職企業外包外包案例

熱門人才推薦

欧美操bb-欧美不卡在线视频-欧美不卡视频在线-欧美不卡1卡2卡三卡老狼-欧美爆插-欧美白人极品性喷潮

上海后端兼職程序員外包

python爬蟲工程師

需求描述

相似職位推薦

信用行為

完善簡歷

發布任務

微信客服