要求爬取一個外文網站的公版免費書,gutenberg.org,數量比較多,但格式一致。要求如下:1,爬書籍的概要,比如書名,分類,作者,出版社,書號,作者介紹,圖書介紹這些基本信息,書的封面的圖片,存到books_info表中;2,爬取書籍正文,一段一段存到表中,表明sections,如果遇到圖片,將圖u片下到云盤,應該下到oss,在數據庫保持圖片鏈接,圖片按照約定規則命名;在存的時候,需要識別出文章目錄,比如第一章第二章,第一節第二節,目錄信息也要存到同一個表中。此過程可能要求存一些樣式信息。3,除了上述二個表,還有二個表要存,一個叫books_content,將一本書的文本存到一個字段中mediumtext,第二個叫table_text,因為為了提高速度,初步定義一個表放500本書,因此要求爬蟲自動分表,自動建表,每500本書另起一張表,同時在table_index中注明表的對應關系。4,爬取時可能要進行一點格式化,比如同一個自然段里面要去除回車換行符。5,爬取shelves,就是書籍分類關系。6 爬取css。
要求你很精通爬蟲,熟練操作mysql數據庫。
最后除了爬取這個網站的書籍外,要交代碼。爬取書籍可以在我的服務器操作。系統是ubuntu。阿里云的。
希望你逐段爬取,直接存庫。關鍵點在于如何識別出哪些段落屬于章節標題。