使用Beautiful Soup編寫一個爬蟲 系列隨筆匯總

這幾篇博文只是為了記錄學習Beautiful Soup的過程,不僅方便自己以后查看,也許能幫到同樣在學習這個技術的朋友。通過學習Beautiful Soup基礎知識 完成了一個簡單的爬蟲服務:從allitebooks.com抓取書籍的書名和每本書對應的ISBN碼,然后通過ISBN碼去amazon.com抓取對應的價格。

第一部分 Beautiful Soup的基礎知識

Beautiful Soup的安裝和查找、瀏覽的方法。

第二部分 爬蟲服務的實現(xiàn)過程

講解了如何創(chuàng)建Beautiful Soup的項目,如何分析一個網(wǎng)站的HTML結構并編寫查找代碼。

完整代碼請移步github: https://github.com/backslash112/book_scraper_python
我們處于大數(shù)據(jù)時代,對數(shù)據(jù)處理感興趣的朋友歡迎查看另一個系列隨筆: 利用Python進行數(shù)據(jù)分析 基礎系列隨筆匯總

接下來打算學習Scrapy庫,Scrapy是一個采集工具,它可以幫你大幅降低網(wǎng)頁查找和識別工作,輕松采集一個或多個域名的信息。有興趣的朋友歡迎關注本博客,也歡迎大家留言進行討論。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

友情鏈接更多精彩內容