這幾篇博文只是為了記錄學習Beautiful Soup的過程,不僅方便自己以后查看,也許能幫到同樣在學習這個技術的朋友。通過學習Beautiful Soup基礎知識 完成了一個簡單的爬蟲服務:從allitebooks.com抓取書籍的書名和每本書對應的ISBN碼,然后通過ISBN碼去amazon.com抓取對應的價格。
第一部分 Beautiful Soup的基礎知識
Beautiful Soup的安裝和查找、瀏覽的方法。
第二部分 爬蟲服務的實現(xiàn)過程
講解了如何創(chuàng)建Beautiful Soup的項目,如何分析一個網(wǎng)站的HTML結構并編寫查找代碼。
- Beautiful Soup網(wǎng)絡爬蟲: (2): 抓取allitebooks.com書籍信息及ISBN碼
- Beautiful Soup網(wǎng)絡爬蟲: (3): 抓取amazon.com價格
完整代碼請移步github: https://github.com/backslash112/book_scraper_python
我們處于大數(shù)據(jù)時代,對數(shù)據(jù)處理感興趣的朋友歡迎查看另一個系列隨筆: 利用Python進行數(shù)據(jù)分析 基礎系列隨筆匯總
接下來打算學習Scrapy庫,Scrapy是一個采集工具,它可以幫你大幅降低網(wǎng)頁查找和識別工作,輕松采集一個或多個域名的信息。有興趣的朋友歡迎關注本博客,也歡迎大家留言進行討論。