介紹:此程序是使用python做的一個爬蟲小程序 ?爬取了python百度百科中的部分內容,因為這個demo是根據網站中的靜態(tài)結構爬取的,所以如果百度百科詞條的html結構發(fā)生變化 需要修改部分內容。詞條鏈接?http://baike.baidu.com/item/Python
?邏輯步驟:1.主程序部分,主要初始化程序中需要用到的各個模塊分為(1)鏈接管理模塊。(2)鏈接下載保存模塊 ? (3)解析網頁模塊 ? (4)輸出解析內容模塊,然后就是寫抓取網頁內容的方法。如果你在學習Python的過程中遇見了很多疑問和難題,可以加-q-u-n???227 -435-450里面有軟件視頻資料免費
下邊為爬取方法代碼:

?2.鏈接管理模塊?中實現四個方法a.向存儲鏈接的表中添加需要爬取的新的鏈接add_new_url ? ? ?b. 批量添加新鏈接?add_new_urls ? ? c.判斷鏈接表中是否有待爬取的新鏈接has_new_url? ? ?d.取一個待爬取的新鏈接 ?并將這個鏈接從鏈接表中移除(防止重復爬取相同內容)get_new_url
部分代碼:

3.鏈接下載模塊
? ?使用urllib2進行需要爬取的鏈接的下載 ? (文末附上urllib2開發(fā)文檔鏈接)

? ? 4.網頁解析模塊
網頁解析使用beautifulsoup4庫進行操作(文末附上beautifulsoup4開發(fā)文檔鏈接)

? ?5.輸出內容
? ?將爬取的內容以html形式保存在本地(代碼成功運行后再工程project下刷新會有一個html文件)
