Python爬蟲大小項(xiàng)目集合

? 今天為大家?guī)砹俗约旱呐老x代碼集,主要是以往學(xué)習(xí)Python爬蟲過程中寫過的大小項(xiàng)目,可能不是很全面,但是持續(xù)在更新,那我的代碼里有什么?


1. Cnblogs - 博客園爬蟲

? 使用Urllib庫實(shí)現(xiàn)博客園"最新文章"的爬取,可以自行擴(kuò)展為全站爬蟲,但是要注意它的接口。

2. Golory_of_Kings - 王者榮耀爬蟲

? 通過王者榮耀官網(wǎng)的英雄列表接口以及英雄皮膚的下載URL,完成對王者榮耀英雄全皮膚的下載。

3.MaoYan_Top100 - 貓眼TOP100爬蟲

? (見名知意)爬取貓眼TOP排行榜前100的電影信息。

4.Moments - 朋友圈爬蟲

? 基于自動化測試工具Appium的微信朋友圈爬蟲,模擬登錄、抓取動態(tài)、保存數(shù)據(jù)。

5.Bilibili - B站爬蟲

? 模擬登錄B站并識別滑動驗(yàn)證碼。破解滑動驗(yàn)證碼的思路主要沿襲崔大破解極驗(yàn)的思路,登錄、獲取驗(yàn)證碼Image對象、打碼平臺識別、本地轉(zhuǎn)化識別結(jié)果、Selenium模擬滑動等。

6.DouYin - 抖音爬蟲

? 基于Mitmdump的抖音短視頻爬取,包括視頻名稱、作者名稱、獲贊數(shù)、轉(zhuǎn)發(fā)量等重要信息的獲取。

7.Crack_Jianshu - 簡書爬蟲

? 為了照顧簡書,完成了簡書的模擬登錄并識別簡書的點(diǎn)觸式驗(yàn)證碼,破解驗(yàn)證碼的思路基本與滑動驗(yàn)證碼相同。

8.Selenium_163 - 網(wǎng)易163郵箱爬蟲

? 模擬登錄網(wǎng)易163郵箱,并發(fā)送SOS郵件。主要是為了對iframe子節(jié)點(diǎn)的訓(xùn)練。

9.City_58 - 58房屋信息爬蟲

? 使用Scrapy框架爬取58同城的出租房信息,并包含下級網(wǎng)頁數(shù)據(jù)的爬蟲,項(xiàng)目難度較大,可根據(jù)能力練習(xí)。

10.Selenium_Cnki - 知網(wǎng)爬蟲

? 模擬登錄注冊知網(wǎng),識別知網(wǎng)的普通數(shù)字英文混合驗(yàn)證碼。別小看這簡單的驗(yàn)證碼,可是用tesserocr等Python識別庫搞不定的。

其他的可以看截圖:

? 我是爬蟲小白,代碼中如果有寫的什么不好的地方,可以提交issue。最后,貼出我的Github倉庫地址https://github.com/Northxw/Python3_WebSpider,歡迎各種starfork,一起學(xué)爬蟲。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容