? 今天為大家?guī)砹俗约旱呐老x代碼集,主要是以往學(xué)習(xí)Python爬蟲過程中寫過的大小項(xiàng)目,可能不是很全面,但是持續(xù)在更新,那我的代碼里有什么?

1. Cnblogs - 博客園爬蟲
? 使用Urllib庫實(shí)現(xiàn)博客園"最新文章"的爬取,可以自行擴(kuò)展為全站爬蟲,但是要注意它的接口。
2. Golory_of_Kings - 王者榮耀爬蟲
? 通過王者榮耀官網(wǎng)的英雄列表接口以及英雄皮膚的下載URL,完成對王者榮耀英雄全皮膚的下載。
3.MaoYan_Top100 - 貓眼TOP100爬蟲
? (見名知意)爬取貓眼TOP排行榜前100的電影信息。
4.Moments - 朋友圈爬蟲
? 基于自動化測試工具Appium的微信朋友圈爬蟲,模擬登錄、抓取動態(tài)、保存數(shù)據(jù)。
5.Bilibili - B站爬蟲
? 模擬登錄B站并識別滑動驗(yàn)證碼。破解滑動驗(yàn)證碼的思路主要沿襲崔大破解極驗(yàn)的思路,登錄、獲取驗(yàn)證碼Image對象、打碼平臺識別、本地轉(zhuǎn)化識別結(jié)果、Selenium模擬滑動等。
6.DouYin - 抖音爬蟲
? 基于Mitmdump的抖音短視頻爬取,包括視頻名稱、作者名稱、獲贊數(shù)、轉(zhuǎn)發(fā)量等重要信息的獲取。
7.Crack_Jianshu - 簡書爬蟲
? 為了照顧簡書,完成了簡書的模擬登錄并識別簡書的點(diǎn)觸式驗(yàn)證碼,破解驗(yàn)證碼的思路基本與滑動驗(yàn)證碼相同。
8.Selenium_163 - 網(wǎng)易163郵箱爬蟲
? 模擬登錄網(wǎng)易163郵箱,并發(fā)送SOS郵件。主要是為了對iframe子節(jié)點(diǎn)的訓(xùn)練。
9.City_58 - 58房屋信息爬蟲
? 使用Scrapy框架爬取58同城的出租房信息,并包含下級網(wǎng)頁數(shù)據(jù)的爬蟲,項(xiàng)目難度較大,可根據(jù)能力練習(xí)。
10.Selenium_Cnki - 知網(wǎng)爬蟲
? 模擬登錄注冊知網(wǎng),識別知網(wǎng)的普通數(shù)字英文混合驗(yàn)證碼。別小看這簡單的驗(yàn)證碼,可是用tesserocr等Python識別庫搞不定的。
其他的可以看截圖:
? 我是爬蟲小白,代碼中如果有寫的什么不好的地方,可以提交issue。最后,貼出我的Github倉庫地址:https://github.com/Northxw/Python3_WebSpider,歡迎各種star和fork,一起學(xué)爬蟲。
