本專題以項(xiàng)目為驅(qū)動(dòng),從基本的網(wǎng)絡(luò)請(qǐng)求和頁(yè)面解析開(kāi)始,逐步深入到 scrapy爬蟲(chóng)框架,在講解完庫(kù)之后,會(huì)跟上對(duì)應(yīng)的實(shí)踐項(xiàng)目,有興趣朋友的可以跟著實(shí)踐自己敲代碼或者完成我留下的 bug,把代碼發(fā)到評(píng)論區(qū),我會(huì)不定時(shí)查看。
本專題假設(shè)讀者有一定的python基礎(chǔ),所以并不會(huì)講python的基本語(yǔ)法,遇到語(yǔ)法問(wèn)題可以評(píng)論求助。
因?yàn)楸緦n}涉及的庫(kù)比較多,而且作者不能把時(shí)間全部用在更新上,所以本專題完成的時(shí)間可能較長(zhǎng),在本專題中會(huì)涉及到以下主題:
1、requests 庫(kù)
(網(wǎng)絡(luò)請(qǐng)求)
2、lxml 庫(kù) 和 xpath 用法
(htnl頁(yè)面解析)
4、html 網(wǎng)頁(yè)的解析
5、數(shù)據(jù)的處理和存儲(chǔ)(json,csv)
6、threading 庫(kù) (多線程)
7、asyncio 庫(kù) (異步)
8、數(shù)據(jù)庫(kù) 以及 orm
9、scrapy 爬蟲(chóng)框架
在寫這些的時(shí)候,我也在不斷地學(xué)習(xí),如果我在學(xué)習(xí)的過(guò)程中發(fā)現(xiàn)了更好的庫(kù),就會(huì)換一個(gè)庫(kù)講,但是上面所列的點(diǎn)是不會(huì)變的。
最后,如果在文章中出現(xiàn)了錯(cuò)誤,歡迎在評(píng)論中指出,我會(huì)在后續(xù)的更新中修改。
謝謝