爬取簡書文章

爬取目標(biāo):簡書七日熱門的文章數(shù)據(jù)(如標(biāo)題,作者,閱讀量,評論,喜歡等等),并把這些數(shù)據(jù)存放到Mongodb中!

打開mongodb
頁面

接下來我們可以分析一下這個頁面,我們可以看到它的頁面信息是異步加載的,我們嘗試著獲得它的頁面規(guī)律:

頁面加載動態(tài)


頁面數(shù)據(jù)

我們發(fā)現(xiàn)頁面的請求鏈接實(shí)際是:http://www.itdecent.cn/trending/weekly?pages=2這樣的一個結(jié)構(gòu),我們在進(jìn)行翻頁的時候,只需要將page的數(shù)據(jù)替換掉就行了。并且我們發(fā)現(xiàn),每一個頁面一共有20篇文章數(shù)據(jù),于是我們就可以獲得每個文章頁面的用戶鏈接了;

鏈接

抓取 完連鏈接后就開始爬取文章的詳細(xì)信息

詳細(xì)頁的信息

對于這里面的爬取,閱讀量和喜歡,評論需要用正則表達(dá)式匹配,其他的直接用BS就可以,直接上代碼吧


爬取的結(jié)果

存放在Mongodb中的數(shù)據(jù)


Mongodb

最后總結(jié)一點(diǎn):學(xué)編程,需要的就是不斷的行動!也許你看了很多書,很多視頻但實(shí)戰(zhàn)就知道自己不行了,好好加油吧?。恿艘粋€python學(xué)習(xí)社群,這篇是作業(yè))

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容