<python3爬蟲>今日頭條圖集爬取(第一節(jié))

打開今日頭日官網(wǎng),在右側(cè)搜索欄輸入‘bilibili’,在搜索頁選擇圖集選項,得到以下頁面:

image.png

從這個頁面中,我們可以看到有很多圖集,我們選擇一個圖集,進(jìn)入具體頁面:
image.png

這個頁面就是圖片的頁面了,可以通過點擊圖片的右邊部分,切換到下一張圖片。
我們的任務(wù)就是抓取這些大圖(搜索頁面上的圖集都要抓取),存儲到本地中。

那么,我們回到搜索頁面,點開兩個不同的圖集,觀察他們url連接的區(qū)別:
image.png

image.png

我們看到兩個圖集連接前面都是www.toutiao.com,只有后面不同,是一串?dāng)?shù)字,看起來像是id。那么到哪里獲取這條URL呢,肯定要從初始頁面中去找。我們再回到搜索頁面,查看網(wǎng)頁源代碼。按下ctrl+f搜索這串id數(shù)字,然而并沒有結(jié)果。因為這個頁面是使用ajex和JavaScript異步加載的。
我們按下F12打開chrome的調(diào)試界面,選擇network選項,再選擇XHR選項。如果你之前沒有滑到頁面底部的話,應(yīng)該是一片空白。現(xiàn)在滑到頁面底部,使之加載出下一頁內(nèi)容。這是XHR欄中會出現(xiàn)新的內(nèi)容,如下:
image.png

點擊name下的兩條鏈接。在右邊的RequestURL中可以看到完整的鏈接,比較兩條鏈接,可以發(fā)現(xiàn)只有offset=后面的數(shù)字不同。offset:偏移量。所以,可以猜測這個參數(shù)起著標(biāo)志當(dāng)前頁面頁數(shù)的作用。然后我們復(fù)制這條url。輸入到瀏覽器的地址欄中。
image.png

可以看到我們搜到了ID號,現(xiàn)在有兩種方法獲取這個id號,第一種是使用json庫解析成python字典,然后直接獲取id值。第二種使用正則表達(dá)式獲取。這里我們選擇第一種。獲取id號后,我們就可以得到不同圖集的具體頁面了。
暫停一下。我們先重新理一下上面的過程。
首先我們確定了要抓取的網(wǎng)頁:今日頭條的bilibili圖集。
先手動操作一遍,直到我們要抓取的目標(biāo)為止,了解一下流程。再把這個流程寫成計算機(jī)的執(zhí)行流程:
獲取搜索頁面內(nèi)容>>獲取圖集地址>>獲取具體圖片的地址>>把圖片寫入硬盤中
第一部分就先到這里。接下來就是編寫代碼實現(xiàn)這個流程了

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容