教你用Python爬圖蟲(chóng)網(wǎng)圖片

TuChong_Spider

偶然的機(jī)會(huì)在抖音看到這個(gè)APP,發(fā)現(xiàn)有很多高質(zhì)量的手機(jī)壁紙和圖片,對(duì)于一個(gè)爬蟲(chóng)初學(xué)者,這就非常美滋滋了,好多歐美小姐姐啊,哎嘿嘿....

圖蟲(chóng)網(wǎng)共享圖庫(kù)爬蟲(chóng), 通過(guò)抓取Ajax獲取圖片ID進(jìn)行圖片保存


爬取網(wǎng)站: https://stock.tuchong.com

爬取結(jié)果


運(yùn)行環(huán)境:

- Python 3.5+

- Windows 10

- VSCode

如何使用

下載項(xiàng)目源碼

`https://github.com/cexll/tuchong_Spider.git`

安裝依賴

`$ pip install -r requirements.txt`

運(yùn)行項(xiàng)目

```

$ python spider.py

輸入想要搜索的內(nèi)容: 少女

獲取圖片ID.....

解析imageID

存在ID,解析

解析HTML圖片URL...

準(zhǔn)備下載... //p3a.pstatp.com/weili/l/199813*************89.jpg

下載成功----------------------

拼接url訪問(wèn)網(wǎng)頁(yè)

解析HTML圖片URL...

準(zhǔn)備下載... //p3a.pstatp.com/weili/l/189***********417.jpg

下載成功----------------------

拼接url訪問(wèn)網(wǎng)頁(yè)

解析HTML圖片URL...

準(zhǔn)備下載... //p3a.pstatp.com/weili/l/1**************25.png

拼接url訪問(wèn)網(wǎng)頁(yè)

解析HTML圖片URL...

準(zhǔn)備下載... //p3a.pstatp.com/weili/l/2***********62820.jpg

拼接url訪問(wèn)網(wǎng)頁(yè)

解析HTML圖片URL...

準(zhǔn)備下載... //p3a.pstatp.com/weili/l/************2.jpg

拼接url訪問(wèn)網(wǎng)頁(yè)

...

```

圖片鏈接我就大碼了,免得被打....

思路(前方高能,請(qǐng)流量黨注意)

首先爬取一個(gè)網(wǎng)頁(yè),第一步,先打開(kāi)這個(gè)網(wǎng)頁(yè)(/滑稽,,,,


打開(kāi)之后,先看看怎么搜索圖片,下載圖片的..


嗯~~,好看山山水水...(我是來(lái)干嘛的....

回到正題~

打開(kāi)開(kāi)發(fā)者工具(F12 或者右鍵 ,然后刷新


然后看一看有沒(méi)有什么有用的東西....好像仔細(xì)找了找是沒(méi)有發(fā)現(xiàn)什么有用的...怎么辦呢?

好像真找不到了,怎么辦?

網(wǎng)頁(yè)往下翻一翻,,,,,


圖片中間出現(xiàn)了個(gè)奸細(xì)....這就是我們需要的東西,,但是打開(kāi)發(fā)現(xiàn)不對(duì)啊,怎么沒(méi)有圖片下載的鏈接??


哎,別慌,先去網(wǎng)頁(yè)打開(kāi)一個(gè)圖片看看是什么結(jié)構(gòu)的...


到這里我們發(fā)現(xiàn)了,網(wǎng)頁(yè)url鏈接有個(gè)imageID=這東西,好像和之前找到個(gè)奸細(xì)內(nèi)容是一樣的,,,打開(kāi)后發(fā)現(xiàn)的確是一樣的

那么整體的結(jié)構(gòu)就清楚了,先把剛才的奸細(xì)鏈接打開(kāi)看看是什么


密集恐懼癥都犯了,....仔細(xì)看了看,發(fā)現(xiàn)最開(kāi)始都有`imageID`,那么思路就有了

通過(guò)訪問(wèn)奸細(xì)的鏈接得到每一頁(yè)的`imageID`,在用 `https://stock.tuchong.com/free/image/?` + `imageID`就可以訪問(wèn)到圖片了,好一氣呵成

代碼


總結(jié)

抓取所有的網(wǎng)頁(yè)都是類似的思路,首先先通過(guò)人的邏輯去找到數(shù)據(jù),在通過(guò)代碼去得到,不要一來(lái)就上手代碼,

細(xì)心的朋友肯定發(fā)現(xiàn)了,我們抓的是免費(fèi)圖庫(kù)里的圖片,是的,至于為什么不抓`優(yōu)選圖庫(kù)`,`高端圖庫(kù)`,1是我也是才發(fā)現(xiàn)他們不一樣,2是別人賺錢的生意我就這樣發(fā)出來(lái)了萬(wàn)一被抓了怎么辦....

有能力的可以自己去琢磨一下,我上次看了一下`imageID`這次是保存在HTML里面的,有點(diǎn)類似今日頭條的


項(xiàng)目地址:?https://github.com/cexll/tuchong_Spider

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容