TuChong_Spider
偶然的機(jī)會(huì)在抖音看到這個(gè)APP,發(fā)現(xiàn)有很多高質(zhì)量的手機(jī)壁紙和圖片,對(duì)于一個(gè)爬蟲(chóng)初學(xué)者,這就非常美滋滋了,好多歐美小姐姐啊,哎嘿嘿....
圖蟲(chóng)網(wǎng)共享圖庫(kù)爬蟲(chóng), 通過(guò)抓取Ajax獲取圖片ID進(jìn)行圖片保存
爬取網(wǎng)站: https://stock.tuchong.com
爬取結(jié)果

運(yùn)行環(huán)境:
- Python 3.5+
- Windows 10
- VSCode
如何使用
下載項(xiàng)目源碼
`https://github.com/cexll/tuchong_Spider.git`
安裝依賴
`$ pip install -r requirements.txt`
運(yùn)行項(xiàng)目
```
$ python spider.py
輸入想要搜索的內(nèi)容: 少女
獲取圖片ID.....
解析imageID
存在ID,解析
解析HTML圖片URL...
準(zhǔn)備下載... //p3a.pstatp.com/weili/l/199813*************89.jpg
下載成功----------------------
拼接url訪問(wèn)網(wǎng)頁(yè)
解析HTML圖片URL...
準(zhǔn)備下載... //p3a.pstatp.com/weili/l/189***********417.jpg
下載成功----------------------
拼接url訪問(wèn)網(wǎng)頁(yè)
解析HTML圖片URL...
準(zhǔn)備下載... //p3a.pstatp.com/weili/l/1**************25.png
拼接url訪問(wèn)網(wǎng)頁(yè)
解析HTML圖片URL...
準(zhǔn)備下載... //p3a.pstatp.com/weili/l/2***********62820.jpg
拼接url訪問(wèn)網(wǎng)頁(yè)
解析HTML圖片URL...
準(zhǔn)備下載... //p3a.pstatp.com/weili/l/************2.jpg
拼接url訪問(wèn)網(wǎng)頁(yè)
...
```
圖片鏈接我就大碼了,免得被打....
思路(前方高能,請(qǐng)流量黨注意)
首先爬取一個(gè)網(wǎng)頁(yè),第一步,先打開(kāi)這個(gè)網(wǎng)頁(yè)(/滑稽,,,,

打開(kāi)之后,先看看怎么搜索圖片,下載圖片的..


嗯~~,好看山山水水...(我是來(lái)干嘛的....
回到正題~
打開(kāi)開(kāi)發(fā)者工具(F12 或者右鍵 ,然后刷新

然后看一看有沒(méi)有什么有用的東西....好像仔細(xì)找了找是沒(méi)有發(fā)現(xiàn)什么有用的...怎么辦呢?
好像真找不到了,怎么辦?
網(wǎng)頁(yè)往下翻一翻,,,,,

圖片中間出現(xiàn)了個(gè)奸細(xì)....這就是我們需要的東西,,但是打開(kāi)發(fā)現(xiàn)不對(duì)啊,怎么沒(méi)有圖片下載的鏈接??

哎,別慌,先去網(wǎng)頁(yè)打開(kāi)一個(gè)圖片看看是什么結(jié)構(gòu)的...

到這里我們發(fā)現(xiàn)了,網(wǎng)頁(yè)url鏈接有個(gè)imageID=這東西,好像和之前找到個(gè)奸細(xì)內(nèi)容是一樣的,,,打開(kāi)后發(fā)現(xiàn)的確是一樣的
那么整體的結(jié)構(gòu)就清楚了,先把剛才的奸細(xì)鏈接打開(kāi)看看是什么


密集恐懼癥都犯了,....仔細(xì)看了看,發(fā)現(xiàn)最開(kāi)始都有`imageID`,那么思路就有了
通過(guò)訪問(wèn)奸細(xì)的鏈接得到每一頁(yè)的`imageID`,在用 `https://stock.tuchong.com/free/image/?` + `imageID`就可以訪問(wèn)到圖片了,好一氣呵成
代碼

總結(jié)
抓取所有的網(wǎng)頁(yè)都是類似的思路,首先先通過(guò)人的邏輯去找到數(shù)據(jù),在通過(guò)代碼去得到,不要一來(lái)就上手代碼,
細(xì)心的朋友肯定發(fā)現(xiàn)了,我們抓的是免費(fèi)圖庫(kù)里的圖片,是的,至于為什么不抓`優(yōu)選圖庫(kù)`,`高端圖庫(kù)`,1是我也是才發(fā)現(xiàn)他們不一樣,2是別人賺錢的生意我就這樣發(fā)出來(lái)了萬(wàn)一被抓了怎么辦....
有能力的可以自己去琢磨一下,我上次看了一下`imageID`這次是保存在HTML里面的,有點(diǎn)類似今日頭條的
項(xiàng)目地址:?https://github.com/cexll/tuchong_Spider