使用Python爬蟲(chóng)收集鳥(niǎo)類(lèi)圖像

BirdNet 爬蟲(chóng)

特性

  • 跨平臺(tái)
  • 命令行工具
  • 只需用戶(hù)鍵入要獲取的鳥(niǎo)類(lèi)名稱(chēng),即可自動(dòng)下載圖片到本機(jī)

環(huán)境需求:

  • python3
  • pip3包管理器
  • chrome瀏覽器
  • 爬蟲(chóng)程序包

準(zhǔn)備工作

安裝依賴(lài)包

pip3 install -r requirements.txt

下載瀏覽器接口驅(qū)動(dòng)chromedriver

所有chromedriver都可以在這里找到,下載對(duì)應(yīng)自己瀏覽器(Chrome版本可以在設(shè)置->關(guān)于chrome里面查看
)和操作系統(tǒng)的版本:

http://chromedriver.storage.googleapis.com/index.html

備用鏡像站點(diǎn)

http://npm.taobao.org/mirrors/chromedriver

本人測(cè)試版本:
chrome 65.0.3325.181
chromedriver 2.36

Linux平臺(tái)(推薦):

下載完成解壓縮后:

cp ./chromedriver /usr/local/bin
cd /usr/local/bin
chmod +x ./chromedriver

Windows平臺(tái)

解壓縮后,復(fù)制整個(gè)目錄到c盤(pán)下,將該目錄添加進(jìn)環(huán)境變量

環(huán)境變量配置

附錄:

ChromeDriver與Chrome版本映射表:

映射表

使用方法:

python3 master.py

按照提示符輸入要爬取的鳥(niǎo)類(lèi)的中文名(用于搜索)與英文名稱(chēng)(用于保存時(shí)候文件命名)即可,下載的文件會(huì)在與master.py所在的同一目錄下建立/pic/$name 進(jìn)行保存;

運(yùn)行結(jié)果.png

ps.

關(guān)于/pic/$name 目錄下的page.txt文件:
該文件保存的是獲取到的圖片的總張數(shù)n,當(dāng)下一次繼續(xù)獲取相同鳥(niǎo)類(lèi)圖片時(shí),會(huì)以n+1的命名方式繼續(xù)保存;

可能遇到的問(wèn)題:

問(wèn)題1 這是由于沒(méi)有成功加載chromedriver,請(qǐng)檢查環(huán)境變量是否配置正確;

問(wèn)題1

問(wèn)題1

問(wèn)題2 這是由于chromedriver和chrome的版本不對(duì)應(yīng)所導(dǎo)致,請(qǐng)重新下載適配的版本;

問(wèn)題2

ps.啟動(dòng)程序后,chrome瀏覽器被自動(dòng)打開(kāi),可能也是由于版本不適配的原因

如果存在其他問(wèn)題,或者對(duì)該程序有更好的建議\優(yōu)化方案,你可以通過(guò)Email聯(lián)系我,我會(huì)盡量在24h內(nèi)查看郵件并回復(fù)

郵箱地址:Orion97.gy@gmail.com
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容