Python爬蟲-Amazon評(píng)論【附工具】

一個(gè)小改改時(shí)不時(shí)找我做一個(gè)Google擴(kuò)展來下載Amazon的評(píng)論以提高工作效率,奈何時(shí)間一直不在這一塊,剛好同學(xué)也接到了這個(gè)需求,就打算一起做一個(gè)。

最后商量還是做一個(gè)Gui,Google擴(kuò)展有時(shí)候感覺有些不方便,順帶了解一下Python中的標(biāo)準(zhǔn)庫(kù)tkinter。

最后分工我來做界面,同學(xué)來寫下載解析那一塊,說說一下思路,其實(shí)還是很簡(jiǎn)單的,就跟普通的爬蟲差不多。

  • Gui提供2個(gè)參數(shù),一個(gè)是站點(diǎn),一個(gè)是產(chǎn)品Asin,Gui的具體界面就不仔細(xì)說了
  • 通過2個(gè)參數(shù),可以構(gòu)建一個(gè)種子Url,先會(huì)檢測(cè)產(chǎn)品是否存在(404)
  • 檢測(cè)通過后,然后開始開啟線程遞歸下載
  • 下載完成后,解析數(shù)據(jù)保存到本地
  • 判斷是否存在下一頁(yè),存在則修改header繼續(xù)下載解析,直到最后一頁(yè)

沒有使用代理,因?yàn)閿?shù)據(jù)量小,防止被ban,加了一些延時(shí)請(qǐng)求,如果有需要的朋友可以自行添加。

最后建議一下,簡(jiǎn)單的頁(yè)面可以是用tkinter,復(fù)雜可以使用其他Gui庫(kù),比如pyqt,tkinter實(shí)現(xiàn)復(fù)雜的頁(yè)面有點(diǎn)費(fèi)勁。

源碼以及下載地址https://github.com/DisasterMeng/Gui-Amazon-Review
,求星星??,如有錯(cuò)誤,歡迎斧正。

result.png
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • # Python 資源大全中文版 我想很多程序員應(yīng)該記得 GitHub 上有一個(gè) Awesome - XXX 系列...
    小邁克閱讀 3,129評(píng)論 1 3
  • 100+ 經(jīng)典技術(shù)書籍,涵蓋:計(jì)算機(jī)系統(tǒng)與網(wǎng)絡(luò)、系統(tǒng)架構(gòu)、算法與數(shù)據(jù)結(jié)構(gòu)、前端開發(fā)、后端開發(fā)、移動(dòng)開發(fā)、數(shù)據(jù)庫(kù)、測(cè)...
    玥玥籽閱讀 1,576評(píng)論 0 2
  • python 也是很值得學(xué)習(xí)的一門工具。學(xué)好python和R。 1環(huán)境管理 管理 Python 版本和環(huán)境的工具 ...
    Liam_ml閱讀 5,000評(píng)論 1 50
  • 原文鏈接: http://www.itdecent.cn/p/9c6ae64a1bd7 GitHub 上有一個(gè) A...
    李紹俊閱讀 6,186評(píng)論 0 91
  • 迷茫、焦慮,好像是這個(gè)時(shí)代的代名詞,每天海量的新聞大篇幅的筆墨都在描寫刻畫、加深人們的這一狀態(tài),仿佛不處于迷茫、焦...
    是龍姑娘閱讀 301評(píng)論 1 1

友情鏈接更多精彩內(nèi)容