一個(gè)小改改時(shí)不時(shí)找我做一個(gè)Google擴(kuò)展來下載Amazon的評(píng)論以提高工作效率,奈何時(shí)間一直不在這一塊,剛好同學(xué)也接到了這個(gè)需求,就打算一起做一個(gè)。
最后商量還是做一個(gè)Gui,Google擴(kuò)展有時(shí)候感覺有些不方便,順帶了解一下Python中的標(biāo)準(zhǔn)庫(kù)tkinter。
最后分工我來做界面,同學(xué)來寫下載解析那一塊,說說一下思路,其實(shí)還是很簡(jiǎn)單的,就跟普通的爬蟲差不多。
- Gui提供2個(gè)參數(shù),一個(gè)是站點(diǎn),一個(gè)是產(chǎn)品Asin,Gui的具體界面就不仔細(xì)說了
- 通過2個(gè)參數(shù),可以構(gòu)建一個(gè)種子Url,先會(huì)檢測(cè)產(chǎn)品是否存在(404)
- 檢測(cè)通過后,然后開始開啟線程遞歸下載
- 下載完成后,解析數(shù)據(jù)保存到本地
- 判斷是否存在下一頁(yè),存在則修改header繼續(xù)下載解析,直到最后一頁(yè)
沒有使用代理,因?yàn)閿?shù)據(jù)量小,防止被ban,加了一些延時(shí)請(qǐng)求,如果有需要的朋友可以自行添加。
最后建議一下,簡(jiǎn)單的頁(yè)面可以是用tkinter,復(fù)雜可以使用其他Gui庫(kù),比如pyqt,tkinter實(shí)現(xiàn)復(fù)雜的頁(yè)面有點(diǎn)費(fèi)勁。
源碼以及下載地址https://github.com/DisasterMeng/Gui-Amazon-Review
,求星星??,如有錯(cuò)誤,歡迎斧正。

result.png