主流爬蟲代碼常規(guī) 使用 python bs4 scrapy。這些我都斷斷續(xù)續(xù)寫過一部分。不過總結(jié)起來代碼只是為了實(shí)現(xiàn)減少重復(fù)勞動(dòng)過程。
所以傾向已經(jīng)使用工具。畢竟回到代碼的小伙伴也少。而且要處理,utf8編碼,翻頁,反爬蟲等一系列斗爭。所以我就簡單介紹幾個(gè)工具。
GooSeeker,神箭手,八爪魚,網(wǎng)絡(luò)礦工。都挺好用一定程度減少入門難度。都要注冊同時(shí)有些限制。導(dǎo)出數(shù)據(jù)要積分。這都可以理解畢竟要生存。
這里我推薦我自己用的比較順手的軟件。
VG瀏覽器v5 版本(限制采集時(shí)間1小時(shí),常規(guī)的操作都可以采集完。不行可以分次采集)感覺比較良心,新版改成0.5個(gè)小時(shí)。不保證一直可用。畢竟都一直都在變化。
可以導(dǎo)出數(shù)據(jù)庫,excel 文件。方便我對(duì)比撒選基金綜合實(shí)力較強(qiáng)的

image.png

image.png