在使用過多種爬蟲軟件后,終于找到一個簡單易用且免費的數(shù)據(jù)采集器。對于編程基礎(chǔ)不是很強的數(shù)據(jù)分析人員來說,爬一爬采集器簡直像是量身定做。在使用過程中有幾點感受必須大贊特贊。
免費 / 操作簡單 / 跨平臺 / 高效率
下面簡單給大家介紹下使用方法,讓更多人用最簡單的方式采集到所需的數(shù)據(jù)。
1.首先去爬一爬官網(wǎng)(http://www.pa1pa.com)下載爬一爬采集器的谷歌瀏覽器插件。
2.點擊瀏覽器工具欄右側(cè)按鈕->更多工具->擴展程序。或在地址欄中輸入:chrome://extensions/ ?
3. 把下載好的插件拖入瀏覽器中“擴展程序”的頁面,點擊“添加擴展程序”,這樣插件就安裝完成了?!芭馈睒酥境霈F(xiàn)在右側(cè)插件欄。
4. 確保賬號已登錄,打開要采集的網(wǎng)站,點擊瀏覽器插件欄的“爬”圖標,啟動插件。
5. 依次點擊選取所要抓取的元素。如果色彩框沒有包含所有的任務(wù)數(shù)據(jù),點擊所選元素右側(cè)的“轉(zhuǎn)換”按鈕,切換算法,直到選中所有的任務(wù)數(shù)據(jù)。

6. 如果要抓取多個頁面,點擊分頁設(shè)置的箭頭,選中頁碼所在的區(qū)域。

7. 確認色彩框選中全部數(shù)據(jù)后,先點擊“完成”按鈕,再點擊“測試”按鈕,測試數(shù)據(jù)采集是否成功。(注:測試模式下最多抓取5頁數(shù)據(jù))

8. 確認測試成功后,點擊”O(jiān)K”關(guān)閉測試窗口。填寫任務(wù)名稱(長度為4-32的字符,必填),并根據(jù)個人需要修改列名。
9. 點擊“提交”按鈕,任務(wù)創(chuàng)建成功。您可在網(wǎng)站的“任務(wù)”頁面下運行并管理該任務(wù)。
10. 在任務(wù)運行的同時,您可點擊該任務(wù)的"管理"頁面查看任務(wù)運行的狀態(tài)及日志。

11. 任務(wù)運行結(jié)束后,點擊"任務(wù)”頁面的數(shù)據(jù)選項即可查看并下載數(shù)據(jù)。

? ? 教程就簡單給大家分享一下,操作很簡單,又是免費的,功能也很強大。希望這次分享能給一些需要采集數(shù)據(jù)工作者或者需要數(shù)據(jù)支持的企業(yè)有所幫助!