
2020 年如果讓我推薦一款大眾向的數(shù)據(jù)采集軟件,那一定是后裔采集器了。和我之前推薦的 web scraper 相比,如果說 web scraper 是小而精的瑞士軍刀,那后裔采集器就是大而全的重型武器,基本上可以解決所有的數(shù)據(jù)爬取問題。
下面我們就來聊聊,這款軟件的優(yōu)秀之處。
一、產(chǎn)品特點
1.跨平臺
后羿采集器是一款桌面應用軟件,支持三大操作系統(tǒng):Linux、Windows 和 Mac,可以直接在官網(wǎng)上免費下載。

2.功能強大
后羿采集器把采集工作分為兩種類型:智能模式和流程圖模式。

智能模式就是加載網(wǎng)頁后,軟件自動分析網(wǎng)頁結構,智能識別網(wǎng)頁內(nèi)容,簡化操作流程。這種模式比較適合簡單的網(wǎng)頁,經(jīng)過我的測試,識別準確率還是挺高的。
流程圖模式的本質(zhì)就是圖形化編程。我們可以利用后裔采集器提供的各種控件,模擬編程語言中的各種條件控制語句,從而模擬真人瀏覽網(wǎng)頁的各種行為爬取數(shù)據(jù)。
3.導出無限制
這個可以說是后羿采集器最良心的功能了。
市面上有很多的數(shù)據(jù)采集軟件,出于商業(yè)化的目的,多多少少會對數(shù)據(jù)導出進行限制。不清楚套路的人經(jīng)常用相關軟件辛辛苦苦采集了一堆數(shù)據(jù),結果發(fā)現(xiàn)導出數(shù)據(jù)需要花錢。
后羿采集器就沒有這個問題,它的付費點主要是體現(xiàn)在 IP 池和采集加速等高級功能上,不但導出數(shù)據(jù)不花錢,還支持 Excel、CSV、TXT、HTML 多種導出格式,并且支持直接導出到數(shù)據(jù)庫,對于普通的用戶來說完全夠用了。

4.教程詳細
我在本文動筆之前曾經(jīng)想過先寫幾篇后羿采集器的使用教程,但是看了他們的官網(wǎng)教程后就知道沒這個必要了,因為寫的實在是太詳細了。
后羿采集器的官網(wǎng)提供了兩種教程,一種是視頻教程,每個視頻五分鐘左右;一種是圖文教程,手把手教學??赐赀@兩類教程后還可以看看他們的文檔中心,寫的也非常詳細,基本覆蓋了該軟件的各個功能點。

二、基礎功能
1.數(shù)據(jù)抓取
基本的數(shù)據(jù)抓取非常簡單:我們只要點擊「添加字段」那個按鈕,就會出現(xiàn)一個選擇魔棒,然后點選要抓取的數(shù)據(jù),就能采集數(shù)據(jù)了:

2.翻頁功能
我在介紹 web scraper 時曾把網(wǎng)頁翻頁分為 3 大類:滾動加載、分頁器加載和點擊下一頁加載。

對于這三種基礎翻頁類型,后羿采集器也是完全支持的。
不像 web scraper 的分頁功能散落在各種選擇器上,后羿采集器的分頁配置集中在一個地方上,只要通過下拉選擇,就可以輕松配置分頁模式。相關的配置教程可見官網(wǎng)教程:如何設置分頁。

3.復雜表單
對于一些多項聯(lián)動篩選的網(wǎng)頁,后羿采集器也能很好的處理。我們可以利用后裔采集器里的流程圖模式,去自定義一些交互規(guī)則。
例如下圖,我就利用了流程圖模式里的點擊組件模擬點擊篩選按鈕,非常方便。

三、進階使用
1.數(shù)據(jù)清洗
我在介紹 web scraper 時,說 web scraper 只提供了基礎的正則匹配功能,可以在數(shù)據(jù)抓取時對數(shù)據(jù)進行初步的清洗。
相比之下,后羿采集器提供了更多的功能:強大的過濾配置,完整的正則功能和全面的文字處理配置。當然,功能強大的同時也帶來了復雜度的提升,需要有更多的耐心去學習使用。
下面是官網(wǎng)上和數(shù)據(jù)清洗有關的教程,大家可以參考學習:
- 如何設置數(shù)據(jù)篩選講解了基礎的數(shù)據(jù)清洗功能,可以避免采集過程中的無效采集(例如采集某個微博博主的數(shù)據(jù)時,可以過濾第一條置頂微博的數(shù)據(jù),只采集正常時間流的微博)
- 如何設置采集范圍講解了采集過程中過濾不需要的采集項,可以方便的自定義采集范圍(例如采集豆瓣電影 TOP 250 時,只采集前 100 名的數(shù)據(jù),而不是全量的 250 條數(shù)據(jù))
- 如何對采集字段進行配置講解了如何定制采集的最小字段,并且支持疊加處理,可以對一個字段使用多種匹配規(guī)則。(例如只想采集「1024 個贊」這條文本里的數(shù)字,就可以設置相應的規(guī)則過濾掉漢字)
2.流程圖模式
本文前面也介紹過了,流程圖模式的本質(zhì)就是圖形化編程。我們可以利用后裔采集器提供的各種控件,模擬編程語言中的各種條件控制語句,從而模擬真人瀏覽網(wǎng)頁的各種行為爬取數(shù)據(jù)。
比如說下圖這個流程圖,就是模擬真人瀏覽微博時的行為去抓取相關數(shù)據(jù)。

經(jīng)過我個人的幾次測試,我認為流程圖模式有一定的學習門檻,但是和從頭學習 python 爬蟲比起來,學習曲線還是緩和了不少。如果對流程圖模式很感興趣,可以去官網(wǎng)上學習,寫的非常詳細。
3.XPath/CSS/Regex
無論是什么爬蟲軟件,他們都是基于一定的規(guī)則去抓取數(shù)據(jù)的。XPath/CSS/Regex 就是幾個常見的匹配規(guī)則。后羿采集器支持自定義這幾種選擇器,可以更靈活的選擇要抓取的數(shù)據(jù)。
比如說某個網(wǎng)頁里存在數(shù)據(jù) A,但只有鼠標移到對應的文字上才會以彈窗的形式顯示出來,這時候我們就可以自己寫一個對應的選擇器去篩選數(shù)據(jù)。

XPath
XPath 是一種在爬蟲中運用非常廣泛的數(shù)據(jù)查詢語言。我們可以通過 XPath 教程去學習這個語言的運用。
CSS
這里的 CSS 特指的 CSS 選擇器,我之前介紹 web scraper 的高級技巧時,講解過 CSS 選擇器的使用場景和注意事項。感興趣的人可以看我寫的 CSS 選擇器教程。
Regex
Regex 就是正則表達式。我們也可以通過正則表達式去選擇數(shù)據(jù)。我也寫過一些正則表達式的教程。但是個人認為在字段選擇器這個場景下,正則表達式?jīng)]有 XPath 和 CSS 選擇器好用。
4.定時抓取/IP 池/打碼功能
這幾個都是后羿采集器的付費功能,我沒有開會員,所以也不知道使用體驗怎么樣。在此我做個小小的科普,給大家解釋一下這幾個名詞是什么意思。
定時抓取
定時抓取非常好理解,就是到了某個固定的時間爬蟲軟件就會自動抓取數(shù)據(jù)。市面上有一些比價軟件,背后就是運行著非常多的定時爬蟲,每隔幾分鐘爬一下價格信息,以達到價格監(jiān)控的目的。
IP 池
互聯(lián)網(wǎng)上 90% 的流量都是爬蟲貢獻的,為了降低服務器的壓力,互聯(lián)網(wǎng)公司會有一些風控策略,里面就有一種是限制 IP 流量。比如說互聯(lián)網(wǎng)公司后臺檢測到某個 IP 有大量的數(shù)據(jù)請求,超過了正常范圍,就會暫時的封鎖這個 IP,不返回相關數(shù)據(jù)。這時候爬蟲軟件就會自己維護一個 IP 池,用不同的 IP 發(fā)送請求,降低 IP 封鎖的概率。
打碼功能
這個功能就是內(nèi)置了驗證碼識別器,可以實現(xiàn)機器打碼 or 手動打碼,也是繞過網(wǎng)站風控的一種方法。
四、總結
個人認為后羿采集器是一款非常優(yōu)秀的數(shù)據(jù)采集軟件。它提供的免費功能可以解決絕大部分編程小白的數(shù)據(jù)抓取需求。
如果有一些編程基礎,可以明顯的看出一些功能是對編程語言邏輯的封裝,比如說流程圖模式是對流程控制的封裝,數(shù)據(jù)清洗功能是對字符串處理函數(shù)的封裝。這些高階功能擴展了后羿采集器的能力,也增大了學習難度。
我個人看來,如果是輕量的數(shù)據(jù)抓取需求,更傾向于使用 web scraper;需求比較復雜,后羿采集器是個不錯的選擇;如果涉及到定時抓取等高級需求,自己寫爬蟲代碼反而更加可控。
總而言之,后羿采集器是一款優(yōu)秀的數(shù)據(jù)采集軟件,非常推薦大家學習和使用。