使用工具:八爪魚客戶端
在八爪魚客戶端中可以使用自定義模式靈活配置采集任務(wù)
首先需要確定目標(biāo)網(wǎng)址和采集需求
以京東為例,我們需要在京東首頁輸入關(guān)鍵詞"手機",然后去采集全部"手機"搜索結(jié)果的數(shù)據(jù)(八爪魚工具采集)
第一步?復(fù)制粘貼目標(biāo)網(wǎng)址
復(fù)制京東首頁的網(wǎng)址。粘貼至八爪魚首頁選項的網(wǎng)址輸入框中,點擊開始采集,點擊保存設(shè)置,可以觀察到八爪魚自動的打開了這個網(wǎng)頁,接下來就是去配置采集流程。

查看采集流程的開關(guān)在設(shè)置選項里,自定義模式配置里的打開流程圖是默認(rèn)開啟的。

第二步? 輸入文本&執(zhí)行操作&添加流程
輸入關(guān)鍵詞"手機",并實現(xiàn)搜索,選中輸入框,在彈出的操作提示框中選擇輸入文字,輸入關(guān)鍵詞"手機",點擊"確定"保存,注意觀察,八爪魚自動的將"手機"這一關(guān)鍵詞自動的填充到了輸入框中,并將這個步驟添加到了流程中。




接下來是點擊"搜索"按鈕,選中"搜索"按鈕,在操作提示框中選擇"點擊該按鈕",同樣的,八爪魚執(zhí)行了搜索這個操作,并將這個步驟添加進流程中,現(xiàn)在頁面中就出現(xiàn)了手機這個商品關(guān)鍵詞的搜索結(jié)果。


第三步?采集全部手機數(shù)據(jù)
在八爪魚中是需要建立一個循環(huán)去完成的,怎樣建立循環(huán)呢?
選中第一個手機列表,在彈出的操作提示框中選擇"選中子元素"。

這里的"子元素"就是手機列表中的字段,選擇"選中子元素"以后提示我們發(fā)現(xiàn)30組同類元素,很顯然我們是需要采集頁面中全部30組手機數(shù)據(jù)的,所以呢在這里需要選擇"選中全部"。

繼續(xù)選擇"采集數(shù)據(jù)",注意觀察,八爪魚就自動地生成了一個"循環(huán)-提取數(shù)據(jù)"的步驟,循環(huán)中的30條對應(yīng)著頁面中的30個手機數(shù)據(jù),提取數(shù)據(jù)中的字段,對應(yīng)著每一個手機中的具體字段。


八爪魚它自動提取了很多字段,有些是我們不需要的,可以選中字段,點擊右側(cè)的"垃圾桶"圖標(biāo),將其刪除。


除了刪除字段外還可以修改字段的名稱,如修改成(價格,標(biāo)題)字段。


第四步?實現(xiàn)翻頁
現(xiàn)在這個流程采集的是第一頁數(shù)據(jù),如果我們需要翻頁采集,該如何操作?
選中并點擊頁面中的"下一頁"按鈕,在出現(xiàn)的操作提示框中選擇"循環(huán)點擊下一頁"。

注意觀察,八爪魚建立了一個"循環(huán)翻頁"的步驟,有了循環(huán)翻頁步驟以后,八爪魚就能實現(xiàn)全自動翻頁了。

第五步?設(shè)置向下滾動
京東這個網(wǎng)站比較特別,在出現(xiàn)手機搜索結(jié)果以后,需要向下滾動頁面,才會加載出所有的手機列表。
相對應(yīng)的在八爪魚中也需要設(shè)置向下滾動,選中八爪魚流程中的"點擊元素"步驟。

在滾動頁面選項中勾選"頁面加載完成后向下滾動"。

滾動次數(shù)設(shè)置為"10",每次間隔設(shè)置為"0.5",滾動方式設(shè)置為"向下滾動一屏",點擊"確定"保存。

點擊"點擊翻頁"步驟,進行同樣的設(shè)置,現(xiàn)在一個完整的采集任務(wù)就配置好了。啟動采集后,八爪魚就會按照我們的配置全自動的去采集每一頁手機數(shù)據(jù)。


第六步? 采集啟動運行
點擊"開始采集"按鈕,選擇"啟動本地采集",本地采集就是指用數(shù)據(jù)采集到本地文件。

運行后,八爪魚全自動的打開一個采集任務(wù),并按照配置開始采集數(shù)據(jù)。

數(shù)據(jù)采集完成以后會彈出來一個提示框,選擇"導(dǎo)出數(shù)據(jù)",以需要的格式進行導(dǎo)出(Excel[xlsx],csv,html,Json格式以及[sql,MySQL,Oracle]數(shù)據(jù)庫等),圖中舉例選擇的是"Excel[xlsx]"格式進行導(dǎo)出。


點擊"確定",即可以看到最終的導(dǎo)出結(jié)果。

自定義配置的任務(wù)會保存在"我的任務(wù)"中,點擊"我的任務(wù)",找到剛才自定義創(chuàng)建的任務(wù),點擊更多操作下的"···",選擇查看數(shù)據(jù)選項下的"本地采集數(shù)據(jù)",可以查看此任務(wù)采集到的數(shù)據(jù)。

當(dāng)然在此也可以進行數(shù)據(jù)的導(dǎo)出。

自定義配置中的任務(wù)是可以多次啟動和二次編輯的,點擊此處的"啟動本地采集"圖標(biāo),可快速啟動本地采集。

點擊任務(wù)名,進入到任務(wù)配置頁面。

在這里是可以修改任務(wù)配置的,例如在輸入文字步驟,當(dāng)前輸入的是"手機"關(guān)鍵詞,我可以將其更換成"電腦"。



自定義配置任務(wù)方法一:在首頁輸入框中輸入網(wǎng)址去自定義配置任務(wù)的。
自定義配置任務(wù)方法二:點擊左側(cè)的新建-自定義任務(wù),直接開始輸入網(wǎng)址進行自定義任務(wù)的配置。
