通過cws(chwod web spider)進(jìn)行互聯(lián)網(wǎng)數(shù)據(jù)的收集

簡介

觸手可及的互聯(lián)網(wǎng)數(shù)據(jù)收集整理工具。通過簡單的操作即可在雜亂無章和比較講究的網(wǎng)站中找到有價值的數(shù)據(jù)。比如新聞列表、商品信息、公司名錄、郵件地址等任何感興趣的內(nèi)容。
三步即可完成整個過程:

  1. 指定一個開始地址(通常就是一個url地址)
  2. 確定你感興趣的內(nèi)容,并標(biāo)記下來,在必要的情況下,配合一些頁面操作,比如打開鏈接、內(nèi)容錄入,按下按鈕等動作;最后讓其自動運行
  3. 對收集到的數(shù)據(jù)進(jìn)行整理,最后按下下載按鈕,稍等片刻,即可完成

特征清單:

  • 可以在任意一個頁面內(nèi)尋找有價值的內(nèi)容,也可以在多個頁面內(nèi)尋找,在不同的頁面之間進(jìn)行自動切換,無需手動進(jìn)行
  • 可以獲取頁面中單一的內(nèi)容,也可以同時獲取多個相似或不相似的內(nèi)容
  • 可以自動打開頁面中的鏈接、單擊某個按鈕, 或是錄入一些內(nèi)容,就像用戶操作一樣
  • 可以將固定內(nèi)容、提前準(zhǔn)備好的數(shù)據(jù),以及已經(jīng)找到的數(shù)據(jù)自動填充到某個輸入組件內(nèi)
  • 對于反復(fù)的操作,可以通過跳轉(zhuǎn)來實現(xiàn),在必要的地方使用跳轉(zhuǎn)即可實現(xiàn)多次重復(fù)操作
  • 在重復(fù)操作的過程中,如果遇到需要使用不同數(shù)據(jù)的情況,可以不必?fù)?dān)心,因為每次使用的數(shù)據(jù)都是按照先后次序有序使用,直到所有數(shù)據(jù)都被使用過,也可以設(shè)定一個跳轉(zhuǎn)次數(shù),在達(dá)到設(shè)定的跳轉(zhuǎn)次數(shù)后終止跳轉(zhuǎn)
  • 當(dāng)所有設(shè)定完成之后,就可以讓其自動運行,在此期間,你可以去喝杯咖啡
  • 當(dāng)數(shù)據(jù)到手后,別著急,還可以進(jìn)行基本的編排動作,比如調(diào)整先后順序,層次結(jié)構(gòu)
  • 當(dāng)數(shù)據(jù)準(zhǔn)備完成后,就可以下載,稍等片刻即可完成

安裝

該擴展程序是chrome擴展,需要首先安裝chrome瀏覽器,最低版本要求為54版本。
下載擴展插件:
http://cws.chwod.com/chwod-spider.zip
下載后解壓安裝包到一個不礙事或不起眼的地方。
啟動chrome瀏覽器,在地址欄輸入:

chrome://extensions/

展示為如下圖所示:


安裝

如上圖所示:首先單擊右上角的按鈕,啟用開發(fā)者模式,如圖中的位置1
如圖中的位置2,單擊“加載已解壓的擴展程序”,彈出對話框,選擇下載后解壓的那個不礙事或不起眼的目錄。
如果加載成功,會在下方如圖中的位置3處展示剛剛加載的擴展程序,請確認(rèn)插件名稱是否是chwod web spider;同時在右上角地址欄后(圖中位置5)出現(xiàn)cws的圖標(biāo);

由于該模式是開發(fā)者模式,對于部分版本的chrome瀏覽器在重啟后,可能會得到一些警告消息,甚至?xí)谀持星闆r下自動關(guān)閉開發(fā)者模式,遇到此種情況請在上圖中的位置1處重新啟用即可。

如果開發(fā)者模式處于開啟模式,但是地址欄后并不顯示cws的圖標(biāo),那么也可能是當(dāng)前擴展程序被禁用,請在如圖中位置4的地方保該擴展程序是開啟狀態(tài);

使用

在地址欄右側(cè)單擊cws圖標(biāo)(上一部分中圖中位置5)即可打開相關(guān)頁面,如下圖所示:


使用

主要內(nèi)容包含三部分:

  • 數(shù)據(jù)源:可以為后續(xù)數(shù)據(jù)收集過程中提前預(yù)備部分?jǐn)?shù)據(jù),比如一些地區(qū)數(shù)據(jù)
  • 錄制和執(zhí)行:是該擴展程序的重要功能體現(xiàn),后續(xù)進(jìn)行詳細(xì)描述
  • 配置管理:包含一些配置信息

如果采集數(shù)據(jù)超過一千條,你需要注冊一個帳號并登錄進(jìn)去。

為達(dá)到基本錄制的能力,我們只使用錄制和執(zhí)行部分,其余兩部分在本次操作中不會使用,有興趣可以自行體驗,其功能并不復(fù)雜。
切換到錄制和執(zhí)行頁面,如下圖所示;


錄制和執(zhí)行
  • 新建(圖中位置1):新建一個錄制任務(wù),指定一個名稱和一個起始URL地址即可
  • 錄制(圖中位置2):當(dāng)新建了一個錄制任務(wù),就可以開始進(jìn)行錄制,單擊該按鈕即可開始,后續(xù)會詳細(xì)說明;如果沒有選擇任何一條記錄,則該功能不可用
  • 執(zhí)行(途中位置3):當(dāng)錄制完成后,該程序就完成了數(shù)據(jù)收集的必須準(zhǔn)備,單擊該按鈕即開始自動運行過程中,這是具體數(shù)據(jù)收集過程;如果還沒有錄制,則該功能不可用
  • 數(shù)據(jù)編排和下載(途中位置4):當(dāng)錄制完成后,可以隨時到這里進(jìn)行數(shù)據(jù)的基本處理,并下載該數(shù)據(jù);后續(xù)會進(jìn)行詳細(xì)說明;如果沒有執(zhí)行過,代表還沒有數(shù)據(jù),則該功能不可用
  • 刪除(圖中位置5):顧名思義,你會拋棄這個記錄,如果已經(jīng)收集了數(shù)據(jù),會連同數(shù)據(jù)一并清除

錄制

錄制是該擴展程序的核心功能。
在上個步驟中新建或選擇一個已經(jīng)存在的記錄,并單擊錄制按鈕,會彈出一個對話框,如下圖所示:


腳本錄制

此處展示提示信息,提示用戶會以一個新的窗口打開目標(biāo)網(wǎng)站。單擊開始錄制按鈕,彈出新的窗口,打開目標(biāo)網(wǎng)站,會首先彈出一個對話框,提示一些操作方法:


腳本錄制

如果不想下次再次彈出,則可以選擇途中的復(fù)選框
單擊開始錄制按鈕,開始錄制,對話框會關(guān)閉,在網(wǎng)站的頂部會出現(xiàn)一個工具欄,如下圖所示(當(dāng)工具欄出現(xiàn)時,你無法操作目標(biāo)網(wǎng)站的任何內(nèi)容):
工具欄
  • 最左側(cè)展示當(dāng)前準(zhǔn)備錄制的計數(shù)器,剛開始錄制,是從步驟1開始的
  • 等待:在遇到驗證碼之類的驗證時,必須用戶主動介入才能完成的動作,需要按下等待按鈕,詳細(xì)信息請參考下文等待部分
  • 結(jié)束錄制:結(jié)束錄制,完成當(dāng)前腳本錄制過程

等待

等待一般發(fā)生在腳本錄制的開始階段,如果出現(xiàn)需要人為干預(yù)的情況才有必要使用次功能。比如錄入驗證碼。在等待的情況下頁面頂部會展示一個按鈕,如下圖所示:


等待

此時,可以操作目標(biāo)頁面的內(nèi)容進(jìn)行人為干預(yù),在人為干預(yù)的過程中,程序不做任何處理。必須單擊上述按鈕,才能將控制權(quán)交還給程序,并進(jìn)行下一步的操作
此操作在腳本自動執(zhí)行過程中,出現(xiàn)一個等待人為干預(yù)的過程,以提供人為干預(yù)的機會
如果僅僅是輸入用戶名和密碼等之類的登陸操作,則無需此操作,可以通過頁面操作來實現(xiàn)(請參考下一部分內(nèi)容)

此操作在腳本中并不是必須過程,不必每次都添加

頁面操作或信息采集

可以通過此功能實現(xiàn)替代人為操作的功能或提取頁面信息。該按鈕被按下后,會展示一個工具欄,如下圖所示:


頁面操作或信息采集工具欄
  • 多選(圖中位置1):如果需要同時選擇多個內(nèi)容,則需要勾選此項;只有在單擊“確定”按鈕(圖中位置7)后,方可對數(shù)據(jù)進(jìn)行處理或進(jìn)行下一步操作
  • 鏈接(圖中位置2):如果比較確定的是你的目標(biāo)是一個或多個鏈接,請勾選此項,這樣可以對不是鏈接的內(nèi)容視而不見
  • 輸入框(圖中位置3):如果比較確定的是你的目標(biāo)是一個或多個輸入框,請勾選此項,這樣可以對不是輸入框的內(nèi)容視而不見
  • 單選框/復(fù)選框(圖中位置4):如果比較確定的是你的目標(biāo)是一個或多個單選框或復(fù)選框,請勾選此項,這樣可以對不是單選框或復(fù)選框的內(nèi)容視而不見
  • 按鈕(圖中位置5):如果比較確定的是你的目標(biāo)是一個或多個按鈕,請勾選此項,這樣可以對不是按鈕的內(nèi)容視而不見

其中鏈接,輸入框,單選框/復(fù)選框和按鈕,可以同時選擇其中一個或多個,這樣你可以同時快速選擇多個不同類型的目標(biāo),而對沒有選擇的類型視而不見
如果沒有選擇任何一項,則對所有可能的目標(biāo)都加以撲捉

  • 重選(圖中位置6):如果你希望重新進(jìn)行選擇,則單擊此按鈕即可
  • 確定(圖中位置7):如果你是在多選的模式下進(jìn)行選擇,則當(dāng)你選擇完成后,單擊此按鈕進(jìn)行下一步操作
  • 取消(圖中位置8):取消當(dāng)前操作,回退到初始工具欄狀況

當(dāng)鼠標(biāo)在目標(biāo)網(wǎng)頁內(nèi)進(jìn)行移動時,鼠標(biāo)所在的目標(biāo)如果可用,則會有一個浮動層提示對應(yīng)的信息,如圖中的位置9,所包含的內(nèi)容有如下幾部分:

  • 目標(biāo)類型,比如是一個鏈接、按鈕或輸入框等
  • ID:目標(biāo)的一個路徑編碼,是該擴展程序確認(rèn)目標(biāo)位置的依據(jù)
  • URL:如果目標(biāo)是一個鏈接,則會展示鏈接內(nèi)容
  • 文本:這部分展示目標(biāo)展示的文本,比如上圖中的武清區(qū)
  • 可選操作:是提示可用的操作類型,在單擊該目標(biāo)后(沒有勾選多選的狀態(tài)下)或單擊確定按鈕后(在勾選了多選狀態(tài)下),提示對目標(biāo)的可能操作類型

當(dāng)確定目標(biāo)后,只需要單擊目標(biāo)即可選中。大可不必?fù)?dān)心單擊后可能會發(fā)生頁面跳轉(zhuǎn)(比如鏈接),頁面錄入(比如輸入框)或出發(fā)某些功能(比如按鈕)。

當(dāng)選擇了多選功能后,你還可以繼續(xù)選擇更多的目標(biāo),如果多個目標(biāo)比較相似,比如上圖中的各區(qū)都是相似目標(biāo),則當(dāng)你選擇了第二個相似目標(biāo)后,程序會認(rèn)為你可能要選擇所有相似的目標(biāo),此時,會自動選擇所有相似目標(biāo)。如果你不希望徐澤所有的目標(biāo),你可以單擊重選按鈕重新選擇,特別是當(dāng)你可能不希望選擇眾多相似目標(biāo)中的一個時,你可以單擊已經(jīng)選中的目標(biāo),從而僅僅取消此選中狀態(tài)。

選中狀態(tài)下的目標(biāo)會有被選中的狀態(tài),很容易區(qū)分出來

當(dāng)選中目標(biāo)后(單選)或單擊確定按鈕后(多選),會彈出一個可選操作的列表,如下圖所示:


頁面操作對話框

這里列出了所有可能的操作,上圖中紅色部分是可操作列表,單擊每一個操作即可展開對應(yīng)的詳情,同時代表針對剛選中的目標(biāo)的操作方式。展開后的效果如下圖所示:


頁面操作和信息采集對話框

在每一個展開的操作的右側(cè)(如上圖中紅色部分)都會展示添加為第幾步的展示(上圖表示提交之后,將成為第三步)
不同的目標(biāo)類型以及是否多個都會有不同的可操作列表, 比如當(dāng)前的操作就是針對多個相似鏈接進(jìn)行的可選操作

在每一個步驟中都會有一個針對性的標(biāo)題輸入框,該內(nèi)容表示當(dāng)前步驟的展示名稱,在后續(xù)和之后需要展示步驟名稱時使用,可以保持該名稱,也可以錄入一個新的名稱,讓其更有意義

單擊按鈕或打開鏈接:代表在操作時,需要打開目標(biāo)鏈接,如果有多個,則會打開第一個鏈接,如果重復(fù)執(zhí)行此操作,則會按次序打開后續(xù)鏈接(在后續(xù)跳轉(zhuǎn)中會有相關(guān)設(shè)定)

  1. 采集鏈接地址:會獲取所有目標(biāo)的鏈接信息,如下圖所示:


    采集鏈接地址
  • 修正:有些鏈接為相對路徑,如果不是一個有效和完整的鏈接,會以紅色顯示,代表為一個相對鏈接,可以勾選修正符選擇,以展示完全如下圖所示


    采集鏈接地址,并修正鏈接
  • 合并:如果你從不同的位置采集相同范疇的數(shù)據(jù),比如不同的頁面可能都有地區(qū)數(shù)據(jù),可能會將這些地區(qū)數(shù)據(jù)合并為一組數(shù)據(jù),則需要使用合并功能,如下圖所示:


    采集鏈接地址并合并到其他采集信息

    如果需要使用合并功能,則必須先存在一個采集步驟,假設(shè)我們已經(jīng)添加了一個標(biāo)題為“區(qū)”的采集步驟,則當(dāng)選中合并之后,會展示一個可以合并的步驟列表。選擇需要添加的步驟即可

  1. 采集文本信息:跟采集鏈接地址類似,但是鏈接一般用來做頁面操作或跳轉(zhuǎn)使用,文本信息主要是我們的最終數(shù)據(jù)目標(biāo)。如下圖所示


    采集文本信息
  • 深度文本:某些情況下,可能只顯示部分文本,完整的文本可能會在不同的目標(biāo)下,因此,勾選此項,可以一次性獲取所有文本。

這里沒有合并選項

3.輸入內(nèi)容:如果選擇的目標(biāo)是一個輸入框,則會展示輸入內(nèi)容步驟,如下圖所示:


輸入內(nèi)容

輸入的內(nèi)容可以是固定內(nèi)容,也可以是數(shù)據(jù)源中輸入,也可以是之前采集步驟中已經(jīng)采集到的數(shù)據(jù)
- 固定內(nèi)容:每次輸入都會是固定內(nèi)容
- 從數(shù)據(jù)源輸入:數(shù)據(jù)源是提前預(yù)置好的數(shù)據(jù)列表,可以參考“步驟3:使用”中關(guān)于數(shù)據(jù)源的說明。如果選擇從數(shù)據(jù)源輸入,則會展示一個可用的數(shù)據(jù)源列表
- 從采集步驟中輸入:選擇此項會展示一個可用的采集步驟列表。必須至少存在一個采集步驟才可使用,否則無法添加當(dāng)前步驟

跳轉(zhuǎn)

跳轉(zhuǎn)是為了支持反復(fù)和循環(huán)操作而添加的特殊步驟。在必要情況下,跳轉(zhuǎn)到需要反復(fù)或循環(huán)執(zhí)行的步驟即可


跳轉(zhuǎn)
  • 跳轉(zhuǎn)到: 可以選擇跳轉(zhuǎn)到之前的某一個步驟,或者之前采集步驟中采集到的某個鏈接
  • 跳轉(zhuǎn)到步驟:如果選擇了步驟,則會展示一個可用的步驟列表
  • 跳轉(zhuǎn)到鏈接:如果選擇了跳轉(zhuǎn)到鏈接,則會展示一個可用的鏈接列表如下圖所示:


    跳轉(zhuǎn)到鏈接

    可以選擇跳轉(zhuǎn)到固定倆接,或者之前的步驟中采集到的鏈接
    如果是剛采集的鏈接,則會展示一個可用的鏈接列表,如下圖所示:


    跳轉(zhuǎn)到采集鏈接
  • 跳轉(zhuǎn)次數(shù):可以選擇總是跳轉(zhuǎn),不限制次數(shù),或者選擇固定次數(shù),如下圖所示:


    跳轉(zhuǎn)次數(shù)

執(zhí)行

當(dāng)腳本錄制完成后,最后單擊結(jié)束錄制,會自動關(guān)閉當(dāng)前窗口,回到之前的頁面
在錄制和執(zhí)行選項卡中選擇剛剛錄制完成的腳步,并單擊執(zhí)行,如下圖所示:


腳本執(zhí)行

程序會自動運行腳本,剩下的就是等待過程,或者你在這個過程中去喝杯咖啡
如果在腳本錄制過程中添加的等待步驟,則在執(zhí)行時,會產(chǎn)生等待過程,此時需要人為干預(yù)才能繼續(xù)執(zhí)行
當(dāng)執(zhí)行完成之后,進(jìn)入數(shù)據(jù)編排和下載步驟

數(shù)據(jù)編排和下載

當(dāng)執(zhí)行完畢后,會自動關(guān)閉目標(biāo)頁面,回到當(dāng)前頁面,并自動打開數(shù)據(jù)編排和數(shù)據(jù)下載頁面,如果沒有自動打開,則可以隨時在錄制和執(zhí)行頁面中,選中對應(yīng)腳本,并單擊“數(shù)據(jù)編排和下載”按鈕,進(jìn)入數(shù)據(jù)編排和下載頁,如下圖所示:


數(shù)據(jù)編排和下載
  • 移到第一列(圖中位置1):將選中的列移動到第一列
  • 左移一列(圖中位置2):將選中的列向左移動一列
  • 右移一列(圖中位置3):將選中的列向右移動一列
  • 移到最后一列(圖中位置4):將選中的列移動到最后一列
  • 降級(圖中位置5):將選中列的數(shù)據(jù)進(jìn)行降級處理,降級后,當(dāng)前列是前一列的下一級,其中第一列不能降級,已經(jīng)是前一列的下一級不能降級
  • 升級(圖中位置6):將選中列的數(shù)據(jù)進(jìn)行升級處理,升級后,當(dāng)前列與前一列的平級數(shù)據(jù),已經(jīng)是第一級的數(shù)據(jù)不能升級,與前一列已經(jīng)是平級的數(shù)據(jù)不能升級
  • 重命名(圖中位置7):將列頭進(jìn)行重命名,下載后數(shù)據(jù)文件的標(biāo)題頭將使用修改后的名稱
  • 刪除(圖中位置8):從當(dāng)前表格中隱藏選中的數(shù)據(jù)列。并不是實際刪除數(shù)據(jù)。可以通過重置按鈕恢復(fù)刪除的數(shù)據(jù)
  • 重置(圖中位置9):如果你將數(shù)據(jù)處理的一團(tuán)糟,你可以通過重置按鈕恢復(fù)數(shù)據(jù)
  • 下載數(shù)據(jù)(圖中位置10):當(dāng)你編排完成后,或者認(rèn)為不需要編排,那么單擊此按鈕可以進(jìn)行數(shù)據(jù)的下載,采集到的數(shù)據(jù)會生成excel文件

相關(guān)鏈接

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容