不用寫代碼,webscraper 30秒抓取李笑來所有微博

image.png

學習金字塔中說道,“最有效的學習方法就是教別人”。

如果我們學到某些知識,能清楚的講給別人聽;
或者我們學會某些技能,可以教給別人使用;

那就說明,我們真的學會了。

互聯(lián)網(wǎng)從業(yè)者,平時可能需要到微博、百度,知乎之類的網(wǎng)站,統(tǒng)計一些數(shù)據(jù),做產(chǎn)品分析,用戶喜好之類的分析。

但是有時候數(shù)據(jù)量比較大,手動統(tǒng)計太費時間,編程的話,門檻太高。

我給大家分享一個谷歌插件,webscraper,不用寫代碼,點點鼠標就可以抓取互聯(lián)網(wǎng)上大量的數(shù)據(jù)。

這個插件,功能十分強大。

微信公眾號,微博,百度,知乎、淘寶等等,只要是網(wǎng)頁上可以顯示的信息,都可以抓取到。

比如:咪蒙的公眾號。我只用了30秒設置插件,然后出去喝了杯水,回來后,就看到數(shù)據(jù)結果:咪蒙的631篇文章標題。

由于數(shù)量太大,我只截取了最后一段。

image.png

真是太爽了,有沒有。

想象一下,你打開一個網(wǎng)頁,設置抓取格式,軟件開始工作。你站起來,伸個懶腰,去外面倒一杯咖啡,回來后,需要的數(shù)據(jù)已經(jīng)完整展現(xiàn)在你面前,多方便。

今天我來給大家分享這個軟件——webscraper。

我們一步一步來,這次我們用李笑來微博作為例子。

一、下載安裝

我們需要安裝兩個軟件:

  • Chrome瀏覽器
  • webscraper插件

谷歌瀏覽器,大家根據(jù)自己的操作系統(tǒng),windows或者mac,百度搜索,下載安裝即可。

webscraper插件安裝方法有兩種:

1、直接在瀏覽器輸入地址:http://chrome.google.com/webstore/detail/web-scraper/jnhgnonknehpejjnehehllkliplmbmhn

image.png

按照提示點擊“安裝”即可

2、從云盤下載webscraper安裝包:

鏈接:https://pan.baidu.com/s/1bp0Iftd
密碼: 11kt

下載好以后,
(1)Chrome 瀏覽器中輸入:chrome://extensions/
(2)將下載好的文件拖動到此此頁面
(3)根據(jù)提示點擊:Add extensions;即完成安裝。

以上,所需軟件就已安裝完畢。

二、打開軟件

webscraper打開的入口有三種方法:
1、windows, linux:Ctrl+Shift+I 或者 f12, 或者 Tools / Developer tools
2、mac: Cmd+Opt+I, 或者 Tools / Developer tools
3、或者:右鍵——> 審查元素(適用于各個系統(tǒng))


image.png

如上圖,大家可以看到,紅框標注的地方,出現(xiàn)了一個webscraper,沒有安裝之前是看不到的。

三、創(chuàng)建sitemap

image.png

如上圖,我們點擊“create sitemap”,進入下面??圖片;


image.png

如上圖:

這個步驟需要輸入 2 個信息:

最后點擊 Create Sitemap 按鈕即可

四、設置selector

image.png

如上圖,點擊“Add new selector”,進入下圖;


image.png

如上圖,我們按照標號來挨個看。

  1. 輸入 “Id”。(自定義,不能為空,至少三個字符(數(shù)字,字母均可))
  2. 選擇 “Type”,此處選擇Element scroll down
  3. 點擊 “Select” 進行元素抓取
  4. 上一步,點擊“Select”后,會出現(xiàn)標號4出懸浮的工具框
  5. 點擊第一個帖子
  6. 點擊第二個帖子,完成后,點擊懸浮工具框藍色的“Done slecting!"
  7. 勾選 “Multiple”
  8. 輸入 Delay(延遲時間,意思是等待多長時間后,再進行抓取,建議填 2000)
  9. 點擊”Save Selector“

這步完成后,你會發(fā)現(xiàn),sitemap下出現(xiàn)了一個叫content的選擇器,如下圖

image.png

點擊上圖的“content”,進入下圖:


image.png

如上如,標號1,你會發(fā)現(xiàn),這里多了一個content。
我們點擊這里,標號2的地方,“Add new selector",進入下圖:


image.png

如上圖:我們按照標號依次看:

  1. 輸入 “Id”。(自定義,不能為空,至少三個字符(數(shù)字,字母均可))
  2. 選擇 “Type”,此處選擇Text
  3. 點擊 “Select” 進行元素抓取
  4. 上一步,點擊“Select”后,會出現(xiàn)標號4出懸浮的工具框
  5. 注意,當我們點擊上一步4的select后,第一個帖子會變黃,我們點擊這個黃色區(qū)域,它會變?yōu)榧t色。
  6. 點擊”Save Selector“,其他的都不用設置。

以上,我們抓取李笑來微博的所有設置都已完成。

五、開始抓取

這步,我們開始正式抓?。?/p>

image.png

如上圖,點擊中間這列,點擊下拉框中出現(xiàn)的“Scrape”,進入下圖:


image.png

這幾個都默認就行,直接點擊標號4的“Start scraping”。

點擊后,瀏覽器會彈出一個新窗口,進行抓取工作,不要關閉,等待他抓取完畢。

你會發(fā)現(xiàn),彈出的窗口,會自動下拉鼠標,模擬人的手,自動化的將這頁全部的帖子全部抓取下來。

完畢后,會出現(xiàn)抓取的數(shù)據(jù),如下圖:


image.png

六、導出到本地電腦

image.png

如上圖,點擊中間這列,點擊下拉框中的“Export data as CSV”,會進入下圖。


image.png

如上圖,點擊“Download now”,即可將數(shù)據(jù)下載到本地,以表格的形式存儲。

文件可以用excel打開,mac下用numbers打開即可。

至此,李笑來的微博我們已經(jīng)全部抓取完畢了。

怎么樣,是不是很厲害。

其實這個軟件的功能遠不止此,大家操作起來吧。


這個工具有時候會受到一些程序員的鄙視,他們說自己會寫代碼,不屑于用這類工具。

寫代碼當然可以做到這點,但是,如果你不是專業(yè)寫爬蟲的程序員,你要寫一個功能來抓取某些數(shù)據(jù),就拿咪蒙公眾號歷史文章來說,我用這個插件30秒就成完成,你用30秒估計剛打開編輯器,連引用的庫都還沒寫完吧。

所以別來抬杠。。。

如果你遇到webscraper的其他問題,可以看看下面這篇文章——
有關 webscraper 的問題,看這個就夠了(建議收藏)
http://www.itdecent.cn/p/cd5124ac0871

最后編輯于
?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容