
學習金字塔中說道,“最有效的學習方法就是教別人”。
如果我們學到某些知識,能清楚的講給別人聽;
或者我們學會某些技能,可以教給別人使用;
那就說明,我們真的學會了。
互聯(lián)網(wǎng)從業(yè)者,平時可能需要到微博、百度,知乎之類的網(wǎng)站,統(tǒng)計一些數(shù)據(jù),做產(chǎn)品分析,用戶喜好之類的分析。
但是有時候數(shù)據(jù)量比較大,手動統(tǒng)計太費時間,編程的話,門檻太高。
我給大家分享一個谷歌插件,webscraper,不用寫代碼,點點鼠標就可以抓取互聯(lián)網(wǎng)上大量的數(shù)據(jù)。
這個插件,功能十分強大。
微信公眾號,微博,百度,知乎、淘寶等等,只要是網(wǎng)頁上可以顯示的信息,都可以抓取到。
比如:咪蒙的公眾號。我只用了30秒設置插件,然后出去喝了杯水,回來后,就看到數(shù)據(jù)結果:咪蒙的631篇文章標題。
由于數(shù)量太大,我只截取了最后一段。

真是太爽了,有沒有。
想象一下,你打開一個網(wǎng)頁,設置抓取格式,軟件開始工作。你站起來,伸個懶腰,去外面倒一杯咖啡,回來后,需要的數(shù)據(jù)已經(jīng)完整展現(xiàn)在你面前,多方便。
今天我來給大家分享這個軟件——webscraper。
我們一步一步來,這次我們用李笑來微博作為例子。
一、下載安裝
我們需要安裝兩個軟件:
- Chrome瀏覽器
- webscraper插件
谷歌瀏覽器,大家根據(jù)自己的操作系統(tǒng),windows或者mac,百度搜索,下載安裝即可。
webscraper插件安裝方法有兩種:
1、直接在瀏覽器輸入地址:http://chrome.google.com/webstore/detail/web-scraper/jnhgnonknehpejjnehehllkliplmbmhn

按照提示點擊“安裝”即可
2、從云盤下載webscraper安裝包:
鏈接:https://pan.baidu.com/s/1bp0Iftd
密碼: 11kt
下載好以后,
(1)Chrome 瀏覽器中輸入:chrome://extensions/
(2)將下載好的文件拖動到此此頁面
(3)根據(jù)提示點擊:Add extensions;即完成安裝。
以上,所需軟件就已安裝完畢。
二、打開軟件
webscraper打開的入口有三種方法:
1、windows, linux:Ctrl+Shift+I 或者 f12, 或者 Tools / Developer tools
2、mac: Cmd+Opt+I, 或者 Tools / Developer tools
3、或者:右鍵——> 審查元素(適用于各個系統(tǒng))

如上圖,大家可以看到,紅框標注的地方,出現(xiàn)了一個webscraper,沒有安裝之前是看不到的。
三、創(chuàng)建sitemap

如上圖,我們點擊“create sitemap”,進入下面??圖片;

如上圖:
這個步驟需要輸入 2 個信息:
- Sitemap name:根據(jù)自己的實際情形自定義,比如抓的是張佳瑋的文章,就取名 zhangjiawei。
- Start URL:當前網(wǎng)址 (可直接從瀏覽器復制)。我們的話要抓取李笑來的微博,就填 https://weibo.com/bylixiaolai?refer_flag=1001030101_&ssl_rnd=1509760362.444&is_hot=1
最后點擊 Create Sitemap 按鈕即可
四、設置selector

如上圖,點擊“Add new selector”,進入下圖;

如上圖,我們按照標號來挨個看。
- 輸入 “Id”。(自定義,不能為空,至少三個字符(數(shù)字,字母均可))
- 選擇 “Type”,此處選擇Element scroll down
- 點擊 “Select” 進行元素抓取
- 上一步,點擊“Select”后,會出現(xiàn)標號4出懸浮的工具框
- 點擊第一個帖子
- 點擊第二個帖子,完成后,點擊懸浮工具框藍色的“Done slecting!"
- 勾選 “Multiple”
- 輸入 Delay(延遲時間,意思是等待多長時間后,再進行抓取,建議填 2000)
- 點擊”Save Selector“
這步完成后,你會發(fā)現(xiàn),sitemap下出現(xiàn)了一個叫content的選擇器,如下圖

點擊上圖的“content”,進入下圖:

如上如,標號1,你會發(fā)現(xiàn),這里多了一個content。
我們點擊這里,標號2的地方,“Add new selector",進入下圖:

如上圖:我們按照標號依次看:
- 輸入 “Id”。(自定義,不能為空,至少三個字符(數(shù)字,字母均可))
- 選擇 “Type”,此處選擇Text
- 點擊 “Select” 進行元素抓取
- 上一步,點擊“Select”后,會出現(xiàn)標號4出懸浮的工具框
- 注意,當我們點擊上一步4的select后,第一個帖子會變黃,我們點擊這個黃色區(qū)域,它會變?yōu)榧t色。
- 點擊”Save Selector“,其他的都不用設置。
以上,我們抓取李笑來微博的所有設置都已完成。
五、開始抓取
這步,我們開始正式抓?。?/p>

如上圖,點擊中間這列,點擊下拉框中出現(xiàn)的“Scrape”,進入下圖:

這幾個都默認就行,直接點擊標號4的“Start scraping”。
點擊后,瀏覽器會彈出一個新窗口,進行抓取工作,不要關閉,等待他抓取完畢。
你會發(fā)現(xiàn),彈出的窗口,會自動下拉鼠標,模擬人的手,自動化的將這頁全部的帖子全部抓取下來。
完畢后,會出現(xiàn)抓取的數(shù)據(jù),如下圖:

六、導出到本地電腦

如上圖,點擊中間這列,點擊下拉框中的“Export data as CSV”,會進入下圖。

如上圖,點擊“Download now”,即可將數(shù)據(jù)下載到本地,以表格的形式存儲。
文件可以用excel打開,mac下用numbers打開即可。
至此,李笑來的微博我們已經(jīng)全部抓取完畢了。
怎么樣,是不是很厲害。
其實這個軟件的功能遠不止此,大家操作起來吧。
這個工具有時候會受到一些程序員的鄙視,他們說自己會寫代碼,不屑于用這類工具。
寫代碼當然可以做到這點,但是,如果你不是專業(yè)寫爬蟲的程序員,你要寫一個功能來抓取某些數(shù)據(jù),就拿咪蒙公眾號歷史文章來說,我用這個插件30秒就成完成,你用30秒估計剛打開編輯器,連引用的庫都還沒寫完吧。
所以別來抬杠。。。
如果你遇到webscraper的其他問題,可以看看下面這篇文章——
有關 webscraper 的問題,看這個就夠了(建議收藏)
http://www.itdecent.cn/p/cd5124ac0871