爬蟲

1、爬取網(wǎng)頁(yè)如果不是utf8編碼,通過(guò)mahonia包來(lái)解決。
2、爬取數(shù)據(jù)通過(guò)goquery包。
3、通過(guò)chrome的檢查功能定位到具體html標(biāo)簽上,右鍵copy-->copy selector,獲取到想爬取數(shù)據(jù)的選擇器路徑。
4、重點(diǎn)用法:
dec := mahonia.NewDecoder("GB2312")
rd := dec.NewReader(resp.Body)
doc, _ := goquery.NewDocumentFromReader(rd)
doc.Find("tr.trclass").Each(func(i int, s *goquery.Selection) {
...
}
5、有的網(wǎng)頁(yè)查看源代碼會(huì)發(fā)現(xiàn)所需數(shù)據(jù)是通過(guò)ajax請(qǐng)求或js生成的,這種情況可以通過(guò)network的xhr功能,查看網(wǎng)頁(yè)請(qǐng)求接口,直接模擬請(qǐng)求接口獲取所需的json數(shù)據(jù)即可。
6、參考blog:http://blog.csdn.net/hotqin888/article/details/52194839

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 你爬了嗎? 要玩大數(shù)據(jù),沒(méi)有數(shù)據(jù)怎么玩?這里推薦一些33款開源爬蟲軟件給大家。 爬蟲,即網(wǎng)絡(luò)爬蟲,是一種自動(dòng)獲取網(wǎng)...
    Albert新榮閱讀 2,313評(píng)論 0 8
  • 33款可用來(lái)抓數(shù)據(jù)的開源爬蟲軟件工具 要玩大數(shù)據(jù),沒(méi)有數(shù)據(jù)怎么玩?這里推薦一些33款開源爬蟲軟件給大家。 爬蟲,即...
    visiontry閱讀 7,693評(píng)論 1 99
  • 要玩大數(shù)據(jù),沒(méi)有數(shù)據(jù)怎么玩?這里推薦一些33款開源爬蟲軟件給大家。 爬蟲,即網(wǎng)絡(luò)爬蟲,是一種自動(dòng)獲取網(wǎng)頁(yè)內(nèi)容的程序...
    評(píng)評(píng)分分閱讀 8,140評(píng)論 2 121
  • 1 前言 作為一名合格的數(shù)據(jù)分析師,其完整的技術(shù)知識(shí)體系必須貫穿數(shù)據(jù)獲取、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)提取、數(shù)據(jù)分析、數(shù)據(jù)挖掘、...
    whenif閱讀 18,313評(píng)論 45 523
  • 擅長(zhǎng)把壞事變成好事是種能力,心態(tài)很重要。這就是修習(xí)帶來(lái)的力量。
    烏金燈閱讀 472評(píng)論 0 0

友情鏈接更多精彩內(nèi)容