2019-04-30

pthon爬蟲--天眼查實(shí)戰(zhàn)-嗷嗷嗷~~~

1. 步驟

要知道https://guangzhou.tianyancha.com/search/p1這100個(gè)公司的id信息:先抓包,信息在返回的html文檔中,不是我們喜聞樂見的json文件,好吧,只能暴力抓了。

在自定義Spider的parse函數(shù)調(diào)用response.xpath('xxxxxxx').extract_first()可以很輕松的獲得這100家公司的URL,從中獲取id及其它信息,再把item傳給Pipeline。

在自定義的Pipeline中可以調(diào)用數(shù)據(jù)庫保存相關(guān)的信息,注意信息的去重,我在新建表的SQL函數(shù)是這樣寫的:



天眼查機(jī)智的將幾個(gè)字段的數(shù)字映射調(diào)換了一下位置,比如:?

再比如:?




怎么找到規(guī)律呢?抓包!找字體文件(Chrome按F12,選中‘Font’,刷新一下頁面就有了)。?




怎么樣,映射關(guān)系出來了吧,uni30就是0?

寫個(gè)映射函數(shù)轉(zhuǎn)換一下:



?總結(jié)

其實(shí)這次爬蟲整體沒有爬到很多數(shù)據(jù)量,因?yàn)樘煅鄄橛?00的限制,后續(xù)的重點(diǎn)是怎么充分利用天眼查的search功能,爬到更多的公司id,其實(shí)或者窮舉也行,像某不知名的B站那樣…

這期就給大家分享到這里, 點(diǎn)個(gè)小紅心吧, 留下大佬們的建議, 嗷嗷嗷~~~

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 基本訪問路徑 (Root Endpoints) 一開始讀文檔的時(shí)候,照著它的事例直接在命令行里curl,或者在In...
    ana生閱讀 6,348評論 0 7
  • 11、簡述面向?qū)ο笾衝ew和init區(qū)別 init是初始化方法,創(chuàng)建對象后,就立刻被默認(rèn)調(diào)用了,可接收參數(shù),如圖 ...
    每日派森閱讀 638評論 0 0
  • 2018.05.08 周二 晴 今天,我們給兒子換了新墨汁。這墨汁香味濃郁,完全沒有昨天那墨汁的濃濃腳臭味。 兒子...
    戴驍勇閱讀 356評論 0 0
  • 滴答滴答!隨著時(shí)間地流逝,我已十七了。 在漫漫的長夜里,我已不知道上帝陪我度過了多少個(gè)春夏秋冬了; 在漫漫的長夜里...
    張以勒閱讀 353評論 0 1
  • 家長會,是老師與家長溝通的重要契機(jī),一般一學(xué)期會有一次。有些學(xué)生會怕家長會,因?yàn)橐话慵议L會都是在考試之后,作為老師...
    活著之上閱讀 481評論 0 2

友情鏈接更多精彩內(nèi)容