pthon爬蟲--天眼查實(shí)戰(zhàn)-嗷嗷嗷~~~
1. 步驟
要知道https://guangzhou.tianyancha.com/search/p1這100個(gè)公司的id信息:先抓包,信息在返回的html文檔中,不是我們喜聞樂見的json文件,好吧,只能暴力抓了。
在自定義Spider的parse函數(shù)調(diào)用response.xpath('xxxxxxx').extract_first()可以很輕松的獲得這100家公司的URL,從中獲取id及其它信息,再把item傳給Pipeline。
在自定義的Pipeline中可以調(diào)用數(shù)據(jù)庫保存相關(guān)的信息,注意信息的去重,我在新建表的SQL函數(shù)是這樣寫的:

天眼查機(jī)智的將幾個(gè)字段的數(shù)字映射調(diào)換了一下位置,比如:?

再比如:?

怎么找到規(guī)律呢?抓包!找字體文件(Chrome按F12,選中‘Font’,刷新一下頁面就有了)。?

怎么樣,映射關(guān)系出來了吧,uni30就是0?
寫個(gè)映射函數(shù)轉(zhuǎn)換一下:

?總結(jié)
其實(shí)這次爬蟲整體沒有爬到很多數(shù)據(jù)量,因?yàn)樘煅鄄橛?00的限制,后續(xù)的重點(diǎn)是怎么充分利用天眼查的search功能,爬到更多的公司id,其實(shí)或者窮舉也行,像某不知名的B站那樣…