色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

登錄注冊寫文章

2019-04-30

2019-04-30

pthon爬蟲--天眼查實(shí)戰(zhàn)-嗷嗷嗷~~~

1. 步驟

要知道https://guangzhou.tianyancha.com/search/p1這100個(gè)公司的id信息：先抓包，信息在返回的html文檔中，不是我們喜聞樂見的json文件，好吧，只能暴力抓了。

在自定義Spider的parse函數(shù)調(diào)用response.xpath('xxxxxxx').extract_first()可以很輕松的獲得這100家公司的URL，從中獲取id及其它信息，再把item傳給Pipeline。

在自定義的Pipeline中可以調(diào)用數(shù)據(jù)庫保存相關(guān)的信息，注意信息的去重，我在新建表的SQL函數(shù)是這樣寫的：

天眼查機(jī)智的將幾個(gè)字段的數(shù)字映射調(diào)換了一下位置，比如：?

再比如：?

怎么找到規(guī)律呢？抓包！找字體文件（Chrome按F12，選中‘Font’，刷新一下頁面就有了）。?

怎么樣，映射關(guān)系出來了吧，uni30就是0?

寫個(gè)映射函數(shù)轉(zhuǎn)換一下：

?總結(jié)

其實(shí)這次爬蟲整體沒有爬到很多數(shù)據(jù)量，因?yàn)樘煅鄄橛?00的限制，后續(xù)的重點(diǎn)是怎么充分利用天眼查的search功能，爬到更多的公司id，其實(shí)或者窮舉也行，像某不知名的B站那樣…

這期就給大家分享到這里, 點(diǎn)個(gè)小紅心吧, 留下大佬們的建議, 嗷嗷嗷~~~

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成，瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明：文章內(nèi)容（如有圖片或視頻亦包括在內(nèi)）由作者上傳并發(fā)布，文章內(nèi)容僅代表作者本人觀點(diǎn)，簡書系信息發(fā)布平臺，僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

github api接口
基本訪問路徑 (Root Endpoints) 一開始讀文檔的時(shí)候，照著它的事例直接在命令行里curl，或者在In...
ana生閱讀 6,348評論 0贊 7
2019-04-30派森學(xué)習(xí)第162天
11、簡述面向?qū)ο笾衝ew和init區(qū)別 init是初始化方法，創(chuàng)建對象后，就立刻被默認(rèn)調(diào)用了，可接收參數(shù)，如圖 ...
每日派森閱讀 638評論 0贊 0

親子日記345:毛筆書法作品
2018.05.08 周二晴今天，我們給兒子換了新墨汁。這墨汁香味濃郁，完全沒有昨天那墨汁的濃濃腳臭味。兒子...
戴驍勇閱讀 356評論 0贊 0
邏各斯丨學(xué)生作品—燈光
滴答滴答！隨著時(shí)間地流逝，我已十七了。在漫漫的長夜里，我已不知道上帝陪我度過了多少個(gè)春夏秋冬了；在漫漫的長夜里...
張以勒閱讀 353評論 0贊 1
教育日記：策劃家長會
家長會，是老師與家長溝通的重要契機(jī)，一般一學(xué)期會有一次。有些學(xué)生會怕家長會，因?yàn)橐话慵议L會都是在考試之后，作為老師...
活著之上閱讀 481評論 0贊 2

友情鏈接更多精彩內(nèi)容

1贊2贊

贊賞

手機(jī)看全文

沽源县| 宣化县| 江华| 定远县| 武平县| 论坛| 安图县| 潜山县| 高雄市| 天祝| 陇西县| 平远县| 昭苏县| 白水县| 黑水县| 项城市| 永城市| 桐庐县| 铜川市| 聊城市| 武隆县| 木兰县| 二手房| 广州市| 汤原县| 道孚县| 高碑店市| 巩留县| 海阳市| 宜州市| 崇文区| 蕲春县| 读书| 阿拉尔市| 彭山县| 改则县| 湟源县| 信宜市| 舒城县| 新民市| 芷江|