微信小程序公眾號(hào)訂閱號(hào),歷史熱門(mén)文章內(nèi)容,留言閱讀數(shù)量點(diǎn)贊數(shù)量等數(shù)據(jù)都可以采集抓取,怎樣做?方法會(huì)很難嗎?楚江數(shù)據(jù) p02721606 給你幾個(gè)微信公眾號(hào)爬蟲(chóng),微信數(shù)據(jù)采集爬取so easy!
1.基于搜狗微信搜索的微信公眾號(hào)爬蟲(chóng)
a. 項(xiàng)目地址:https://github.com/Chyroc/WechatSogou
b. 基于搜狗微信搜索的微信公眾號(hào)爬蟲(chóng)接口開(kāi)發(fā),可獲取文章的臨時(shí)鏈接,獲取微信公眾號(hào)的最近10篇文章
2.微信公眾號(hào)爬蟲(chóng) (基于中間人攻擊的爬蟲(chóng)核心實(shí)現(xiàn),支持批量爬取公眾號(hào)所有歷史文章)
a. 項(xiàng)目地址:https://github.com/sundy-li/wechat_spider
b. 通過(guò)Man-In-Middle 代理方式獲取微信服務(wù)端返回,自動(dòng)模擬請(qǐng)求自動(dòng)分頁(yè),抓取對(duì)應(yīng)點(diǎn)擊的所有歷史文章
3.使用Python實(shí)現(xiàn)的微信公眾號(hào)爬蟲(chóng)
a. 項(xiàng)目地址:https://github.com/bowenpay/wechat-spider
4.爬取指定微信公眾號(hào)的全部歷史文章,使用 JS 實(shí)現(xiàn)
a. 項(xiàng)目地址:https://github.com/iamyy/wechat-spider
b. 目前需要手動(dòng)獲取 cookie 等驗(yàn)證信息
5.基于搜狗微信入口的微信爬蟲(chóng)程序,使用Python實(shí)現(xiàn)。
a. 項(xiàng)目地址:https://github.com/CoolWell/wechat_spider
b. 由基于phantomjs的python實(shí)現(xiàn)。 使用了收費(fèi)的動(dòng)態(tài)代理。 采集包括文章文本、閱讀數(shù)、點(diǎn)贊數(shù)、評(píng)論以及評(píng)論贊數(shù)。 效率:500公眾號(hào)/小時(shí)。 根據(jù)采集的公眾號(hào)劃分為多線程,可以實(shí)現(xiàn)并行采集。
6.Java 基于selenium抓取搜狗微信公眾號(hào)文章
a. 項(xiàng)目地址:https://github.com/badaozhai/wechat_webdriver_spider
訪問(wèn)接口需要的參數(shù):
uin : 用戶對(duì)于公眾號(hào)的唯一ID, 本來(lái)是一個(gè)數(shù)字, 傳的是base64之后的結(jié)果;
key : 與公眾號(hào)和uin綁定, 過(guò)期時(shí)間大概是半小時(shí);
pass_ticket: 另外一個(gè)驗(yàn)證碼, 與uin進(jìn)行綁定;
req_id: 在文章里HTML里, 每次請(qǐng)求會(huì)不一樣, 用來(lái)構(gòu)成獲取閱讀點(diǎn)贊接口的RequestBody, 一次有效;
獲取閱讀點(diǎn)贊接口有頻率限制, 測(cè)試的結(jié)果是一個(gè)微信號(hào)5分鐘可以查看30篇文章的閱讀點(diǎn)贊
【楚江數(shù)據(jù)】有更多互聯(lián)網(wǎng)網(wǎng)站app數(shù)據(jù)采集,爬蟲(chóng)開(kāi)發(fā)技巧及思路,數(shù)據(jù)、圖片批量采集服務(wù)!歡迎交流,微信? p02721606,或淘寶搜索店鋪“楚江數(shù)據(jù)”。