大規(guī)模批量采集微信公眾號(hào)文章
記錄一下今天的成果,確實(shí)可以抓取到,配置完成之后1分鐘可以抓取100+(后來優(yōu)化了一下,可以達(dá)到300左右)片吧,我沒有用多進(jìn)程,如果是多進(jìn)程的話,效率會(huì)翻倍的增加。
抓取思路
網(wǎng)上的方法大約有三種
第一:通過搜狗微信? 搜索入口 ,模擬搜索抓取,效率比較低,而且還有驗(yàn)證碼,反爬蟲機(jī)制;建議放棄。
第二:通過抓包工具截取htts請(qǐng)求的數(shù)據(jù)包,意思就是使用pc端微信登錄,監(jiān)聽公眾號(hào)的推送消息,每當(dāng)監(jiān)聽到推送之后就把數(shù)據(jù)獲取下來,缺點(diǎn)是無法獲取以前的歷史記錄
第三:通過微信公眾號(hào)的后臺(tái)獲取cookie和token來抓??;缺點(diǎn)是需要注冊一個(gè)公眾號(hào),而且token有過期時(shí)間
第四:萬能key或者公眾號(hào)key抓取 ,key有效時(shí)間為兩個(gè)小時(shí),每個(gè)微信號(hào)一天最多可以抓取1200次,優(yōu)勢只要解決key的自動(dòng)獲取就非常方便自動(dòng)。
以上幾種是網(wǎng)友提供的思路,都可以實(shí)現(xiàn),但同時(shí)也都有缺點(diǎn)。
以下是我用第三種方法實(shí)現(xiàn)的;
使用php,node.js都可以抓??;
1.注冊微信公眾,登錄之后選擇新建素材,然后點(diǎn)擊超鏈接,搜索任意公眾號(hào),保存該公眾號(hào)的fakeid,同時(shí)保存cookie和token,
2.在https請(qǐng)求中 設(shè)置header的cookie為第1步保存的cookie,參數(shù)是token,發(fā)送https請(qǐng)求,你會(huì)驚奇的發(fā)現(xiàn)已經(jīng)拿下某公眾號(hào)的歷史記錄 (默認(rèn)40條);
3.然后根據(jù)列表里面的內(nèi)容鏈接地址,再獲取具體的網(wǎng)頁內(nèi)容;
4.把獲取的內(nèi)容存到本地的數(shù)據(jù)庫中
總結(jié):以上思路僅供參考,具體實(shí)現(xiàn)需要靠自己;
提示:源碼收費(fèi),還請(qǐng)諒解;
------------------------------------------------------------------------------
鑒于有人咨詢了一下抓取程序價(jià)格,我在這里聲明一下:
抓取的功能沒有你想的那么智能
1.需要指定公眾號(hào)(可以指定多個(gè),沒有上限)
2.需要設(shè)置token以及對(duì)應(yīng)的cookie參數(shù);
3.抓取速度,大約一分鐘可以抓取300左右(視網(wǎng)絡(luò),內(nèi)容多少而定)
看到這里,你還沒有放棄,那么看來你是真相要了。
可以一次性需求
可以購買源碼,因?yàn)樵创a是我自己開發(fā)方便我自己閱讀用的,一般要買源碼的都需要做一些修改和開發(fā),視情況而定
如需詳細(xì)聯(lián)系 請(qǐng)加 qq 958230839? 另外我們支持全網(wǎng)抓取和大規(guī)模抓取 包括閱讀數(shù) 好看數(shù)和評(píng)論數(shù)