Python 知識(shí)星球爬蟲(二)根據(jù) Group > topic > comment 爬取評(píng)論內(nèi)容

背景

想快速地提取 組隊(duì)學(xué)習(xí) 知識(shí)星球打卡的信息
在原有的基礎(chǔ)上進(jìn)行改良,此處附上鏈接 Python 知識(shí)星球爬蟲(一) 根據(jù) topic > comment 爬取數(shù)據(jù)

遇到的難點(diǎn)

  • 超過30條評(píng)論的數(shù)據(jù)如何獲取
  • user-agent + cookie 綁定登陸 調(diào)試代碼的時(shí)候可以把標(biāo)星的地方都加上
  • 正則表達(dá)式匹配評(píng)論內(nèi)容re.match ,現(xiàn)在改成re.findall
  • 時(shí)間url編碼問題,有待解決~~

說明

詳細(xì)實(shí)現(xiàn)代碼

代碼不難,并且加了備注~~~

# 前面3個(gè)函數(shù)
def get_group_topics(headers, groups_id):
def get_topics_comments(headers, topics_id, begin_time=None):
def get_comments_count(headers, topics_id):

總體的思路都是:

  1. requests請(qǐng)求獲取text數(shù)據(jù)
  2. text數(shù)據(jù)轉(zhuǎn)成dict格式的數(shù)據(jù)
  3. 按需提取dict中的數(shù)據(jù)
def main():

最后通過main()將所有的邏輯組織起來

詳細(xì)代碼可以查看 Github

輸出結(jié)果如下:


局部結(jié)果展示

使用方法

  1. 確認(rèn)運(yùn)行環(huán)境 Python2 或者 Python3;
  2. 代碼23~26行,user-agentcookie 的修改;
  3. 代碼137行,根據(jù)學(xué)習(xí)小組,修改 get_group_topics 的信息。

獲取Headers 和 cookies的方法

Headers

谷歌瀏覽器F12開發(fā)者模式,搜索 topic 然后看結(jié)果

image.png

cookies

我安裝了google插件 點(diǎn)擊跳轉(zhuǎn)

image.png

主要的cookie中主要的key有2個(gè) UM_distinctidzsxq_access_token。如果找不到 UM_distinctid,那將cookie中key和value都加上

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容