Web Scraper教程(五)爬蟲進(jìn)階之微博評(píng)論的點(diǎn)擊「查看更多」爬取

進(jìn)階知識(shí)點(diǎn):

滾動(dòng)到頁面底部,點(diǎn)擊「查看更多」才會(huì)加載新的內(nèi)容

一、新浪微博評(píng)論中的輿情態(tài)勢(shì)

任何事件在微博的發(fā)酵速度絕對(duì)是各大平臺(tái)中最快的,如果把微博評(píng)論爬取下來,進(jìn)行處理和分析,就能對(duì)某個(gè)事件的不同立場(chǎng)和風(fēng)向有了全面的了解和掌握。
當(dāng)然,評(píng)論量大的微博在爬取時(shí)耗費(fèi)時(shí)間較長(zhǎng),為了縮短操作時(shí)間,找了老羅的一條評(píng)論不太多的微博進(jìn)行演示。

二、爬取老羅的微博評(píng)論

1. 創(chuàng)建Sitemap

Sitemap name: weibo
Start URL: https://weibo.com/1640571365/J0xeHw48Y?from=page_1035051640571365_profile&wvr=6&mod=weibotime&type=comment

2. 建立頁面「滾動(dòng)至底部」和點(diǎn)擊「查看更多」選擇器

有些頁面變化比較細(xì)微,需要仔細(xì)觀察才能發(fā)現(xiàn),微博評(píng)論就是這樣。
在拖動(dòng)滾動(dòng)條至出現(xiàn)「查看更多」的過程中,頁面出現(xiàn)了輕微的卡頓,這表示頁面有一部分會(huì)隨著用戶往下瀏覽而加載。
在爬取數(shù)據(jù)時(shí),如果沒有建立「滾動(dòng)至底部」的選擇器,讓卡頓的頁面也完全呈現(xiàn)出來,則會(huì)造成程序找不到「查看更多」的情況,導(dǎo)致大量的數(shù)據(jù)沒有被爬取。

建立「滾動(dòng)至底部」選擇器
Id: scroll
Type: Element scroll down
Select: 點(diǎn)擊第1條和第2條評(píng)論最外圍的方形元素
點(diǎn)擊Done selecting!
勾選Multiple
點(diǎn)擊Save seletor完成創(chuàng)建

建立點(diǎn)擊「查看更多」選擇器
Id: more
Type: Element click
點(diǎn)擊SelectorSelect: 點(diǎn)擊第1條和第2條評(píng)論最外圍的方形元素
點(diǎn)擊Done selecting!
點(diǎn)擊Click selectorSelect: 點(diǎn)擊「查看更多」,注意點(diǎn)擊后對(duì)話框中的內(nèi)容是「a.WB_cardmore」
點(diǎn)擊Done selecting!
Click type: Click more,表示需要不斷點(diǎn)擊「查看更多」
Click element uniqueness: unique CSS Selector
勾選Multiple
點(diǎn)擊Save seletor完成創(chuàng)建

3. 建立評(píng)論爬取的選擇器

點(diǎn)擊剛剛創(chuàng)建的more選擇器,在此選擇器下創(chuàng)建爬取評(píng)論的選擇器
Id: comment
Type: Text
Select: 點(diǎn)擊黃色方形元素中的評(píng)論
點(diǎn)擊Done selecting!
點(diǎn)擊Save seletor完成創(chuàng)建

4. 執(zhí)行爬蟲程序

Request intervalPage load delay均按默認(rèn)即可

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容