進(jìn)階知識(shí)點(diǎn):
滾動(dòng)到頁面底部,點(diǎn)擊「查看更多」才會(huì)加載新的內(nèi)容
一、新浪微博評(píng)論中的輿情態(tài)勢(shì)
任何事件在微博的發(fā)酵速度絕對(duì)是各大平臺(tái)中最快的,如果把微博評(píng)論爬取下來,進(jìn)行處理和分析,就能對(duì)某個(gè)事件的不同立場(chǎng)和風(fēng)向有了全面的了解和掌握。
當(dāng)然,評(píng)論量大的微博在爬取時(shí)耗費(fèi)時(shí)間較長(zhǎng),為了縮短操作時(shí)間,找了老羅的一條評(píng)論不太多的微博進(jìn)行演示。

二、爬取老羅的微博評(píng)論
1. 創(chuàng)建Sitemap
Sitemap name: weibo
Start URL: https://weibo.com/1640571365/J0xeHw48Y?from=page_1035051640571365_profile&wvr=6&mod=weibotime&type=comment

2. 建立頁面「滾動(dòng)至底部」和點(diǎn)擊「查看更多」選擇器
有些頁面變化比較細(xì)微,需要仔細(xì)觀察才能發(fā)現(xiàn),微博評(píng)論就是這樣。
在拖動(dòng)滾動(dòng)條至出現(xiàn)「查看更多」的過程中,頁面出現(xiàn)了輕微的卡頓,這表示頁面有一部分會(huì)隨著用戶往下瀏覽而加載。
在爬取數(shù)據(jù)時(shí),如果沒有建立「滾動(dòng)至底部」的選擇器,讓卡頓的頁面也完全呈現(xiàn)出來,則會(huì)造成程序找不到「查看更多」的情況,導(dǎo)致大量的數(shù)據(jù)沒有被爬取。
建立「滾動(dòng)至底部」選擇器
Id: scroll
Type: Element scroll down
Select: 點(diǎn)擊第1條和第2條評(píng)論最外圍的方形元素
點(diǎn)擊Done selecting!
勾選Multiple
點(diǎn)擊Save seletor完成創(chuàng)建

建立點(diǎn)擊「查看更多」選擇器
Id: more
Type: Element click
點(diǎn)擊Selector的Select: 點(diǎn)擊第1條和第2條評(píng)論最外圍的方形元素
點(diǎn)擊Done selecting!
點(diǎn)擊Click selector的Select: 點(diǎn)擊「查看更多」,注意點(diǎn)擊后對(duì)話框中的內(nèi)容是「a.WB_cardmore」
點(diǎn)擊Done selecting!
Click type: Click more,表示需要不斷點(diǎn)擊「查看更多」
Click element uniqueness: unique CSS Selector
勾選Multiple
點(diǎn)擊Save seletor完成創(chuàng)建

3. 建立評(píng)論爬取的選擇器
點(diǎn)擊剛剛創(chuàng)建的more選擇器,在此選擇器下創(chuàng)建爬取評(píng)論的選擇器
Id: comment
Type: Text
Select: 點(diǎn)擊黃色方形元素中的評(píng)論
點(diǎn)擊Done selecting!
點(diǎn)擊Save seletor完成創(chuàng)建

4. 執(zhí)行爬蟲程序
Request interval和Page load delay均按默認(rèn)即可
