Python爬蟲實(shí)戰(zhàn)4:用騰訊視頻46w條彈幕帶你看《三十而已》,前方高能!

三十而已:又一部養(yǎng)活萬千公眾號的熱劇

首先問一個(gè)問題:關(guān)于熱播都市劇《三十而已》,到底有多少種解讀方式?

隨手翻了翻公眾號發(fā)布的相關(guān)文章,我想答案是無數(shù)種。

中年女性危機(jī)成人社會(huì)潛規(guī)則,從顧佳的衣櫥王漫妮的“精致窮”,從學(xué)區(qū)房婚姻的真相,從配樂渣男圖鑒再到高段位綠茶語錄......

可以說這部劇從里到外、從上到下都充滿了話題點(diǎn),編劇深知如何打造人設(shè)才能讓觀眾看得欲罷不能,產(chǎn)生極強(qiáng)的代入感,隨便一個(gè)話題點(diǎn)都能分分鐘狠狠戳中觀眾的痛點(diǎn)和癢點(diǎn)。

今天這篇文章,我想以騰訊視頻劇集彈幕的角度,來挖一挖彈幕中的寶藏和那些大數(shù)據(jù)才能告訴我們的事兒。

數(shù)據(jù)說明

本次通過Python一共爬取了1到25集共計(jì)25集的彈幕數(shù)據(jù),總計(jì)爬取到459159條彈幕,平均每集1.6w條(間隔30s抓取一次),字符數(shù)約550w。其中用戶名非空的用戶數(shù)為231931個(gè),占比51%。

注:在騰訊視頻每集開頭展示的彈幕數(shù)遠(yuǎn)比爬取到的要大,比如第一集就有高達(dá)20萬條彈幕條數(shù)!但爬取時(shí)發(fā)現(xiàn)每頁大概200條,一共100頁左右,推測每次返回的內(nèi)容是隨機(jī)的,但條數(shù)有限制,因此單集只能爬取到一萬多條,不過這個(gè)量級也足夠做數(shù)據(jù)分析使用了~

數(shù)據(jù)來源時(shí)間:2020年07月31日22:00

爬取的信息包括:

'用戶名','內(nèi)容','會(huì)員等級','評論時(shí)間點(diǎn)','評論點(diǎn)贊','評論id','集數(shù)'

在進(jìn)一步分析前,首先對數(shù)據(jù)做簡單的預(yù)處理。經(jīng)觀察,某些用戶會(huì)重復(fù)發(fā)送同樣內(nèi)容的彈幕,按照每集同一用戶對重復(fù)彈幕內(nèi)容進(jìn)行去重操作,得到數(shù)據(jù)條數(shù)為390547,是之前的85%,相當(dāng)于有15%的彈幕內(nèi)容是重復(fù)的,最終的分析基于這39w條數(shù)據(jù)進(jìn)行。

每集彈幕點(diǎn)贊走勢

統(tǒng)計(jì)每集彈幕的點(diǎn)贊數(shù),發(fā)現(xiàn)從20集開始點(diǎn)贊總數(shù)和平均點(diǎn)贊數(shù)均明顯變少,推測原因是越早之前的劇集累計(jì)觀看人數(shù)越多,因此獲贊量相應(yīng)也越高,存在一部分觀眾屬于延遲追劇的類型,等這部劇結(jié)束了估計(jì)后面幾集的點(diǎn)贊量就上來了。從目前數(shù)據(jù)來看,點(diǎn)贊量在第3、11和17集迎來了若干個(gè)小高峰。

對第3、11和17集分別繪制詞云圖發(fā)現(xiàn)大家都在聊這些:

第三集
11集
17集

彈幕愛好者究竟有多狂熱?

如前文所述,有將近一半的彈幕數(shù)據(jù)對應(yīng)的用戶名為空,為方便對用戶維度進(jìn)行分析,此處過濾掉用戶名為空的彈幕數(shù)據(jù),得到以下列表數(shù)據(jù)。

從表中可看出,在這25集中,排名第一的用戶(用戶名為“.”)一個(gè)人就貢獻(xiàn)了高達(dá)1031條的彈幕量!真可謂人形彈幕發(fā)射器了!而且,像他這樣的狂熱彈幕愛好者,居然還不止一個(gè)......作為一個(gè)看劇從來不發(fā)彈幕的人,表示非常瑞思拜!

上榜的用戶中,最少平均每集發(fā)送22條彈幕,最多可達(dá)到57條彈幕,其中“浮若年華”這位朋友,其發(fā)送的單條彈幕平均點(diǎn)贊量達(dá)到了驚人的145條,莫非是傳說中的“金句王”?!

接下來,我們關(guān)注下這位TOP1用戶在每一集中發(fā)送的彈幕數(shù)情況,平均值在41條,他在第3、5和14集表現(xiàn)得最為非?;钴S。


那么問題來了,如此高產(chǎn)的他發(fā)送的彈幕究竟是什么樣的內(nèi)容呢?是純灌水?走心?還是搞笑類?我們來看下他發(fā)過的高贊彈幕TOP10——

看起來很真情實(shí)感啊,說明他真的是在用心追劇了,好評!

順便再看看平均點(diǎn)贊量達(dá)到145的那位朋友的高贊彈幕——

感覺是個(gè)王漫妮角色cos粉??

除了總彈幕貢獻(xiàn)TOP用戶,我還做了一張平均每集發(fā)送彈幕數(shù)TOP10的用戶圖表:

這些用戶的戰(zhàn)斗力也非常強(qiáng)悍,一集發(fā)60多條彈幕,真厲害!不過平均點(diǎn)贊量就跟發(fā)送數(shù)量關(guān)系不太大了,排最后的用戶平均點(diǎn)贊量過百,排名第一。

普通彈幕玩家的水準(zhǔn)

看完狂熱的彈幕愛好者的神操作,我們再來看看普通用戶的行為吧。

從整體數(shù)據(jù)分析,單人彈幕發(fā)布條數(shù)分布如下圖:

這個(gè)分布圖看起來就正常多了,57%的用戶在25集里只發(fā)過1條彈幕,發(fā)布5條以上的占比合計(jì)約15%,發(fā)布30條以上彈幕的用戶數(shù)占比為1.9%。

再結(jié)合每位用戶在這25集里發(fā)過彈幕的集數(shù)的分布:

整體來看,絕大多數(shù)用戶只有某1集發(fā)送過彈幕,累積在5集或以上發(fā)送過彈幕的用戶數(shù)占比非常小。

從彈幕長度分布來看,發(fā)布長度在7-20字之間是主流,占比達(dá)到7成,發(fā)布彈幕數(shù)在4個(gè)字(含字符)以下的僅占3.6%,說明凡是發(fā)送彈幕的用戶,并不是惜字如金的類型,反而還挺樂意分享自己的觀點(diǎn)和看法的,畢竟還有0.5%的彈幕長達(dá)30個(gè)字以上!

實(shí)際上,彈幕長度超過40的高贊內(nèi)容里,有不少是因?yàn)橹貜?fù)使用標(biāo)點(diǎn)符號帶來的長度虛高,看來下次處理時(shí)應(yīng)剔除掉特殊符號會(huì)更為準(zhǔn)確。

最后,從觀眾的會(huì)員等級來看,絕大多數(shù)都是普通等級的用戶。

高贊彈幕來襲?。?!

篩選出每集點(diǎn)贊量TOP1的內(nèi)容如下表:

結(jié)果令人震驚,盡管之前分析的發(fā)送總數(shù)TOP和平均發(fā)送數(shù)TOP用戶各不相同,但高贊彈幕的發(fā)布人居然驚人的一致,從第1集到第15集,全部被這個(gè)名叫“追劇小奶鵝”的用戶給承包了!順便搜到這位用戶的微博,簡介寫著“騰訊視頻電視劇彈幕專業(yè)陪聊鵝”,話說這應(yīng)該是騰訊視頻的運(yùn)營吧?

如果過濾掉這個(gè)用戶發(fā)布的彈幕,再重新取每集點(diǎn)贊TOP1的彈幕如下:

彈幕視角主角情感傾向分析

要過濾出與各主角相關(guān)聯(lián)的彈幕,必須根據(jù)關(guān)鍵詞去定位內(nèi)容。通過簡單瀏覽與劇中主角相關(guān)的彈幕內(nèi)容,整理出如下關(guān)鍵詞詞庫,用以識(shí)別某條彈幕在議論誰。

特別聲明:以上負(fù)面相關(guān)關(guān)鍵詞僅針對角色,系從抓取到的彈幕內(nèi)容中提取,不代表本人立場,也請勿上升演員本人(我的求生欲??)

根據(jù)以上詞庫匹配到的數(shù)據(jù)如下:

結(jié)果讓我有些驚訝,顧佳不是第一女主嗎,為什么王漫妮的討論度反而更高?另外,陳嶼的討論度也比許幻山要高。

仔細(xì)看彈幕會(huì)發(fā)現(xiàn)很多觀眾喜歡角色代入,發(fā)布諸如【王漫妮:原以為是非誠勿擾,沒想到是變形計(jì) 】這類加入主角名前綴的彈幕文案,推測這是其中一個(gè)原因。我猜測可能的原因是:1)事實(shí)確實(shí)如此,2)彈幕數(shù)據(jù)不全,目前一集20w的彈幕量只爬取到10%不到,3)角色關(guān)鍵詞提供的不充分;

進(jìn)一步分集統(tǒng)計(jì)提及主角的彈幕數(shù)量如上圖所示。

接下來,應(yīng)用情感分析工具SnowNLP對主角相關(guān)彈幕內(nèi)容進(jìn)行情感評分,分?jǐn)?shù)在從0到1的區(qū)間內(nèi),數(shù)字越大代表文本情感越正向。

SnowNLP是一個(gè)python寫的類庫,可以方便的處理中文文本內(nèi)容,是受到了TextBlob的啟發(fā)而寫的,由于現(xiàn)在大部分的自然語言處理庫基本都是針對英文的,而這個(gè)庫可以方便地處理中文。

這個(gè)情感評分走勢不知是否符合看過全劇的觀眾的預(yù)期呢?

彈幕觀眾對三位女主的喜好度:顧佳>王漫妮>鐘曉芹

對三位男性角色的喜好度:許幻山>梁正賢>陳嶼

毫無疑問風(fēng)評最差的是劇中的小三角色林有有,來看看關(guān)于她的高贊彈幕——

我有理由懷疑林有有跟茶深度綁定了,這么喜歡說茶言茶語,一想到那只冰淇淋??就覺得一陣惡心??

許幻山在開局情感評分一度高達(dá)0.9,然而隨著劇情的推移,評分逐步下降,尤其是后期出軌真令人生氣,大家都盼著顧佳早日離婚呢!不過,令我意外的是他那條線居然始終在王漫妮的上方??

于是我不由得懷疑起了這個(gè)評分工具的準(zhǔn)確性,注意到在24集時(shí),許幻山的評分突然高漲,定位一下這部分相關(guān)彈幕:

仔細(xì)看完內(nèi)容和評分,我緩緩打出一堆問號???

emmm果然還是數(shù)據(jù)有問題,機(jī)器并不能做到像人去進(jìn)行語義分析那樣準(zhǔn)確,何況這個(gè)工具之前貌似是在電商(如淘寶商品評價(jià))里用的比較多,而且我也沒有訓(xùn)練過相關(guān)數(shù)據(jù)集,造成整體評分結(jié)果可信度略低,總之,以上結(jié)果勉強(qiáng)可作參考。

一個(gè)小彩蛋

在分析過程中,我發(fā)現(xiàn)每到劇集快結(jié)束時(shí),彈幕都會(huì)有討論BGM的內(nèi)容,出現(xiàn)最多的名字便是“金池”,原來這位姐姐幾乎承包了這部劇的OST,真的好棒??!

聽到她的聲音就想起了2012年第一季《中國好聲音》,那首驚艷四座的《夜夜夜夜》,還有和魏語諾PK的《對你愛不完》,想起自己整體泡在貼吧看大神分析每一場表演,分析得如同武林高手過招一般,一招一式都用心良苦。完全不知如何評價(jià)唱功的我,在那一年好聲音里記住了唱功高超的金池。

三十而已OST

貼吧大佬對那場PK的評價(jià)

【爬蟲系列相關(guān)推薦】

用微博大數(shù)據(jù)帶你看《乘風(fēng)破浪的姐姐》

我用Python爬了豆瓣圖書,發(fā)現(xiàn)言情/推理/科幻小說屆的霸主居然是TA!

致0-4歲的運(yùn)營人:招聘大數(shù)據(jù)告訴你運(yùn)營崗需求現(xiàn)狀及職業(yè)發(fā)展前景

參考資料

Python爬取394452條《都挺好》彈幕數(shù)據(jù),發(fā)現(xiàn)彈幕比劇還精彩?

Python爬取 201865 條《隱秘的角落》彈幕,發(fā)現(xiàn)看劇不如爬山?

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容