三十而已:又一部養(yǎng)活萬千公眾號的熱劇
首先問一個(gè)問題:關(guān)于熱播都市劇《三十而已》,到底有多少種解讀方式?
隨手翻了翻公眾號發(fā)布的相關(guān)文章,我想答案是無數(shù)種。
從中年女性危機(jī)到成人社會(huì)潛規(guī)則,從顧佳的衣櫥到王漫妮的“精致窮”,從學(xué)區(qū)房到婚姻的真相,從配樂到渣男圖鑒再到高段位綠茶語錄......
可以說這部劇從里到外、從上到下都充滿了話題點(diǎn),編劇深知如何打造人設(shè)才能讓觀眾看得欲罷不能,產(chǎn)生極強(qiáng)的代入感,隨便一個(gè)話題點(diǎn)都能分分鐘狠狠戳中觀眾的痛點(diǎn)和癢點(diǎn)。
今天這篇文章,我想以騰訊視頻劇集彈幕的角度,來挖一挖彈幕中的寶藏和那些大數(shù)據(jù)才能告訴我們的事兒。
數(shù)據(jù)說明
本次通過Python一共爬取了1到25集共計(jì)25集的彈幕數(shù)據(jù),總計(jì)爬取到459159條彈幕,平均每集1.6w條(間隔30s抓取一次),字符數(shù)約550w。其中用戶名非空的用戶數(shù)為231931個(gè),占比51%。
注:在騰訊視頻每集開頭展示的彈幕數(shù)遠(yuǎn)比爬取到的要大,比如第一集就有高達(dá)20萬條彈幕條數(shù)!但爬取時(shí)發(fā)現(xiàn)每頁大概200條,一共100頁左右,推測每次返回的內(nèi)容是隨機(jī)的,但條數(shù)有限制,因此單集只能爬取到一萬多條,不過這個(gè)量級也足夠做數(shù)據(jù)分析使用了~
數(shù)據(jù)來源時(shí)間:2020年07月31日22:00
爬取的信息包括:
'用戶名','內(nèi)容','會(huì)員等級','評論時(shí)間點(diǎn)','評論點(diǎn)贊','評論id','集數(shù)'
在進(jìn)一步分析前,首先對數(shù)據(jù)做簡單的預(yù)處理。經(jīng)觀察,某些用戶會(huì)重復(fù)發(fā)送同樣內(nèi)容的彈幕,按照每集同一用戶對重復(fù)彈幕內(nèi)容進(jìn)行去重操作,得到數(shù)據(jù)條數(shù)為390547,是之前的85%,相當(dāng)于有15%的彈幕內(nèi)容是重復(fù)的,最終的分析基于這39w條數(shù)據(jù)進(jìn)行。
每集彈幕點(diǎn)贊走勢
統(tǒng)計(jì)每集彈幕的點(diǎn)贊數(shù),發(fā)現(xiàn)從20集開始點(diǎn)贊總數(shù)和平均點(diǎn)贊數(shù)均明顯變少,推測原因是越早之前的劇集累計(jì)觀看人數(shù)越多,因此獲贊量相應(yīng)也越高,存在一部分觀眾屬于延遲追劇的類型,等這部劇結(jié)束了估計(jì)后面幾集的點(diǎn)贊量就上來了。從目前數(shù)據(jù)來看,點(diǎn)贊量在第3、11和17集迎來了若干個(gè)小高峰。
對第3、11和17集分別繪制詞云圖發(fā)現(xiàn)大家都在聊這些:
彈幕愛好者究竟有多狂熱?
如前文所述,有將近一半的彈幕數(shù)據(jù)對應(yīng)的用戶名為空,為方便對用戶維度進(jìn)行分析,此處過濾掉用戶名為空的彈幕數(shù)據(jù),得到以下列表數(shù)據(jù)。
從表中可看出,在這25集中,排名第一的用戶(用戶名為“.”)一個(gè)人就貢獻(xiàn)了高達(dá)1031條的彈幕量!真可謂人形彈幕發(fā)射器了!而且,像他這樣的狂熱彈幕愛好者,居然還不止一個(gè)......作為一個(gè)看劇從來不發(fā)彈幕的人,表示非常瑞思拜!
上榜的用戶中,最少平均每集發(fā)送22條彈幕,最多可達(dá)到57條彈幕,其中“浮若年華”這位朋友,其發(fā)送的單條彈幕平均點(diǎn)贊量達(dá)到了驚人的145條,莫非是傳說中的“金句王”?!
接下來,我們關(guān)注下這位TOP1用戶在每一集中發(fā)送的彈幕數(shù)情況,平均值在41條,他在第3、5和14集表現(xiàn)得最為非?;钴S。

那么問題來了,如此高產(chǎn)的他發(fā)送的彈幕究竟是什么樣的內(nèi)容呢?是純灌水?走心?還是搞笑類?我們來看下他發(fā)過的高贊彈幕TOP10——
看起來很真情實(shí)感啊,說明他真的是在用心追劇了,好評!
順便再看看平均點(diǎn)贊量達(dá)到145的那位朋友的高贊彈幕——
感覺是個(gè)王漫妮角色cos粉??
除了總彈幕貢獻(xiàn)TOP用戶,我還做了一張平均每集發(fā)送彈幕數(shù)TOP10的用戶圖表:
這些用戶的戰(zhàn)斗力也非常強(qiáng)悍,一集發(fā)60多條彈幕,真厲害!不過平均點(diǎn)贊量就跟發(fā)送數(shù)量關(guān)系不太大了,排最后的用戶平均點(diǎn)贊量過百,排名第一。
普通彈幕玩家的水準(zhǔn)
看完狂熱的彈幕愛好者的神操作,我們再來看看普通用戶的行為吧。
從整體數(shù)據(jù)分析,單人彈幕發(fā)布條數(shù)分布如下圖:
這個(gè)分布圖看起來就正常多了,57%的用戶在25集里只發(fā)過1條彈幕,發(fā)布5條以上的占比合計(jì)約15%,發(fā)布30條以上彈幕的用戶數(shù)占比為1.9%。
再結(jié)合每位用戶在這25集里發(fā)過彈幕的集數(shù)的分布:
整體來看,絕大多數(shù)用戶只有某1集發(fā)送過彈幕,累積在5集或以上發(fā)送過彈幕的用戶數(shù)占比非常小。
從彈幕長度分布來看,發(fā)布長度在7-20字之間是主流,占比達(dá)到7成,發(fā)布彈幕數(shù)在4個(gè)字(含字符)以下的僅占3.6%,說明凡是發(fā)送彈幕的用戶,并不是惜字如金的類型,反而還挺樂意分享自己的觀點(diǎn)和看法的,畢竟還有0.5%的彈幕長達(dá)30個(gè)字以上!
實(shí)際上,彈幕長度超過40的高贊內(nèi)容里,有不少是因?yàn)橹貜?fù)使用標(biāo)點(diǎn)符號帶來的長度虛高,看來下次處理時(shí)應(yīng)剔除掉特殊符號會(huì)更為準(zhǔn)確。
最后,從觀眾的會(huì)員等級來看,絕大多數(shù)都是普通等級的用戶。
高贊彈幕來襲?。?!
篩選出每集點(diǎn)贊量TOP1的內(nèi)容如下表:
結(jié)果令人震驚,盡管之前分析的發(fā)送總數(shù)TOP和平均發(fā)送數(shù)TOP用戶各不相同,但高贊彈幕的發(fā)布人居然驚人的一致,從第1集到第15集,全部被這個(gè)名叫“追劇小奶鵝”的用戶給承包了!順便搜到這位用戶的微博,簡介寫著“騰訊視頻電視劇彈幕專業(yè)陪聊鵝”,話說這應(yīng)該是騰訊視頻的運(yùn)營吧?
如果過濾掉這個(gè)用戶發(fā)布的彈幕,再重新取每集點(diǎn)贊TOP1的彈幕如下:
彈幕視角主角情感傾向分析
要過濾出與各主角相關(guān)聯(lián)的彈幕,必須根據(jù)關(guān)鍵詞去定位內(nèi)容。通過簡單瀏覽與劇中主角相關(guān)的彈幕內(nèi)容,整理出如下關(guān)鍵詞詞庫,用以識(shí)別某條彈幕在議論誰。
特別聲明:以上負(fù)面相關(guān)關(guān)鍵詞僅針對角色,系從抓取到的彈幕內(nèi)容中提取,不代表本人立場,也請勿上升演員本人(我的求生欲??)
根據(jù)以上詞庫匹配到的數(shù)據(jù)如下:
結(jié)果讓我有些驚訝,顧佳不是第一女主嗎,為什么王漫妮的討論度反而更高?另外,陳嶼的討論度也比許幻山要高。
仔細(xì)看彈幕會(huì)發(fā)現(xiàn)很多觀眾喜歡角色代入,發(fā)布諸如【王漫妮:原以為是非誠勿擾,沒想到是變形計(jì) 】這類加入主角名前綴的彈幕文案,推測這是其中一個(gè)原因。我猜測可能的原因是:1)事實(shí)確實(shí)如此,2)彈幕數(shù)據(jù)不全,目前一集20w的彈幕量只爬取到10%不到,3)角色關(guān)鍵詞提供的不充分;
進(jìn)一步分集統(tǒng)計(jì)提及主角的彈幕數(shù)量如上圖所示。
接下來,應(yīng)用情感分析工具SnowNLP對主角相關(guān)彈幕內(nèi)容進(jìn)行情感評分,分?jǐn)?shù)在從0到1的區(qū)間內(nèi),數(shù)字越大代表文本情感越正向。
SnowNLP是一個(gè)python寫的類庫,可以方便的處理中文文本內(nèi)容,是受到了TextBlob的啟發(fā)而寫的,由于現(xiàn)在大部分的自然語言處理庫基本都是針對英文的,而這個(gè)庫可以方便地處理中文。
這個(gè)情感評分走勢不知是否符合看過全劇的觀眾的預(yù)期呢?
彈幕觀眾對三位女主的喜好度:顧佳>王漫妮>鐘曉芹
對三位男性角色的喜好度:許幻山>梁正賢>陳嶼
毫無疑問風(fēng)評最差的是劇中的小三角色林有有,來看看關(guān)于她的高贊彈幕——
我有理由懷疑林有有跟茶深度綁定了,這么喜歡說茶言茶語,一想到那只冰淇淋??就覺得一陣惡心??
許幻山在開局情感評分一度高達(dá)0.9,然而隨著劇情的推移,評分逐步下降,尤其是后期出軌真令人生氣,大家都盼著顧佳早日離婚呢!不過,令我意外的是他那條線居然始終在王漫妮的上方??
于是我不由得懷疑起了這個(gè)評分工具的準(zhǔn)確性,注意到在24集時(shí),許幻山的評分突然高漲,定位一下這部分相關(guān)彈幕:
仔細(xì)看完內(nèi)容和評分,我緩緩打出一堆問號???
emmm果然還是數(shù)據(jù)有問題,機(jī)器并不能做到像人去進(jìn)行語義分析那樣準(zhǔn)確,何況這個(gè)工具之前貌似是在電商(如淘寶商品評價(jià))里用的比較多,而且我也沒有訓(xùn)練過相關(guān)數(shù)據(jù)集,造成整體評分結(jié)果可信度略低,總之,以上結(jié)果勉強(qiáng)可作參考。
一個(gè)小彩蛋
在分析過程中,我發(fā)現(xiàn)每到劇集快結(jié)束時(shí),彈幕都會(huì)有討論BGM的內(nèi)容,出現(xiàn)最多的名字便是“金池”,原來這位姐姐幾乎承包了這部劇的OST,真的好棒??!
聽到她的聲音就想起了2012年第一季《中國好聲音》,那首驚艷四座的《夜夜夜夜》,還有和魏語諾PK的《對你愛不完》,想起自己整體泡在貼吧看大神分析每一場表演,分析得如同武林高手過招一般,一招一式都用心良苦。完全不知如何評價(jià)唱功的我,在那一年好聲音里記住了唱功高超的金池。
三十而已OST
【爬蟲系列相關(guān)推薦】
用微博大數(shù)據(jù)帶你看《乘風(fēng)破浪的姐姐》
我用Python爬了豆瓣圖書,發(fā)現(xiàn)言情/推理/科幻小說屆的霸主居然是TA!
致0-4歲的運(yùn)營人:招聘大數(shù)據(jù)告訴你運(yùn)營崗需求現(xiàn)狀及職業(yè)發(fā)展前景
參考資料