2019年就這么匆匆過(guò)去了,就在前幾天國(guó)家電影局發(fā)布了2019年中國(guó)電影市場(chǎng)數(shù)據(jù),數(shù)據(jù)顯示去年總票房為642.66億元,同比增長(zhǎng)5.4%;國(guó)產(chǎn)電影總票房411.75億元,同比增長(zhǎng)8.65%,市場(chǎng)占比 64.07%;城市院線觀影人次17.27億,同比增長(zhǎng)0.64%。
看上去似乎是一片大好對(duì)不對(duì)?不過(guò)作為一名嚴(yán)謹(jǐn)求實(shí)的數(shù)據(jù)分析師,我從官方數(shù)據(jù)中看出了一點(diǎn)端倪: 國(guó)產(chǎn)票房增幅都已經(jīng)高達(dá)8.65%了,為什么觀影人次增長(zhǎng)不足1%?
到底為什么會(huì)出現(xiàn)這樣的現(xiàn)象,最好的辦法就是從數(shù)據(jù)中找答案。我們說(shuō)干就干,按照老規(guī)矩,先用python爬取數(shù)據(jù)、再用BI進(jìn)行數(shù)據(jù)分析,最終事情的真相就會(huì)顯現(xiàn)在我們面前。
一、分析目的和分析指標(biāo)
首先明確我們數(shù)據(jù)分析的目的,根據(jù)2019年電影的數(shù)據(jù)分析國(guó)內(nèi)電影市場(chǎng),主要是為了找到票房與觀影人次的關(guān)系。
怎么去衡量一部電影的好壞呢?懂電影的人應(yīng)該都知道這么幾個(gè)指標(biāo):“電影票房”、“票房占比”、“上座率”、“排片比”、“評(píng)分”等等,其中我們的數(shù)據(jù)源就用貓眼電影吧,但是因?yàn)樨堁墼u(píng)分門檻很低,可能充斥著很多水軍,所以這次就不用“評(píng)分”這個(gè)指標(biāo)了。

二、python爬取
下面就要開(kāi)始爬取數(shù)據(jù)了,因?yàn)樨堁垭娪暗木W(wǎng)頁(yè)結(jié)構(gòu)比較簡(jiǎn)單,爬取操作比較簡(jiǎn)單,所以這里我就不詳細(xì)展示了,只說(shuō)幾步需要注意的地方就行。
注:想要源代碼的,后臺(tái)私信我吧,這里就不放了
1、先看看結(jié)構(gòu)
從貓眼電影上可以看到我們要爬取的網(wǎng)頁(yè),首先要提取出這個(gè)網(wǎng)頁(yè)的信息,在了解了大體的情況之后,就右鍵選擇查看網(wǎng)頁(yè)的源代碼,看一下我們需要爬取的數(shù)據(jù)信息在源代碼中的什么地方。

2、偽裝成瀏覽器進(jìn)行數(shù)據(jù)請(qǐng)求
這個(gè)方法就是老生常談的事情了,這里不細(xì)講了,在發(fā)送請(qǐng)求前加上headers參數(shù)即可。

3、提取數(shù)據(jù)
貓眼里的電影票房等都是加密后的字體,因此我們需要解密字體。雖然字符的編碼是變化的,但是對(duì)象是不變的。那么我們可以通過(guò)第一次下載一個(gè)字體文件origin.ttf,并把對(duì)應(yīng)編碼的字體寫出來(lái),當(dāng)?shù)诙螐木W(wǎng)上重新下載一個(gè)字體文件online_base64.ttf 的時(shí)候,可以對(duì)比對(duì)象信息,如果對(duì)象是一樣的,那么就把第一次編碼對(duì)應(yīng)的文字賦值給第二次的編碼,這樣即可。

4、主程序調(diào)用保存在excel中
首先需要建立一個(gè)空列表,將所有的數(shù)據(jù)添加到里面去。在之前的提取數(shù)據(jù)那個(gè)函數(shù)的時(shí)候,將print(data),改寫成yield data,將所有的數(shù)據(jù)添加到一個(gè)列表之后就可以保存數(shù)據(jù)了。

5、需要注意的地方
- 下載一個(gè)基本字體路徑,找到它對(duì)應(yīng)的數(shù)字及其編碼
- 每一次爬取網(wǎng)頁(yè)時(shí),都要先下載該網(wǎng)頁(yè)的字體文件,然后與基本字體文件作對(duì)比,獲得爬取網(wǎng)頁(yè)的數(shù)字對(duì)應(yīng)編碼。
三、BI分析
有了源文件,我們就可以進(jìn)行BI分析了,至于為什么不用python是因?yàn)楸容^麻煩,像我們?nèi)绻龆朔治瞿P停a寫起來(lái)還是比較麻煩的,日常共工作中不太能滿足需求。
所以一般來(lái)說(shuō)我現(xiàn)在都是用專業(yè)的BI工具進(jìn)行數(shù)據(jù)分析。目前市場(chǎng)上的BI工具十分繁多,但是性能也參差不齊,這里我就以國(guó)產(chǎn)BI工具的優(yōu)秀代表 [FineBI]為例。
1、數(shù)據(jù)連接
首先導(dǎo)入我們需要分析的數(shù)據(jù),finebi可以連接Excel,CSV,XML,以及各類數(shù)據(jù)庫(kù),這里因?yàn)橛辛藀ython爬取到的excel表,所以直接選擇excel導(dǎo)入即可。

2、數(shù)據(jù)加工
我們爬取到的數(shù)據(jù)可能需要第二次加工,比如臟數(shù)據(jù)處理、數(shù)據(jù)合并、過(guò)濾等等,F(xiàn)ineBI是通過(guò)自助數(shù)據(jù)集的方式,根據(jù)需求對(duì)原數(shù)據(jù)進(jìn)行再加工處理,新建一個(gè)用于分析的數(shù)據(jù)集,再處理包括選擇字段、過(guò)濾、分組匯總、新增列、字段設(shè)置、排序、合并的操作。

3、數(shù)據(jù)可視化
因?yàn)楸敬紊婕暗降闹笜?biāo)比較簡(jiǎn)單,所以基本通過(guò)FineBI拖拽數(shù)據(jù)字段即可呈現(xiàn)可視化。

四、結(jié)論分析
不說(shuō)廢話,先放結(jié)論:
- 國(guó)內(nèi)電影市場(chǎng)接近飽和,今年的成績(jī)是虛假繁榮;
- 頭部效應(yīng)加劇,大多數(shù)電影票房慘淡,市場(chǎng)成績(jī)不佳;
- 票房的增長(zhǎng)基本是靠電影價(jià)格拉動(dòng)起來(lái)的,觀影人次基本沒(méi)有增長(zhǎng),電影寒冬到來(lái);
1、票房排名前二十的電影

今年票房前二十名中一半以上都是國(guó)產(chǎn)電影,看似繁榮,但其實(shí)從上圖的區(qū)間柱狀圖中能夠看出,《哪吒》、《流浪地球》、《復(fù)聯(lián)4》三部電影屬于第一梯隊(duì),票房在40億以上;《我和我的祖國(guó)》、《中國(guó)機(jī)長(zhǎng)》、《瘋狂的外星人》、《海王》屬于第二梯隊(duì),票房在20-30億左右;剩下的電影中基本在20億以下,排名20的《銀行補(bǔ)習(xí)班》只有8億。
整體來(lái)說(shuō),去年國(guó)內(nèi)電影市場(chǎng)爆款較多,但是整體呈現(xiàn)階梯狀,斷崖較多,大部分集中于前五名之中,大體上符合二八法則。
2、票房的帕累托模型
為了搞清是否真的符合帕累托法則,我特意用FineBI加入了一條票房累積百分比:

結(jié)果很明顯,排名前20%的電影占據(jù)了整個(gè)市場(chǎng)80%以上的票房總量,也就是說(shuō),去年國(guó)內(nèi)市場(chǎng)的票房總量基本上靠著幾大爆款電影撐起來(lái)的,票房分布越來(lái)越集中絕對(duì)不是一件好事,這意味大多數(shù)的電影成績(jī)慘淡,根本沒(méi)有生存空間。
3、票房占比、排片率與票房的關(guān)系
- 票房占比:電影票房收入占總收入的比例,票房占比越高,說(shuō)明電影質(zhì)量越好,人們?cè)较肟矗?/li>
- 排片率:排片率高、票房低就是爛片,而排片率低、票房高的電影才是黑馬;

這張圖我們可以跟排名前二十的柱狀圖對(duì)比一下,真正意義上高票房、高票房占比、低排片率的黑馬電影有哪些呢?答案只有一部《流浪地球》。
《哪吒》的排片率高是因?yàn)樯嫌惩跊](méi)有什么優(yōu)質(zhì)電影與之競(jìng)爭(zhēng),所以《哪吒》的成功一半要?dú)w功于人和,一半要?dú)w功于天時(shí);《瘋狂外星人》的表現(xiàn)中規(guī)中矩,《海王》屬于典型的商業(yè)片,《我和我的祖國(guó)》屬于特殊情況,不能一概而論。
4、上座率與票房的關(guān)系
- 上座率:即一部影片獲得觀眾人次的多少,優(yōu)秀的影片上座率就高,反之則低

為了方便對(duì)比,我在圖中加入了一條平均上座率的警戒線,其中上座率最高的是《我和我的祖國(guó)》、《我為你犧牲》,原因就不說(shuō)了,大家應(yīng)該都明白;其中比較奇怪的是《飛馳人生》、《新喜劇之王》、《攀登者》,上座率非常高,票房成績(jī)卻不如人意,應(yīng)該是得益于其導(dǎo)演、主演的號(hào)召力。
《流浪地球》上座率在平均值以上,無(wú)論從哪個(gè)角度看都是一部好電影,無(wú)懈可擊。
值得欣慰的是,上座率排名靠前的基本都是國(guó)產(chǎn)電影,看的出來(lái)國(guó)外電影尚不能滿足大多數(shù)人的口味。
5、做點(diǎn)其他分析

電影類型與上座率的關(guān)系
喜劇電影一騎絕塵,動(dòng)畫電影黑馬突起,科幻電影方興未艾,驚悚、懸疑、歷史等小眾題材的電影仍然慘淡無(wú)比。

顏色越深代表上座率越高,字體越大代表票房越高
陳凱歌現(xiàn)在雖然經(jīng)常被爛片之王所詬病,但是不得不說(shuō)他的成績(jī)還是很不錯(cuò)的,另外像寧浩、韓寒、郭帆、陳國(guó)輝等人都是國(guó)產(chǎn)電影的希望。