用python爬取N部電影,你才我發(fā)現(xiàn)了什么?

2019年就這么匆匆過(guò)去了,就在前幾天國(guó)家電影局發(fā)布了2019年中國(guó)電影市場(chǎng)數(shù)據(jù),數(shù)據(jù)顯示去年總票房為642.66億元,同比增長(zhǎng)5.4%;國(guó)產(chǎn)電影總票房411.75億元,同比增長(zhǎng)8.65%,市場(chǎng)占比 64.07%;城市院線觀影人次17.27億,同比增長(zhǎng)0.64%。

看上去似乎是一片大好對(duì)不對(duì)?不過(guò)作為一名嚴(yán)謹(jǐn)求實(shí)的數(shù)據(jù)分析師,我從官方數(shù)據(jù)中看出了一點(diǎn)端倪: 國(guó)產(chǎn)票房增幅都已經(jīng)高達(dá)8.65%了,為什么觀影人次增長(zhǎng)不足1%?

到底為什么會(huì)出現(xiàn)這樣的現(xiàn)象,最好的辦法就是從數(shù)據(jù)中找答案。我們說(shuō)干就干,按照老規(guī)矩,先用python爬取數(shù)據(jù)、再用BI進(jìn)行數(shù)據(jù)分析,最終事情的真相就會(huì)顯現(xiàn)在我們面前。

一、分析目的和分析指標(biāo)

首先明確我們數(shù)據(jù)分析的目的,根據(jù)2019年電影的數(shù)據(jù)分析國(guó)內(nèi)電影市場(chǎng),主要是為了找到票房與觀影人次的關(guān)系。

怎么去衡量一部電影的好壞呢?懂電影的人應(yīng)該都知道這么幾個(gè)指標(biāo):“電影票房”、“票房占比”、“上座率”、“排片比”、“評(píng)分”等等,其中我們的數(shù)據(jù)源就用貓眼電影吧,但是因?yàn)樨堁墼u(píng)分門檻很低,可能充斥著很多水軍,所以這次就不用“評(píng)分”這個(gè)指標(biāo)了。

image

二、python爬取

下面就要開(kāi)始爬取數(shù)據(jù)了,因?yàn)樨堁垭娪暗木W(wǎng)頁(yè)結(jié)構(gòu)比較簡(jiǎn)單,爬取操作比較簡(jiǎn)單,所以這里我就不詳細(xì)展示了,只說(shuō)幾步需要注意的地方就行。

注:想要源代碼的,后臺(tái)私信我吧,這里就不放了

1、先看看結(jié)構(gòu)

從貓眼電影上可以看到我們要爬取的網(wǎng)頁(yè),首先要提取出這個(gè)網(wǎng)頁(yè)的信息,在了解了大體的情況之后,就右鍵選擇查看網(wǎng)頁(yè)的源代碼,看一下我們需要爬取的數(shù)據(jù)信息在源代碼中的什么地方。

image

2、偽裝成瀏覽器進(jìn)行數(shù)據(jù)請(qǐng)求

這個(gè)方法就是老生常談的事情了,這里不細(xì)講了,在發(fā)送請(qǐng)求前加上headers參數(shù)即可。

image

3、提取數(shù)據(jù)

貓眼里的電影票房等都是加密后的字體,因此我們需要解密字體。雖然字符的編碼是變化的,但是對(duì)象是不變的。那么我們可以通過(guò)第一次下載一個(gè)字體文件origin.ttf,并把對(duì)應(yīng)編碼的字體寫出來(lái),當(dāng)?shù)诙螐木W(wǎng)上重新下載一個(gè)字體文件online_base64.ttf 的時(shí)候,可以對(duì)比對(duì)象信息,如果對(duì)象是一樣的,那么就把第一次編碼對(duì)應(yīng)的文字賦值給第二次的編碼,這樣即可。

image

4、主程序調(diào)用保存在excel中

首先需要建立一個(gè)空列表,將所有的數(shù)據(jù)添加到里面去。在之前的提取數(shù)據(jù)那個(gè)函數(shù)的時(shí)候,將print(data),改寫成yield data,將所有的數(shù)據(jù)添加到一個(gè)列表之后就可以保存數(shù)據(jù)了。

image

5、需要注意的地方

  • 下載一個(gè)基本字體路徑,找到它對(duì)應(yīng)的數(shù)字及其編碼
  • 每一次爬取網(wǎng)頁(yè)時(shí),都要先下載該網(wǎng)頁(yè)的字體文件,然后與基本字體文件作對(duì)比,獲得爬取網(wǎng)頁(yè)的數(shù)字對(duì)應(yīng)編碼。

三、BI分析

有了源文件,我們就可以進(jìn)行BI分析了,至于為什么不用python是因?yàn)楸容^麻煩,像我們?nèi)绻龆朔治瞿P停a寫起來(lái)還是比較麻煩的,日常共工作中不太能滿足需求。

所以一般來(lái)說(shuō)我現(xiàn)在都是用專業(yè)的BI工具進(jìn)行數(shù)據(jù)分析。目前市場(chǎng)上的BI工具十分繁多,但是性能也參差不齊,這里我就以國(guó)產(chǎn)BI工具的優(yōu)秀代表 [FineBI]為例。

1、數(shù)據(jù)連接

首先導(dǎo)入我們需要分析的數(shù)據(jù),finebi可以連接Excel,CSV,XML,以及各類數(shù)據(jù)庫(kù),這里因?yàn)橛辛藀ython爬取到的excel表,所以直接選擇excel導(dǎo)入即可。

image

2、數(shù)據(jù)加工

我們爬取到的數(shù)據(jù)可能需要第二次加工,比如臟數(shù)據(jù)處理、數(shù)據(jù)合并、過(guò)濾等等,F(xiàn)ineBI是通過(guò)自助數(shù)據(jù)集的方式,根據(jù)需求對(duì)原數(shù)據(jù)進(jìn)行再加工處理,新建一個(gè)用于分析的數(shù)據(jù)集,再處理包括選擇字段、過(guò)濾、分組匯總、新增列、字段設(shè)置、排序、合并的操作。

image

3、數(shù)據(jù)可視化

因?yàn)楸敬紊婕暗降闹笜?biāo)比較簡(jiǎn)單,所以基本通過(guò)FineBI拖拽數(shù)據(jù)字段即可呈現(xiàn)可視化。

image

四、結(jié)論分析

不說(shuō)廢話,先放結(jié)論:

  • 國(guó)內(nèi)電影市場(chǎng)接近飽和,今年的成績(jī)是虛假繁榮;
  • 頭部效應(yīng)加劇,大多數(shù)電影票房慘淡,市場(chǎng)成績(jī)不佳;
  • 票房的增長(zhǎng)基本是靠電影價(jià)格拉動(dòng)起來(lái)的,觀影人次基本沒(méi)有增長(zhǎng),電影寒冬到來(lái);

1、票房排名前二十的電影

image

今年票房前二十名中一半以上都是國(guó)產(chǎn)電影,看似繁榮,但其實(shí)從上圖的區(qū)間柱狀圖中能夠看出,《哪吒》、《流浪地球》、《復(fù)聯(lián)4》三部電影屬于第一梯隊(duì),票房在40億以上;《我和我的祖國(guó)》、《中國(guó)機(jī)長(zhǎng)》、《瘋狂的外星人》、《海王》屬于第二梯隊(duì),票房在20-30億左右;剩下的電影中基本在20億以下,排名20的《銀行補(bǔ)習(xí)班》只有8億。

整體來(lái)說(shuō),去年國(guó)內(nèi)電影市場(chǎng)爆款較多,但是整體呈現(xiàn)階梯狀,斷崖較多,大部分集中于前五名之中,大體上符合二八法則。

2、票房的帕累托模型

為了搞清是否真的符合帕累托法則,我特意用FineBI加入了一條票房累積百分比:

image

結(jié)果很明顯,排名前20%的電影占據(jù)了整個(gè)市場(chǎng)80%以上的票房總量,也就是說(shuō),去年國(guó)內(nèi)市場(chǎng)的票房總量基本上靠著幾大爆款電影撐起來(lái)的,票房分布越來(lái)越集中絕對(duì)不是一件好事,這意味大多數(shù)的電影成績(jī)慘淡,根本沒(méi)有生存空間。

3、票房占比、排片率與票房的關(guān)系

  • 票房占比:電影票房收入占總收入的比例,票房占比越高,說(shuō)明電影質(zhì)量越好,人們?cè)较肟矗?/li>
  • 排片率:排片率高、票房低就是爛片,而排片率低、票房高的電影才是黑馬;
image

這張圖我們可以跟排名前二十的柱狀圖對(duì)比一下,真正意義上高票房、高票房占比、低排片率的黑馬電影有哪些呢?答案只有一部《流浪地球》。

《哪吒》的排片率高是因?yàn)樯嫌惩跊](méi)有什么優(yōu)質(zhì)電影與之競(jìng)爭(zhēng),所以《哪吒》的成功一半要?dú)w功于人和,一半要?dú)w功于天時(shí);《瘋狂外星人》的表現(xiàn)中規(guī)中矩,《海王》屬于典型的商業(yè)片,《我和我的祖國(guó)》屬于特殊情況,不能一概而論。

4、上座率與票房的關(guān)系

  • 上座率:即一部影片獲得觀眾人次的多少,優(yōu)秀的影片上座率就高,反之則低
image

為了方便對(duì)比,我在圖中加入了一條平均上座率的警戒線,其中上座率最高的是《我和我的祖國(guó)》、《我為你犧牲》,原因就不說(shuō)了,大家應(yīng)該都明白;其中比較奇怪的是《飛馳人生》、《新喜劇之王》、《攀登者》,上座率非常高,票房成績(jī)卻不如人意,應(yīng)該是得益于其導(dǎo)演、主演的號(hào)召力。

《流浪地球》上座率在平均值以上,無(wú)論從哪個(gè)角度看都是一部好電影,無(wú)懈可擊。

值得欣慰的是,上座率排名靠前的基本都是國(guó)產(chǎn)電影,看的出來(lái)國(guó)外電影尚不能滿足大多數(shù)人的口味。

5、做點(diǎn)其他分析

image

電影類型與上座率的關(guān)系

喜劇電影一騎絕塵,動(dòng)畫電影黑馬突起,科幻電影方興未艾,驚悚、懸疑、歷史等小眾題材的電影仍然慘淡無(wú)比。

image

顏色越深代表上座率越高,字體越大代表票房越高

陳凱歌現(xiàn)在雖然經(jīng)常被爛片之王所詬病,但是不得不說(shuō)他的成績(jī)還是很不錯(cuò)的,另外像寧浩、韓寒、郭帆、陳國(guó)輝等人都是國(guó)產(chǎn)電影的希望。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 這篇文章,寫給石家莊。石家莊,又名國(guó)際莊。 對(duì)石家莊的第一印象停留在了2015年1月10日的紅旗大街,那是河北省美...
    因?yàn)槲沂切】蓯?ài)啊閱讀 903評(píng)論 0 1
  • 印象最深刻三個(gè)部分 1張楓釵同學(xué)的精彩講課 2老師犀利的眼神 3知覺(jué)的基本特性 為什么印象深刻? 1因?yàn)閺垪麾O同學(xué)...
    bnjytes閱讀 266評(píng)論 1 0
  • 4.23是世界讀書(shū)日,相信很多人會(huì)被媒體的蹭熱點(diǎn)刷出一陣買書(shū)讀書(shū)的熱情,而我為了蹭這個(gè)熱點(diǎn)也是為大家精心準(zhǔn)備了一份...
    _小小眾_閱讀 340評(píng)論 0 0
  • ?熱身:抓烏龜 ??感悟:如果在教室里,孩子的注意力放到不被抓到和抓別人身上,那么他將聽(tīng)不到教學(xué)內(nèi)容是什么。 ?互...
    Miki盧盧閱讀 283評(píng)論 0 0
  • 歲月似乎就躲在眼簾前,躲在眼睫纖細(xì)的前端,當(dāng)執(zhí)著去尋找它,隱隱約約能見(jiàn)到些影子,一點(diǎn)點(diǎn)模糊軌跡,而當(dāng)把它忘諸腦后,...
    林爔櫟閱讀 552評(píng)論 4 3

友情鏈接更多精彩內(nèi)容