? ? ? ? ? ? ? ? ? ? ? ? ? ? ?寫在前面
? ?在上次觀看了比利.林恩的中場(chǎng)戰(zhàn)事之后,開始進(jìn)入了豆瓣的電影世界,對(duì)于一個(gè)新用戶來說,特別喜歡豆瓣電影的影評(píng),對(duì)于所看過的留下深刻印象的電影都在豆瓣上搜了一邊,同一部電影,希望能看到與自己感受不同的觀點(diǎn),因?yàn)槊恳晃挥^眾都有著不一樣的人生軌跡,看待事物的角度可能會(huì)有所不同,正是這種差異往往能引發(fā)思考。豆瓣的電影數(shù)據(jù)方面一直以來都比較權(quán)威,對(duì)于每一位熱愛電影的觀眾來說都是很好的參考,受眾小而專,影評(píng)和評(píng)分都比較客觀。。吧!
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?關(guān)于數(shù)據(jù)
電影數(shù)據(jù)來源于豆瓣網(wǎng)站,已經(jīng)爬完了所有的電影分類標(biāo)簽,總共抓取到的電影記錄有34177條,其中沒有電影評(píng)分的記錄有6399條,這些都是經(jīng)過去重和清理后的數(shù)據(jù),清理指的是對(duì)于電視劇、真人秀、脫口秀等等的篩除,也就是說數(shù)據(jù)里僅僅包含電影。電影票房數(shù)據(jù)來源于電影票房數(shù)據(jù)庫(kù)網(wǎng)站,記錄不多,只有2577條,經(jīng)過簡(jiǎn)單地去離群點(diǎn)與豆瓣電影數(shù)據(jù)混合后只剩下2353條。電影數(shù)據(jù)中包含電影名字、導(dǎo)演、主演、所屬國(guó)家或者地區(qū)、電影類型、語言類型、評(píng)價(jià)人數(shù)、以及評(píng)分等等。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ?分析目的
? ? 從不同的角度來觀測(cè)數(shù)據(jù),查看各個(gè)參數(shù)之間的聯(lián)系,發(fā)現(xiàn)實(shí)際的有趣的問題,大體上進(jìn)行分析。
? ? ? ? ? ? ? ? ? ? ? ? ?豆瓣的電影世界
一、從電影數(shù)量上觀測(cè)數(shù)據(jù)
1、各國(guó)發(fā)行的電影總數(shù)

? ? 從直方圖的顯示來看,美國(guó)發(fā)行的電影數(shù)量最多,是位居第二的中國(guó)大陸的兩倍還多,其次是日本、英國(guó)、香港、韓國(guó)…美國(guó)的電影數(shù)量在意料之中,美國(guó)經(jīng)過漫長(zhǎng)的電影發(fā)展史,到現(xiàn)在已經(jīng)形成了龐大的專業(yè)“電影生產(chǎn)線”,韓國(guó)的電影數(shù)量有點(diǎn)出乎意料,只有1277部,當(dāng)然這只是從所爬取的數(shù)據(jù)中觀測(cè)到的。
2、21世紀(jì)各年度發(fā)行的電影數(shù)量

? ? ?從進(jìn)入21世紀(jì)之后各年度電影發(fā)行數(shù)量來看,大體上呈現(xiàn)出逐年增長(zhǎng)的趨勢(shì),2009-2011年這三年增長(zhǎng)趨勢(shì)停滯,特別是2015年相對(duì)于2014年增幅最大。2015年之后每年電影發(fā)行數(shù)量突破兩千,每年可供觀眾選擇的電影也越來越多樣化了,希望質(zhì)量也能隨數(shù)量越來越高呀!
3、21世紀(jì)每個(gè)年份各月發(fā)行的電影數(shù)量

? ? ?這是21世紀(jì)以來每年的各個(gè)月份電影發(fā)行量趨勢(shì)圖,有意思的是每年的9、10月份電影發(fā)行量最多,會(huì)達(dá)到一年中的峰值,難道是中秋國(guó)慶小長(zhǎng)假的原因嗎?各月份之間的波動(dòng)不大。。。
4、大陸與港臺(tái)地區(qū)電影數(shù)量隨時(shí)間的變化

80、90年代香港電影正巔峰,每年的電影發(fā)行量一直處于前列,最多的時(shí)候是93年的86部,但之后呈下降趨勢(shì)。大陸在2000年以前電影發(fā)行量都比較穩(wěn)定,21世紀(jì)之后發(fā)展迅猛,16年電影發(fā)行量突破了400…臺(tái)灣地區(qū)整個(gè)趨勢(shì)都比較平和,11年之后有小波動(dòng)。
二、從電影評(píng)分上觀測(cè)數(shù)據(jù),反映電影質(zhì)量
1、世界電影均值趨勢(shì)

?在這部分的分析開始時(shí)已經(jīng)對(duì)沒有評(píng)分的電影進(jìn)行了篩除,從數(shù)據(jù)的反映可以看出全世界的電影評(píng)分均值在1929年到2005年之間都比較穩(wěn)定,基本維持在7.3-8.1之間。在05年之后出現(xiàn)了下滑,在08-10年之間下滑停滯,均值是7.0分,到之后直到2016年一直下滑到6.1分,基本上算及格,可見在這幾年隨著電影數(shù)量的上升,質(zhì)量有所降低,是不是爛片有點(diǎn)多了呢?
2、中國(guó)與世界上其他所有國(guó)家和地區(qū)在電 ? ? ? ? 影評(píng)分均值上的對(duì)比

? 當(dāng)然,中國(guó)包含了大陸和港澳臺(tái)地區(qū),在改革開放后,中國(guó)的電影評(píng)分均值趨勢(shì)普遍低于世界上所有國(guó)家和地區(qū)(將世界上其他所有國(guó)家和地區(qū)看成是一個(gè)整體來對(duì)比),中國(guó)是實(shí)實(shí)在在拉了世界的后腿呀!特別是2010年之后,差距越拉越大,這得好好反思了。。。雖然說這幾年世界電影評(píng)分均值也在下滑,可是中國(guó)的下滑地也太快囖!
3、電影發(fā)行量前五的國(guó)家評(píng)分均值對(duì)比

?從圖中可以看出基本上評(píng)分均值最高的是英國(guó),其次是日本、法國(guó)、和美國(guó),最后是中國(guó)。特別是最近這幾年,中國(guó)有些反常,說實(shí)話,最近這幾年咱中國(guó)拍的爛片確實(shí)多了些。
4、大陸和港臺(tái)地區(qū)電影評(píng)分均值對(duì)比

?話說,臺(tái)灣地區(qū)的評(píng)分均值趨勢(shì)一直活躍于祖國(guó)的頂端??!港臺(tái)地區(qū)一直都比較穩(wěn)定。大陸在09年之前都是很不錯(cuò)的,分布在6.5-8.1分之間,在1984年一度達(dá)到8.1分,09年之后蹭蹭地往下滑,曾經(jīng)一度下滑到4.0,15年之后有所回升。
5、中國(guó)大陸的電影評(píng)分分布

從上圖的數(shù)據(jù)中可以反映出,在1966年-1978年之間幾乎沒有電影評(píng)分統(tǒng)計(jì),在這段時(shí)間內(nèi)大陸電影史上幾乎一片空白。在改革開放之后直到2011年,每年的評(píng)分中位數(shù)一直保持在6.0分以上。隨著近幾年電影的發(fā)展,大陸的電影發(fā)行量急劇增加,但是評(píng)分中位數(shù)逐年下降,從2010年的6.5分下降到2016年的4.7分,也就是說在2016年這一年內(nèi)大陸地區(qū)所拍的電影評(píng)分有一半是在4.7分以下的,但是也有拍的比較好的電影,評(píng)分達(dá)到8.9分,評(píng)分最低達(dá)到2.1分。
三、從票房的角度進(jìn)行分析
1、內(nèi)地各年度票房統(tǒng)計(jì)

? ? ?從票房數(shù)據(jù)統(tǒng)計(jì)來看,在2013年之前票房增長(zhǎng)是很有規(guī)律的,在2013年之后出現(xiàn)爆發(fā)式增長(zhǎng),2015年的票房是2013年的兩倍,達(dá)到445億左右。截至目前為止,2016年的票房是410億左右,2016年的票房數(shù)據(jù)還沒完全統(tǒng)計(jì)到,估計(jì)不會(huì)比2015年少。從另一個(gè)角度來看,隨著經(jīng)濟(jì)的快速發(fā)展,人們的生活方式也在發(fā)生著變化,熱愛電影逐漸成為一種新的生活習(xí)慣,希望生活幸福指數(shù)越來越高哩。
2、豆瓣評(píng)分與票房均值之間的關(guān)系

?當(dāng)然是評(píng)分越高,票房越高??!所以說高質(zhì)量電影不愁沒有票房。。。
四、評(píng)價(jià)人數(shù)排在前30的電影列表

? ? ?這些都是質(zhì)量和人氣都非常高的電影,大部分我都看過了,最喜歡的是肖申克的救贖,泰坦尼克號(hào),海上鋼琴師和楚門的世界,當(dāng)年的小李子啊。。。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 題外話
1、爬取數(shù)據(jù)的工具
計(jì)算機(jī)語言:java
數(shù)據(jù)可視化工具:tableau(比較簡(jiǎn)單易用)
2、自己也是一邊學(xué)一邊用,這只是一個(gè)小小的爬蟲,從編寫代碼,調(diào)試,抓取數(shù)據(jù),數(shù)據(jù)清理和規(guī)范到分析,最大的感受就是無論做什么都要有所規(guī)劃,盡量預(yù)測(cè)可能發(fā)生的問題,在執(zhí)行的過程中盡量避免問題,當(dāng)然,就算遇上問題也不怕,因?yàn)檗k法總是比困難多!
3、在爬取豆瓣數(shù)據(jù)的時(shí)候遇到的問題
(1)如果沒有登陸就抓取數(shù)據(jù),會(huì)被豆瓣的服務(wù)器封了ip,不過第二天就會(huì)好了。
(2)登陸了之后,抓取數(shù)據(jù)過快的話會(huì)觸發(fā)豆瓣的反爬蟲機(jī)制,當(dāng)前會(huì)話會(huì)被服務(wù)器拒絕,同時(shí)會(huì)讓你輸入驗(yàn)證碼證明不是機(jī)器之后才能繼續(xù)訪問。
(3)針對(duì)于第二個(gè)問題我的解決方法是,在晚上10點(diǎn)之后爬取會(huì)好很多,服務(wù)器負(fù)載小,就算下載線程開到10,出現(xiàn)反爬蟲驗(yàn)證碼也很少。當(dāng)然這不是根本的解決之道,另外如果出現(xiàn)驗(yàn)證碼的時(shí)候,讓所有的下載線程掛起,然后在控制臺(tái)上手動(dòng)輸入驗(yàn)證碼,讓程序繼續(xù)訪問。這不太方便了,各位有什么好的辦法嗎?
(4)對(duì)于票房數(shù)據(jù)的來源,是從電影票房數(shù)據(jù)庫(kù)網(wǎng)站爬取的。票房數(shù)據(jù)是用圖片生成,應(yīng)該就是用來反爬蟲的吧,一開始嘗試著使用tess4j進(jìn)行圖片識(shí)別,圖片很小,經(jīng)過適當(dāng)放大處理后整體識(shí)別率高了一些,但小數(shù)點(diǎn)后的識(shí)別往往會(huì)出偏差,效率也低,最終放棄了這個(gè)方法。
如果發(fā)現(xiàn)什么問題,歡迎提出來,在下感激不盡啦!
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?好好生活,好好成長(zhǎng)!
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?VigoLin