分析背景:
豆瓣電影提供最新的電影介紹及評論包括上映影片的影訊查詢及購票服務。你可以記錄想看、在看和看過的電影電視劇,順便打分、寫影評。極大地方便了人們的生活。
分析目的:
從豆瓣電影的用戶評分數(shù)據(jù)、用戶評論數(shù)據(jù)和電影數(shù)據(jù)中,找出最受歡迎的電影,以及評論關鍵詞與電影評分之間的辯證關系,并進行可視化。
0、數(shù)據(jù)讀取

從sqlite數(shù)據(jù)庫中讀取數(shù)據(jù),整個數(shù)據(jù)集有404972條評論,7個字段。
分析使用2個字段:MOVIEID和CONTENT。
1、最受歡迎的10部電影

一部電影是否受歡迎和他的評論數(shù)有很大相關性,評論數(shù)越高,說明看過電影的人閱讀,對電影有感觸的人越多,表示電影越受歡迎。
從電影評論數(shù)來看,最受歡迎的10部電影是出租出司機、肖申克的救贖(這兩部也是評論上千的電影)、七宗罪、禁閉島、畢業(yè)生、殺死比爾2、布達佩斯大飯店、黑暗中的舞者、指環(huán)王1:魔戒再現(xiàn)、蝴蝶效應。
2、獲取某部電影的所有評論
通過文本拼接來獲取某部電影的所有評論文本。

定義獲取評論文本函數(shù)
3、獲取某部電影評論的關鍵詞并生成關鍵詞詞云圖
通過jieba分詞來獲取電影評論文本的關鍵詞。
從關鍵詞中可以看出電影的總體評價。

獲取電影評論關鍵詞

關鍵詞詞云圖

定義生成關鍵詞詞云函數(shù)
4、評論關鍵詞與評分之間的關系
探索高分電影的評論中哪些關鍵詞出現(xiàn)次數(shù)更多,低分電影的評論中又是哪些關鍵詞出現(xiàn)更頻繁。

評分數(shù)據(jù)

需要使用的函數(shù)、構造存放列表



高分電影評論關鍵詞3D熱力圖


低分電影評論關鍵詞3D熱力圖