【一點(diǎn)分享】用Mysql分析豆瓣數(shù)據(jù),竟有意外的收獲。

這兩天在精選影視內(nèi)容,已初步準(zhǔn)(爬)備(蟲(chóng))好了部分?jǐn)?shù)據(jù)。(p.s. 對(duì)爬蟲(chóng)感覺(jué)興趣的朋友請(qǐng)關(guān)注后續(xù)文章)按之前的數(shù)據(jù)分析七步法,下一步是數(shù)據(jù)處理。本次嘗試完全使用Mysql來(lái)處理,不借用其他工具。

一、數(shù)據(jù)處理——數(shù)組字段拆分

上來(lái)的第一個(gè)難題就是電影的類型字段,是個(gè)多值類似數(shù)組格式,需要拆分。網(wǎng)上也有很多不同的解決方案,要用到自定義函數(shù)、存儲(chǔ)教程、臨時(shí)中間表、json,步驟較長(zhǎng),不易理解。要是有簡(jiǎn)潔的方法就好了。

筆者昨天分享了with使用,正好其中有使用with的遞歸來(lái)解決問(wèn)題。還記得筆者是怎么對(duì)with評(píng)價(jià)的嗎?那就是具備了編程語(yǔ)言的功能,今天再感受一回神奇魔力吧。

直接上圖,簡(jiǎn)潔流暢,with的遞歸真是妙不可言。

二、統(tǒng)計(jì)分析

1、簡(jiǎn)單統(tǒng)計(jì)

2、窗口函數(shù)統(tǒng)計(jì)

3、關(guān)聯(lián)過(guò)濾——inner join

三、作業(yè)

準(zhǔn)備好的這份新數(shù)據(jù),不只有以上的實(shí)戰(zhàn)練習(xí)case,還有很多可做的。留下幾道作業(yè),有興趣的朋友請(qǐng)?jiān)诠娞?hào)后臺(tái)回復(fù)sql獲取數(shù)據(jù)庫(kù)賬號(hào)進(jìn)行練習(xí)。

? ? 每年上映的評(píng)分最高和最低的劇影

? ? 出演過(guò)至少2部的演員有哪些,按部數(shù)倒序

? ? 單一導(dǎo)演和聯(lián)合導(dǎo)演的劇影評(píng)分對(duì)比

? ? 評(píng)分前100的劇影來(lái)自哪些國(guó)家地區(qū)

以上作業(yè)代表是不同角度來(lái)分析——就是維度,通常以dim表示,還可以有維度交叉進(jìn)行分析,后續(xù)文章再予分享,敬請(qǐng)關(guān)注。


說(shuō)明:當(dāng)前數(shù)據(jù)不完備,有些統(tǒng)計(jì)的結(jié)果不具有代表意義,權(quán)當(dāng)訓(xùn)練。當(dāng)數(shù)據(jù)集到一定規(guī)模后,再執(zhí)行統(tǒng)計(jì)和分析,期待后續(xù)有意思的發(fā)現(xiàn)。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容