最近在學(xué)習(xí)數(shù)據(jù)分析,接觸到知乎上知友“”的內(nèi)容,有一篇是他將豆瓣上6萬(wàn)本書(shū)籍基礎(chǔ)信息爬到并且分享給大家(鏈接:),于是自己也想以這部分?jǐn)?shù)據(jù)為例,以我自己對(duì)數(shù)據(jù)分析的方法論,實(shí)踐一次。
前提有個(gè)說(shuō)明,是因?yàn)椴恢浪且允裁礃拥囊?guī)則爬取的,所以樣本可能有偏差,但這不可避免,因此不再討論。
出發(fā)點(diǎn)
數(shù)據(jù)分析第一步:知道自己為什么要分析。
分析的目的是為了解決一個(gè)業(yè)務(wù)問(wèn)題、驗(yàn)證一個(gè)假設(shè)、發(fā)現(xiàn)一個(gè)探索性的規(guī)律等,而不是為了分析而分析。
所以我給自己預(yù)設(shè)一個(gè)場(chǎng)景:我是一個(gè)圖書(shū)愛(ài)好者,希望能從這里面找到好書(shū);以及我是一個(gè)出版行業(yè)的入門(mén)者,希望能從這里面的數(shù)據(jù)探索一些趨勢(shì),增加對(duì)初版行業(yè)的了解。
初始數(shù)據(jù)的整理
拿到這張表,我發(fā)現(xiàn)表格還是需要整理的,例如:
1、作者里面有出現(xiàn)作者和譯者信息的情況、有多個(gè)作者的情況;
2、出版時(shí)間有多種格式
3、價(jià)格有不同類型的價(jià)格(如臺(tái)幣)、貨幣的不同表現(xiàn)方法
4、...
因此需要對(duì)數(shù)據(jù)做基礎(chǔ)的清晰和整理,使之成為一張可以分析的表格。
但在實(shí)際清理過(guò)程中發(fā)現(xiàn),直接在原數(shù)據(jù)里做清理,工作量和難度都很大,因此決定先做正常分析,分析過(guò)程中發(fā)現(xiàn)有誤差的情況下,再做處理。這樣靈活性更高,并且顯著降低工作量。
分析
1、我想知道哪些書(shū)是好書(shū)
首先從圖書(shū)分值分布來(lái)看,整體打分是符合正項(xiàng)分布的。另外也能看到一個(gè)異常:約有6600本書(shū)目前還是0分,即還沒(méi)有人看,占比超過(guò)了10%。
單看正項(xiàng)分布的區(qū)域,發(fā)現(xiàn)大部分書(shū)籍的評(píng)價(jià)是在7.4-8.7分左右,因此可以初步猜測(cè)當(dāng)一本書(shū)分?jǐn)?shù)小于7.4分且評(píng)價(jià)人數(shù)不是過(guò)低(比如低于200、300),可能內(nèi)容質(zhì)量就已經(jīng)不高;而高于8.7且有很多人看的書(shū),基本可以判斷為很高質(zhì)量的書(shū)籍了。
