我們將數(shù)據(jù)分析過(guò)程組織為五個(gè)步驟:提問(wèn)、整理、探索、得出結(jié)論和傳達(dá)結(jié)果。以下是關(guān)鍵要點(diǎn)的概述。
第 1 步:提問(wèn)
你要么獲取一批數(shù)據(jù),然后根據(jù)它提問(wèn),要么先提問(wèn),然后根據(jù)問(wèn)題收集數(shù)據(jù)。在這兩種情況下,好的問(wèn)題可以幫助你將精力集中在數(shù)據(jù)的相關(guān)部分,并幫助你得出有洞察力的分析。
第 2 步:整理數(shù)據(jù)
你通過(guò)三步來(lái)獲得所需的數(shù)據(jù):收集,評(píng)估,清理。你收集所需的數(shù)據(jù)來(lái)回答你的問(wèn)題,評(píng)估你的數(shù)據(jù)來(lái)識(shí)別數(shù)據(jù)質(zhì)量或結(jié)構(gòu)中的任何問(wèn)題,并通過(guò)修改、替換或刪除數(shù)據(jù)來(lái)清理數(shù)據(jù),以確保你的數(shù)據(jù)集具有最高質(zhì)量和盡可能結(jié)構(gòu)化。
第 3 步:執(zhí)行 EDA(探索性數(shù)據(jù)分析)
你可以探索并擴(kuò)充數(shù)據(jù),以最大限度地發(fā)揮你的數(shù)據(jù)分析、可視化和模型構(gòu)建的潛力。探索數(shù)據(jù)涉及在數(shù)據(jù)中查找模式,可視化數(shù)據(jù)中的關(guān)系,并對(duì)你正在使用的數(shù)據(jù)建立直覺(jué)。經(jīng)過(guò)探索后,你可以刪除異常值,并從數(shù)據(jù)中創(chuàng)建更好的特征,這稱為特征工程。
第 4 步:得出結(jié)論(或甚至是做出預(yù)測(cè))
這一步通常使用機(jī)器學(xué)習(xí)或推理性統(tǒng)計(jì)來(lái)完成,不在本課程范圍內(nèi),本課的重點(diǎn)是使用描述性統(tǒng)計(jì)得出結(jié)論。
第 5 步:傳達(dá)結(jié)果
你通常需要證明你發(fā)現(xiàn)的見(jiàn)解及傳達(dá)意義?;蛘撸绻愕淖罱K目標(biāo)是構(gòu)建系統(tǒng),則通常需要分享構(gòu)建的結(jié)果,解釋你得出設(shè)計(jì)結(jié)論的方式,并報(bào)告該系統(tǒng)的性能。傳達(dá)結(jié)果的方法有多種:報(bào)告、幻燈片、博客帖子、電子郵件、演示文稿,甚至對(duì)話。數(shù)據(jù)可視化總會(huì)給你呈現(xiàn)很大的價(jià)值。