第一篇文章也是泰坦尼克號(hào)乘客預(yù)測(cè)的主題,但是是結(jié)合了保險(xiǎn)行業(yè)的需求,不僅僅是單一的0/1分類問(wèn)題,詳細(xì)可以參考第一篇文章(●'?'●)
今天這篇文章依然是泰坦尼克號(hào)主題,且是簡(jiǎn)單的0/1預(yù)測(cè),繼續(xù)看這樣一個(gè)項(xiàng)目的初衷是想了解這個(gè)主題的初始研究目標(biāo),重點(diǎn)事項(xiàng)學(xué)習(xí)數(shù)據(jù)如何清理,特征如何選取,以及去了解完成一個(gè)數(shù)據(jù)項(xiàng)目的流程以及每個(gè)步驟的常見(jiàn)套路,所以今天,我們沒(méi)有具體完整的代碼,重點(diǎn)是關(guān)于數(shù)據(jù)預(yù)處理分析部分的分析和流程的記錄(●ˇ?ˇ●)
1) 定義問(wèn)題
遇到一個(gè)待解決的問(wèn)題——>產(chǎn)生一個(gè)新的需求——>想到一系列解決方案——>為驗(yàn)證解決方案設(shè)計(jì)實(shí)施步驟——>為了實(shí)施需要使用的技術(shù)。
經(jīng)常地,我們往往沉迷于新的技術(shù),而不明白我們實(shí)際想解決的問(wèn)題是什么。明白自己的問(wèn)題是什么,業(yè)務(wù)需求是什么,研究一個(gè)算法優(yōu)化一個(gè)模型才是有意義的。
在這個(gè)案例中,
問(wèn)題是根據(jù)乘客性別,社會(huì)等級(jí),年齡等一系列信息,如果這個(gè)乘客在泰坦尼克號(hào)游船上,他能不能幸存?
需求可以描述為,能不能根據(jù)歷史數(shù)據(jù),預(yù)測(cè)泰坦尼克號(hào)乘客是否遇難?
解決方案需要考慮到婦女兒童有限,社會(huì)等級(jí)高的人有限,很明顯,遇難/幸存,是一個(gè)二分類問(wèn)題。
2) 收集數(shù)據(jù)
數(shù)據(jù)已經(jīng)存在(結(jié)構(gòu)化的&非結(jié)構(gòu)化的,主觀的&客觀的,etc),在于我們?nèi)绾握业剿?br>
收集數(shù)據(jù)在于我們明確的自己的研究的問(wèn)題目標(biāo)和需求,去收集相關(guān)的各種數(shù)據(jù)。
3) 準(zhǔn)備數(shù)據(jù)
旨在將無(wú)序的數(shù)據(jù)清理為有序的能滿足我們業(yè)務(wù)需求的格式數(shù)據(jù)。
我們需要完成兩部分工作,
1.分析每個(gè)數(shù)據(jù)變量,確定因變量和自變量
- 4C:
Correcting,糾正異常值(年齡=800,城市距離=3000Km 等等)
Completing,填補(bǔ)缺失值(均值,中位數(shù),眾數(shù)等等)
Creating,組合新的特征用于分析(基于當(dāng)前特征組合新的特征,如兩地經(jīng)緯度差值,)
Converting,轉(zhuǎn)換數(shù)據(jù)格式
4) 探索性分析,描述性,圖形化的分析,定性特征和定量特征的區(qū)分,對(duì)于厘清數(shù)據(jù)中潛在的相關(guān)性關(guān)系,非常關(guān)鍵。
5) 數(shù)據(jù)建模,錯(cuò)誤的模型,好的情況表現(xiàn)為性能差,查到情況會(huì)得到錯(cuò)誤的結(jié)論。所以,模型很強(qiáng)大,但是我們依然是選擇模型的master.
6) 模型驗(yàn)證和實(shí)施,過(guò)擬合,欠擬合,通用化的。
7) 模型優(yōu)化并給出分析結(jié)果。
從兩個(gè)方面,一個(gè)是技術(shù)本身,模型能不能再優(yōu)化,結(jié)果是否合理;一個(gè)是業(yè)務(wù)本身,模型是否已經(jīng)滿足需求,模型的輸出是否解決問(wèn)題。
下一篇,我們嘗試一下,數(shù)據(jù)分析在整車市場(chǎng)有哪些應(yīng)用呢?
