泰坦尼克號生存預(yù)測

泰坦尼克號生存預(yù)測分析


(一)提出問題

什么樣的人在泰坦尼克號中更容易存活?

(二)理解數(shù)據(jù)

1.導(dǎo)入數(shù)據(jù),為了方便同時(shí)對訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)進(jìn)行清洗,需要將兩個(gè)數(shù)據(jù)集合并


2.查看數(shù)據(jù)集信息

數(shù)據(jù)集由12個(gè)字段構(gòu)成,12個(gè)字段的含義如圖:


數(shù)據(jù)總共有1309行,Survived是標(biāo)簽,用作機(jī)器學(xué)習(xí)預(yù)測,無需處理。數(shù)據(jù)類型列:年齡(Age)、船艙號(Cabin)里面有缺失數(shù)據(jù):

(1)年齡(Age)里面數(shù)據(jù)總數(shù)是1046條,缺失了263,缺失率20%;

(2)船票價(jià)格(Fare)里面數(shù)據(jù)總數(shù)是1308條,缺失了1條數(shù)據(jù)字符串列;

(3)登船港口(Embarked)里面數(shù)據(jù)總數(shù)是1307,只缺失了2條數(shù)據(jù),缺失較少;

(4)船艙號(Cabin)里面數(shù)據(jù)總數(shù)是295,缺失了1014,缺失率77.5%,缺失較大;

(三)數(shù)據(jù)清洗

3.1缺失數(shù)據(jù)填充

登船港口缺失2個(gè)值,將其填充為出現(xiàn)次數(shù)最多的值,船艙號(Cabin)缺失值較多,將其填充為’U’

3.2特征提取

3.2.1數(shù)據(jù)分類

對于不同數(shù)據(jù)類型的特征提取方法不同,對于數(shù)值類型的數(shù)據(jù)可直接使用,對于日期數(shù)據(jù)需轉(zhuǎn)換為單獨(dú)的年、月、日,對于分類數(shù)據(jù)使用One-hot編碼方法用數(shù)字代替類別

3.2.2數(shù)值類型

乘客編號(PassengerId),年齡(Age),船票價(jià)格(Fare),同代直系親屬人數(shù)(SibSp),不同代直系親屬人數(shù)(Parch)

3.2.3分類數(shù)據(jù)

(1).有直接類別的

乘客性別(Sex):男性male,女性female。將性別的值映射為數(shù)值,男(male)對應(yīng)數(shù)值1,女(female)對應(yīng)數(shù)值0


登船港口(Embarked):出發(fā)地點(diǎn)S=英國南安普頓Southampton,途徑地點(diǎn)1:C=法國?瑟堡市Cherbourg,出發(fā)地點(diǎn)2:Q=愛爾蘭?昆士敦Queenstown


客艙等級(Pclass):1=1等艙,2=2等艙,3=3等艙

(2)字符串類型

乘客姓名(Name)在乘客名字中,有一個(gè)非常顯著的特點(diǎn):乘客頭銜每個(gè)名字當(dāng)中都包含了具體的稱謂或者說是頭銜,將這部分信息提取出來后可以作為非常有用一個(gè)新變量,可以幫助我們進(jìn)行預(yù)測


客艙號首字母是客艙的類別


建立家庭人數(shù)和家庭類別

3.3特征選擇

相關(guān)性矩陣

特征選擇

(四)構(gòu)建模型并進(jìn)行準(zhǔn)確性評估

隨機(jī)森林模型預(yù)測,平均準(zhǔn)確率為0.79

邏輯回歸模型,平均準(zhǔn)確率為0.82

(五)得到預(yù)測結(jié)果

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容