實(shí)戰(zhàn)天池精準(zhǔn)醫(yī)療大賽之一_數(shù)據(jù)分析

1. 賽題說(shuō)明

?天池精準(zhǔn)醫(yī)療大賽——人工智能輔助糖尿病遺傳風(fēng)險(xiǎn)預(yù)測(cè),這是明天即將開(kāi)始的天池大數(shù)據(jù)比賽。賽題名字看起來(lái)很高深,其實(shí)是根據(jù)年齡,性別,肝功,血常規(guī)等體驗(yàn)指標(biāo),預(yù)測(cè)血糖值。數(shù)據(jù)挺少的,特征40個(gè)左右,訓(xùn)練集5000多個(gè)實(shí)例,測(cè)試集1000個(gè)實(shí)例。任何機(jī)器都能很快跑完。比賽地址:
https://tianchi.aliyun.com/competition/introduction.htm?spm=5176.100066.0.0.57e6e8dfMg8Z8V&raceId=231638

2. 預(yù)處理

(1) 缺失數(shù)據(jù)

?有大量的缺失值,特征分四類(lèi),分別是乙肝、血常規(guī)、肝功能、腎功能,一般的缺失值都是缺失整個(gè)類(lèi)別數(shù)據(jù)(由于患者未做某項(xiàng)檢查)。除血常規(guī)以外,其余三項(xiàng)都有大量的缺失值,尤其是乙肝類(lèi)檢查,多一半都是空值。 如果去掉這些數(shù)據(jù),將會(huì)損失3/4的數(shù)據(jù)量。假設(shè):醫(yī)生不要求做該項(xiàng)檢查,說(shuō)明他認(rèn)為該項(xiàng)指標(biāo)基本正常,則在指標(biāo)的正常范圍內(nèi)取隨機(jī)值填充。

(2) 其它操作

?替換去掉其中中文字符

3. 數(shù)據(jù)分析

(1) 相關(guān)性分析:

?歲數(shù)與血糖的相關(guān)性最大為0.32,甘油三酯相關(guān)性0.23,還有年齡,堿性磷酸酶,白細(xì)胞計(jì)數(shù)等6項(xiàng)指標(biāo)在0.15左右。(data.corr(), data.cov())

(2) PCA降維:

?前15個(gè)特征約占信息量的99.8%

(3) 分析血糖值分布:

絕大多數(shù)分布在4-15之間,比賽前期可將此范圍之外的認(rèn)為噪聲。

4. 算法

(1) 算法分析

?這是一個(gè)有監(jiān)督的回歸問(wèn)題,此比賽基本可以定位成特征工程加調(diào)參問(wèn)題。預(yù)計(jì)先使用GBDT和隨機(jī)森林,后面集成多個(gè)模型。 因?yàn)閿?shù)據(jù)少,主要注意過(guò)擬合問(wèn)題,可能使用先分類(lèi)后回歸的方式。注意回歸不是按正確率計(jì)算結(jié)果的,此題根據(jù)題目要求,評(píng)估指標(biāo)為MSE

(2) 迭代分析

?左圖是迭代與誤差的關(guān)系,迭代到100次后,測(cè)試集誤差不再下降,訓(xùn)練集還在下降,好像開(kāi)始過(guò)擬合,當(dāng)然這與我設(shè)置的學(xué)習(xí)率相關(guān),右圖是迭代后計(jì)算的特征權(quán)重排序。

(3) 查看預(yù)測(cè)的主要出錯(cuò)位置

?從訓(xùn)練集中切出10%作為測(cè)試,藍(lán)線是實(shí)際值,橙線為預(yù)測(cè)值,可以看到,由于大部分值分布在5-6之間,因此所有預(yù)測(cè)都被拉到了這個(gè)區(qū)間之內(nèi)。 忽然想到之前“微信互動(dòng)”預(yù)測(cè)中有一種做法,就是找到一個(gè)值,將訓(xùn)練集中所有實(shí)例都預(yù)測(cè)成該值,再計(jì)算誤差。代入此題,試了一下,設(shè)為5.6分時(shí)誤差最小,為2.4,比gbdt的2.2誤差略高一些,說(shuō)明算法比瞎蒙還是好一點(diǎn)。

5. 一些想法

(1) 一般去醫(yī)院看病有問(wèn)題的居多,所以相對(duì)正常值有些偏差,醫(yī)生也可能作出有傾向性的判斷。

(2) 該題可以把已有的知識(shí)和算法融合,使用一些現(xiàn)成的數(shù)據(jù),比如正常范圍。

(3) 周末檢查拿結(jié)果的可能是比較特殊的病人。

(4) 歲數(shù)分成幾段,更具代表意義。

(5) 可將數(shù)據(jù)修改為正常值,偏高,偏低,幾個(gè)層次,做分段特征。

(6) 考慮病情比較嚴(yán)重的情況,可能需要分開(kāi)處理,作為噪點(diǎn)先拿出來(lái)。

(7) 預(yù)測(cè)只是想知道被測(cè)試人是否為糖尿病,而不關(guān)注是預(yù)測(cè)與實(shí)際值的微小差距,所以也可以將其處理為分類(lèi)問(wèn)題。

(8) 可能需要對(duì)誤差函數(shù)和評(píng)價(jià)函數(shù)做微調(diào)。

6. 一些嘗試

(1) 在本地測(cè)試,刪除所有缺失數(shù)據(jù)的實(shí)例,預(yù)測(cè)效果好很多。

(2) 如不考慮大于10的數(shù)據(jù),預(yù)測(cè)效果好很多。

(3) 目前在特征工程方面,只做了修改缺失值,而排序特征,離散特征,統(tǒng)計(jì)特征都還沒(méi)做,算法方面只使用了sklearn自帶的gbdt,其它算法也還沒(méi)試。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容