20190122
部分病例的分化程度、分型信息缺失 Done
PET 的 101 108 113三個(gè)病例的影像有問(wèn)題 和其他病人的影像都不一樣 Done
CT 的 88 173 兩個(gè)病例,原圖像和分割不匹配 Done
101號(hào)病例的部位是1+2+4,但是影像上只標(biāo)了一個(gè) Done
20190123
42號(hào)病例,SE2圖像和分割不匹配 Done
20190124
準(zhǔn)備優(yōu)化數(shù)據(jù)的形式,利用DataFrameMapper
已經(jīng)利用imbalance_learn,應(yīng)對(duì)類別不平衡問(wèn)題:SMOTE。使用SMOTE后,過(guò)擬合仍嚴(yán)重。
3-4個(gè)特征就能在訓(xùn)練集上達(dá)到0.9以上的AUC,而測(cè)試集只有0.5,不知道為什么感覺(jué)大部分時(shí)候在0.5以下
今天的收獲:
1.如果過(guò)擬合的話,在特征初篩的時(shí)候,盡量不使用有監(jiān)督的初篩(如u檢驗(yàn)、mrmr),使用有監(jiān)督的特征選擇時(shí)交叉驗(yàn)證。
- SVM(即使是線性核)相比于logistic更容易過(guò)擬合
和F師兄討論后決定步驟:
- 分析每個(gè)臨床特征對(duì)標(biāo)簽的顯著性(p值)
- 單個(gè)臨床特征、單個(gè)影像特征建模,跑出來(lái)一個(gè)表格,分析單個(gè)特征的效能
- 重新決定訓(xùn)練集、驗(yàn)證集比例(如2:1),調(diào)出一個(gè)比較好的結(jié)果
- 反復(fù)重新劃分樣本集,驗(yàn)證訓(xùn)練方法的魯棒性
20190125
完成了臨床特征對(duì)標(biāo)簽的顯著性檢驗(yàn)(p值),只有“部位”顯著
完成了單個(gè)特征建模,跑出來(lái)一個(gè)表格,分析單個(gè)特征的效能,但是發(fā)現(xiàn)一個(gè)奇怪的現(xiàn)象:
對(duì)每個(gè)特征,分別隨機(jī)劃分訓(xùn)練及測(cè)試集100次,每次劃分建立一個(gè)logistic模型,計(jì)算測(cè)試集上的AUC值。
然后發(fā)現(xiàn)有些特征每次AUC都在0.5以下(0.25-0.4)。查了查都說(shuō)因?yàn)槭秦?fù)相關(guān),取個(gè)反就行了,但是我覺(jué)得logstic應(yīng)該能把這種負(fù)相關(guān)學(xué)習(xí)出來(lái)吧。問(wèn)了師兄們也沒(méi)有結(jié)果。
F師兄告訴我,單個(gè)特征測(cè)試不用分訓(xùn)練和驗(yàn)證,直接算AUC就行,因?yàn)橄鄬?duì)關(guān)系是不變的。于是改為直接計(jì)算AUC。
http://www.itdecent.cn/p/90106243d231
完成上述兩個(gè)步驟后發(fā)現(xiàn),還是有幾個(gè)特征的AUC>0.7,p<0.05,希望組合起來(lái)能獲得好一些的效果。
20190122
部分病例的分化程度、分型信息缺失 Done
PET 的 101 108 113三個(gè)病例的影像有問(wèn)題 和其他病人的影像都不一樣 Done
CT 的 88 173 兩個(gè)病例,原圖像和分割不匹配 Done
101號(hào)病例的部位是1+2+4,但是影像上只標(biāo)了一個(gè) Done
20190123
42號(hào)病例,SE2圖像和分割不匹配 Done
20190124
準(zhǔn)備優(yōu)化數(shù)據(jù)的形式,利用DataFrameMapper
已經(jīng)利用imbalance_learn,應(yīng)對(duì)類別不平衡問(wèn)題:SMOTE。使用SMOTE后,過(guò)擬合仍嚴(yán)重。
3-4個(gè)特征就能在訓(xùn)練集上達(dá)到0.9以上的AUC,而測(cè)試集只有0.5,不知道為什么感覺(jué)大部分時(shí)候在0.5以下
今天的收獲:
1.如果過(guò)擬合的話,在特征初篩的時(shí)候,盡量不使用有監(jiān)督的初篩(如u檢驗(yàn)、mrmr),使用有監(jiān)督的特征選擇時(shí)交叉驗(yàn)證。
- SVM(即使是線性核)相比于logistic更容易過(guò)擬合
和F師兄討論后決定步驟:
- 分析每個(gè)臨床特征對(duì)標(biāo)簽的顯著性(p值)
- 單個(gè)臨床特征、單個(gè)影像特征建模,跑出來(lái)一個(gè)表格,分析單個(gè)特征的效能
- 重新決定訓(xùn)練集、驗(yàn)證集比例(如2:1),調(diào)出一個(gè)比較好的結(jié)果
- 反復(fù)重新劃分樣本集,驗(yàn)證訓(xùn)練方法的魯棒性
20190125
完成了臨床特征對(duì)標(biāo)簽的顯著性檢驗(yàn)(p值),只有“部位”顯著
完成了單個(gè)特征建模,跑出來(lái)一個(gè)表格,分析單個(gè)特征的效能,但是發(fā)現(xiàn)一個(gè)奇怪的現(xiàn)象:
對(duì)每個(gè)特征,分別隨機(jī)劃分訓(xùn)練及測(cè)試集100次,每次劃分建立一個(gè)logistic模型,計(jì)算測(cè)試集上的AUC值。
然后發(fā)現(xiàn)有些特征每次AUC都在0.5以下(0.25-0.4)。查了查都說(shuō)因?yàn)槭秦?fù)相關(guān),取個(gè)反就行了,但是我覺(jué)得logstic應(yīng)該能把這種負(fù)相關(guān)學(xué)習(xí)出來(lái)吧。問(wèn)了師兄們也沒(méi)有結(jié)果。
F師兄告訴我,單個(gè)特征測(cè)試不用分訓(xùn)練和驗(yàn)證,直接算AUC就行,因?yàn)橄鄬?duì)關(guān)系是不變的。于是改為直接計(jì)算AUC。
http://www.itdecent.cn/p/90106243d231
完成上述兩個(gè)步驟后發(fā)現(xiàn),還是有幾個(gè)特征的AUC>0.7,p<0.05,希望組合起來(lái)能獲得好一些的效果。
20190217
重新開(kāi)工,初步完成了步驟3和4。
步驟如下:
- 按1:1或2:1重復(fù)劃分訓(xùn)練集、測(cè)試集
- SMOTE重采樣
- 特征預(yù)處理,刪除包含一定量缺失值、大量相同值、相關(guān)系數(shù)高的特征
- mRMR特征排序選擇,保留前10個(gè)或前20個(gè)特征
- LASSO特征選擇
- 采用邏輯回歸建模,進(jìn)行GridSearch選擇參數(shù)
可以調(diào)出比較好看的結(jié)果(詳見(jiàn)"結(jié)果.txt"),如:
(23, 8) 401 0.32 10 0.8431372549019608
(35, 7) 416 0.49 10 0.8034188034188035
至于訓(xùn)練方法的魯棒性:
不到一半的次數(shù)(0.43)里,測(cè)試集的AUC大于0.55,0.2的大于0.6,0.054的大于0.7,也就是說(shuō),基本可以表明標(biāo)簽和影像無(wú)關(guān)。
20190226
以上結(jié)果和實(shí)驗(yàn)都是在“CT+PET”的特征上做的
發(fā)現(xiàn)AUC結(jié)果比較好(0.8以上)的樣本集劃分方式,臨床特征都很不平衡,要么臨床特征分布不平衡,要么auc結(jié)果很差。
醫(yī)生說(shuō)先忽略樣本臨床特征不平衡的問(wèn)題,繼續(xù)按照這個(gè)做。這種數(shù)據(jù)真的沒(méi)什么意義。
調(diào)好CT+PET的結(jié)果:
- 放射組學(xué)標(biāo)簽的構(gòu)建和驗(yàn)證
采用LogisticRegression模型,模型采用的特征名及其系數(shù)為:
'diagnostics_Image-original_Mean', -0.33110345
'exponential_glcm_Correlation_CT', -0.72360895
'exponential_glszm_ZoneVariance_CT', -0.92127714
'square_glszm_GrayLevelNonUniformityNormalized_CT', -3.5461045
'wavelet-HHH_glszm_SizeZoneNonUniformity_PET', -0.39414552
'wavelet-HHL_glszm_SizeZoneNonUniformity_PET', -0.09843072
'wavelet-HHH_glszm_GrayLevelNonUniformityNormalized_PET', 0.70364919
'square_glcm_Correlation_CT' 4.29338334
C=7.054802310718645
AUC on Train Set: 0.8555102040816327
AUC on Test Set: 0.8431372549019608
- 放射組學(xué)諾模圖的建立和驗(yàn)證
LASSO選出的臨床特征為'Age', 'diameter', 'L5',諾莫圖系數(shù)如下:
'Age', -0.01876038
'diameter', 0.00950171
'L5', 2.65506024
'rad_sig' 0.90999272
Best C Value: 0.6135907273413173
AUC on Train Set: 0.9379591836734694
AUC on Test Set: 0.9313725490196078
20190330
如果要使用SMOTE,一定記得同步保留原訓(xùn)練集,對(duì)原訓(xùn)練集同步處理(像在測(cè)試集上做的一樣),方便最后統(tǒng)計(jì)結(jié)果(曲線、訓(xùn)練集上準(zhǔn)確率等)。
CT/PET 401
PET 2636
CT 1234