20190122

部分病例的分化程度、分型信息缺失 Done
PET 的 101 108 113三個(gè)病例的影像有問(wèn)題和其他病人的影像都不一樣 Done
CT 的 88 173 兩個(gè)病例，原圖像和分割不匹配 Done
101號(hào)病例的部位是1+2+4，但是影像上只標(biāo)了一個(gè) Done

20190123

42號(hào)病例，SE2圖像和分割不匹配 Done

20190124

準(zhǔn)備優(yōu)化數(shù)據(jù)的形式，利用DataFrameMapper
已經(jīng)利用imbalance_learn，應(yīng)對(duì)類別不平衡問(wèn)題：SMOTE。使用SMOTE后，過(guò)擬合仍嚴(yán)重。
3-4個(gè)特征就能在訓(xùn)練集上達(dá)到0.9以上的AUC，而測(cè)試集只有0.5，不知道為什么感覺(jué)大部分時(shí)候在0.5以下

今天的收獲：

1.如果過(guò)擬合的話，在特征初篩的時(shí)候，盡量不使用有監(jiān)督的初篩（如u檢驗(yàn)、mrmr），使用有監(jiān)督的特征選擇時(shí)交叉驗(yàn)證。

SVM（即使是線性核）相比于logistic更容易過(guò)擬合

和F師兄討論后決定步驟：

分析每個(gè)臨床特征對(duì)標(biāo)簽的顯著性（p值）
單個(gè)臨床特征、單個(gè)影像特征建模，跑出來(lái)一個(gè)表格，分析單個(gè)特征的效能
重新決定訓(xùn)練集、驗(yàn)證集比例（如2：1），調(diào)出一個(gè)比較好的結(jié)果
反復(fù)重新劃分樣本集，驗(yàn)證訓(xùn)練方法的魯棒性

20190125

完成了臨床特征對(duì)標(biāo)簽的顯著性檢驗(yàn)（p值），只有“部位”顯著
完成了單個(gè)特征建模，跑出來(lái)一個(gè)表格，分析單個(gè)特征的效能，但是發(fā)現(xiàn)一個(gè)奇怪的現(xiàn)象：
對(duì)每個(gè)特征，分別隨機(jī)劃分訓(xùn)練及測(cè)試集100次，每次劃分建立一個(gè)logistic模型，計(jì)算測(cè)試集上的AUC值。
然后發(fā)現(xiàn)有些特征每次AUC都在0.5以下（0.25-0.4）。查了查都說(shuō)因?yàn)槭秦?fù)相關(guān)，取個(gè)反就行了，但是我覺(jué)得logstic應(yīng)該能把這種負(fù)相關(guān)學(xué)習(xí)出來(lái)吧。問(wèn)了師兄們也沒(méi)有結(jié)果。
F師兄告訴我，單個(gè)特征測(cè)試不用分訓(xùn)練和驗(yàn)證，直接算AUC就行，因?yàn)橄鄬?duì)關(guān)系是不變的。于是改為直接計(jì)算AUC。
http://www.itdecent.cn/p/90106243d231
完成上述兩個(gè)步驟后發(fā)現(xiàn)，還是有幾個(gè)特征的AUC>0.7，p<0.05，希望組合起來(lái)能獲得好一些的效果。

20190122

20190123

42號(hào)病例，SE2圖像和分割不匹配 Done

20190124

今天的收獲：
1.如果過(guò)擬合的話，在特征初篩的時(shí)候，盡量不使用有監(jiān)督的初篩（如u檢驗(yàn)、mrmr），使用有監(jiān)督的特征選擇時(shí)交叉驗(yàn)證。

SVM（即使是線性核）相比于logistic更容易過(guò)擬合

和F師兄討論后決定步驟：

分析每個(gè)臨床特征對(duì)標(biāo)簽的顯著性（p值）
單個(gè)臨床特征、單個(gè)影像特征建模，跑出來(lái)一個(gè)表格，分析單個(gè)特征的效能
重新決定訓(xùn)練集、驗(yàn)證集比例（如2：1），調(diào)出一個(gè)比較好的結(jié)果
反復(fù)重新劃分樣本集，驗(yàn)證訓(xùn)練方法的魯棒性

20190125

20190217

重新開(kāi)工，初步完成了步驟3和4。
步驟如下：

按1：1或2：1重復(fù)劃分訓(xùn)練集、測(cè)試集
SMOTE重采樣
特征預(yù)處理，刪除包含一定量缺失值、大量相同值、相關(guān)系數(shù)高的特征
mRMR特征排序選擇，保留前10個(gè)或前20個(gè)特征
LASSO特征選擇
采用邏輯回歸建模，進(jìn)行GridSearch選擇參數(shù)
可以調(diào)出比較好看的結(jié)果（詳見(jiàn)"結(jié)果.txt"），如：
(23, 8) 401 0.32 10 0.8431372549019608
(35, 7) 416 0.49 10 0.8034188034188035

至于訓(xùn)練方法的魯棒性：
不到一半的次數(shù)（0.43）里，測(cè)試集的AUC大于0.55，0.2的大于0.6，0.054的大于0.7，也就是說(shuō)，基本可以表明標(biāo)簽和影像無(wú)關(guān)。

20190226

以上結(jié)果和實(shí)驗(yàn)都是在“CT+PET”的特征上做的
發(fā)現(xiàn)AUC結(jié)果比較好（0.8以上）的樣本集劃分方式，臨床特征都很不平衡，要么臨床特征分布不平衡，要么auc結(jié)果很差。
醫(yī)生說(shuō)先忽略樣本臨床特征不平衡的問(wèn)題，繼續(xù)按照這個(gè)做。這種數(shù)據(jù)真的沒(méi)什么意義。
調(diào)好CT+PET的結(jié)果：

放射組學(xué)標(biāo)簽的構(gòu)建和驗(yàn)證
采用LogisticRegression模型，模型采用的特征名及其系數(shù)為：
'diagnostics_Image-original_Mean', -0.33110345
'exponential_glcm_Correlation_CT', -0.72360895
'exponential_glszm_ZoneVariance_CT', -0.92127714
'square_glszm_GrayLevelNonUniformityNormalized_CT', -3.5461045
'wavelet-HHH_glszm_SizeZoneNonUniformity_PET', -0.39414552
'wavelet-HHL_glszm_SizeZoneNonUniformity_PET', -0.09843072
'wavelet-HHH_glszm_GrayLevelNonUniformityNormalized_PET', 0.70364919
'square_glcm_Correlation_CT' 4.29338334

C=7.054802310718645
AUC on Train Set: 0.8555102040816327
AUC on Test Set: 0.8431372549019608

放射組學(xué)諾模圖的建立和驗(yàn)證
LASSO選出的臨床特征為'Age', 'diameter', 'L5'，諾莫圖系數(shù)如下：
'Age', -0.01876038
'diameter', 0.00950171
'L5', 2.65506024
'rad_sig' 0.90999272

Best C Value: 0.6135907273413173
AUC on Train Set: 0.9379591836734694
AUC on Test Set: 0.9313725490196078

20190330

如果要使用SMOTE，一定記得同步保留原訓(xùn)練集，對(duì)原訓(xùn)練集同步處理（像在測(cè)試集上做的一樣），方便最后統(tǒng)計(jì)結(jié)果（曲線、訓(xùn)練集上準(zhǔn)確率等）。

CT/PET 401
PET 2636
CT 1234

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

1901脈管侵犯日志

1901脈管侵犯日志

20190122

20190123

20190124

今天的收獲：

和F師兄討論后決定步驟：

20190125

20190122

20190123

20190124

20190125

20190217

20190226

20190330

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

1901脈管侵犯日志

20190122

20190123

20190124

今天的收獲：

和F師兄討論后決定步驟：

20190125

20190122

20190123

20190124

20190125

20190217

20190226

20190330

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av