文 | 全世界最乖巧的小豬
Zoom-in-Net:?Deep Mining Lesions for Diabetic Retinopathy Detection
這是一篇關(guān)于糖尿病視網(wǎng)膜病變分級診斷的論文,由來自港中文、清華大學(xué)等作者發(fā)表于MICCAI2018,下載地址:Zoom-in-Net: Deep Mining Lesions for Diabetic Retinopathy Detection
摘要
本文提出了一種能夠同時診斷糖網(wǎng)病并突出可疑病灶區(qū)域的卷積神經(jīng)網(wǎng)絡(luò),主要貢獻(xiàn)體現(xiàn)在以下兩方面:1)提出放大網(wǎng)絡(luò),模擬醫(yī)生在診斷時放大圖像的過程。僅僅在圖像級(image-level)的監(jiān)督下訓(xùn)練,放大網(wǎng)絡(luò)就可以生成注意力圖(attention map)來顯示可疑病灶點區(qū)域,并綜合整張圖像和其中高分辨率的可疑patches,來準(zhǔn)確地預(yù)測疾病等級。2)由注意力圖生成的僅4個邊框(bounding box)就足以覆蓋由醫(yī)生標(biāo)注出來的80%的病灶點,顯示了注意力圖強大的定位能力,通過將注意力圖上高反應(yīng)位置(high response locations)的特征聚類,可以發(fā)現(xiàn)非常有意義的簇,包含了糖網(wǎng)病中的潛在病灶。實驗表明,本算法在EyePACS和Messidor數(shù)據(jù)集上的表現(xiàn)都超過了state-of-the-art方法,很不錯!
1 文章簡介
識別醫(yī)療圖像的可疑區(qū)域非常重要,但是目前的工作主要依靠強監(jiān)督,也就是需要精確的病灶點位置信息。由于標(biāo)注醫(yī)療圖像的成本太昂貴了,從而大大限制了數(shù)據(jù)集的規(guī)模,因此,急需一個算法,能夠通過弱監(jiān)督的方法利用大數(shù)據(jù)集同時進(jìn)行分類和定位任務(wù)。
本文提出了廣義弱監(jiān)督學(xué)習(xí)框架,叫做基于卷積神經(jīng)網(wǎng)絡(luò)的放大網(wǎng)絡(luò)。該方法可以進(jìn)行準(zhǔn)確分類,同時自動檢測圖像中的病灶點,僅用幾個邊框就可以達(dá)到高召回率。這個框架可以拓展到各種分類問題上,并為醫(yī)生提供更方便的檢查。
本文將在糖網(wǎng)病問題上驗證這個框架的有效性,(此處跳過介紹糖網(wǎng)病和前人工作)。
放大網(wǎng)絡(luò)使用了注意力機制,僅用圖像級監(jiān)督就可以生成注意力圖。注意力圖是一種熱力圖,表示哪些像素對最終圖像級預(yù)測起到重要作用。此外,放大網(wǎng)絡(luò)的確名副其實,它模擬了醫(yī)生在診斷時,首先瀏覽整張圖像來辨認(rèn)病灶點,然后放大圖像進(jìn)一步驗證病灶點的過程。放大網(wǎng)絡(luò)在EyePACS數(shù)據(jù)集(也就是kaggle糖網(wǎng)病競賽使用的數(shù)據(jù)集)和Messidor數(shù)據(jù)集上進(jìn)行驗證,表現(xiàn)都超過了state-of-the-art方法和普通醫(yī)生。另外,注意力定位的準(zhǔn)確率在200張專業(yè)醫(yī)生標(biāo)注的圖像上進(jìn)行驗證,達(dá)到了0.82的召回率。注意力圖中高反應(yīng)位置的聚類區(qū)域顯示了糖網(wǎng)病中非常有意義的病灶點。
2 放大網(wǎng)絡(luò)結(jié)構(gòu)框架
放大網(wǎng)絡(luò)從糖網(wǎng)病檢測的圖像級監(jiān)督中學(xué)習(xí),卻同時實現(xiàn)了圖像分級和病灶點定位的功能。它模擬了醫(yī)生在高分辨率圖像上選擇高度可疑的區(qū)域進(jìn)行檢查的放大過程,并通過全局圖像和局部patches來預(yù)測最終的等級。
放大網(wǎng)絡(luò)包括三個模塊,如圖1所示:用于DR分級的主網(wǎng)絡(luò)(M-Net),用于生成注意力值的注意力網(wǎng)絡(luò)(A-Net)和裁剪網(wǎng)絡(luò)(C-Net),它將高注意力值的高分辨率patches作為輸入,以修正M-Net的預(yù)測。預(yù)測結(jié)果分為五個種類:0-無??;1-輕度;2-中度;3-重度;4-增殖。

2.1 主網(wǎng)絡(luò)(M-Net)
M-Net采用的是Inception-ResNet模型,模型結(jié)構(gòu)參考Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning論文第7頁。中間特征圖M是在5 x inception_resnet_c層后提取得到的,,將M-Net分成了兩個部分,后面緊跟一個全連接層,映射到一個概率向量
,表示該圖像屬于每個患病等級的概率。M會進(jìn)一步作為A-Net的輸入。
由于Kaggle數(shù)據(jù)集提供了一個病人的左右眼圖像,本文也就充分利用兩只眼睛之間的關(guān)系。統(tǒng)計表明,超過95%的同一個病人的兩只眼睛的等級區(qū)別不超過1,因此本文將M-Net中兩只眼睛的特征連接在一起,以端到端的方式訓(xùn)練網(wǎng)絡(luò)。
2.2 注意力網(wǎng)絡(luò)(A-Net)
A-Net將特征圖M作為輸入,包括兩個分支,第一個分支A-Net Part I?是一個1*1卷積核的卷積層,可以看作是應(yīng)用在每個像素上的線性分類器,生成得分圖(score maps),對應(yīng)五個患病等級。第二個分支A-Net Part II?用三個卷積層生成注意力門圖(attention gate maps),如圖2所示。特別地,它為每個患病等級生成了獨立的注意力門圖。每個注意力圖(attention map)由空間softmax操作得到。直觀地,空間softmax迫使注意力值相互競爭,并且集中在最有信息的區(qū)域。因此將注意力圖
作為門控,A-Net的輸出為:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
其中,是A-Net的門控特征(gated feature:被門控制住了的特征
),
是得分圖,
是注意力圖,對應(yīng)第
個類別,
表示逐元素相乘?,F(xiàn)在就可以計算最后的得分向量
.

2.3 裁剪網(wǎng)絡(luò)(C-Net)
通過放大可疑的注意力區(qū)域來進(jìn)一步提高準(zhǔn)確率,給定門控注意力圖(gated attention maps:被注意力門控制住了的圖 )
,先把它resize成輸入圖像的大小,然后用貪心算法來采樣區(qū)域,每次迭代中,記錄G中最大反應(yīng)的位置,然后遮罩掉它周圍s*s的區(qū)域,防止這個區(qū)域再次被選中,重復(fù)這個過程,直到N個坐標(biāo)(實驗中N=4)都被記錄(病入膏肓的時候),或者最大的注意力反應(yīng)已經(jīng)達(dá)到(病灶點還很少的時候),這一過程如圖3所示:

得到記錄的位置后,裁剪原高分辨率圖中相關(guān)patches,輸入到C-Net中。C-Net的結(jié)構(gòu)和inception-v3模型相似,參考Rethinking the Inception Architecture for Computer Vision。有所不同的是,它在global_pool層中結(jié)合了所有patches的特征 。由于一些patches沒有病變(可能是因為需要四個框,但等級低的沒那么多病灶點),所以在特征
上用element-wise取最大值來提取最有信息的特征,然后把這個特征和從M-Net出來的
連接起來分類。
3 注意力定位評估與理解
3.1 注意力定位評估
為了驗證高反應(yīng)區(qū)域包含了能夠解釋患病等級的線索,有請一位專業(yè)醫(yī)生來標(biāo)注182張EyePACS數(shù)據(jù)庫中的圖像,畫邊框來緊密覆蓋病灶點,共標(biāo)注了306個病灶點。(應(yīng)該是不分病灶點種類的)
計算ground truth和采樣框之間的IoM(intersection over minimum),采樣框就是C-Net里用的四個框。如果IoM高于閾值,則采樣框正確。本文畫了兩條召回率曲線,分別是對人和對框VS閾值。對人召回率表示只要一個人標(biāo)注的ground truth 框被采樣框檢索到,就認(rèn)為此人正確。因此,這比對框召回率要高。注意,我們在IoM閾值為0.3時達(dá)到了0.76(對框)和0.83(對人)的召回率。這表明A-Net僅僅用圖像級監(jiān)督就可以準(zhǔn)確定位病灶點。我們認(rèn)為,增大注意力圖的分辨率(14*14)可以進(jìn)一步提高定位準(zhǔn)確率。
3.2 注意力視覺理解
為了更好地理解網(wǎng)絡(luò),本文提出了基于聚類的方法來可視化門控注意力圖(gated attention maps)中的最高反應(yīng)位置。我們用AP聚類算法,將特征圖M上相同位置的特征分割成簇,不需要預(yù)定的簇數(shù)量。我們可以恢復(fù)到它們相關(guān)圖像區(qū)域作為C-Net輸入,并將一些區(qū)域可視化,如圖4所示。有些簇包含了非常有意義的病灶點比如微血管瘤啥的。這種操作可能會幫助醫(yī)生找出一些新的病灶點。

4 定量評估
4.1 數(shù)據(jù)集與評估準(zhǔn)則
EyePACS(也就是kaggle數(shù)據(jù)集):訓(xùn)練/驗證/測試數(shù)量分別為35k/11k/43k,在不同的場景和設(shè)備下拍攝。提供每位患者的左右眼圖像,以及醫(yī)生給出的0-4級。采用相同的官方評價指標(biāo):二次加權(quán)kappa。
Messidor:公共數(shù)據(jù)集,包含1200張圖像,每張圖像提供兩個等級,視網(wǎng)膜等級和XXX等級,這里只用視網(wǎng)膜等級。
4.2 實驗細(xì)節(jié)
預(yù)處理:
1.????裁剪圖像去掉沒用的黑邊;
2.????數(shù)據(jù)增強:隨機旋轉(zhuǎn)(0/90/180/270),隨機翻轉(zhuǎn);
訓(xùn)練過程:
1.????先訓(xùn)練M-Net,基于Image-Net預(yù)訓(xùn)練;
2.????再訓(xùn)練A-Net,固定M-Net的參數(shù);
3.????最后訓(xùn)練C-Net(M-Net和A-Net也同時訓(xùn)練)得到最終的放大網(wǎng)絡(luò)。
4.????采用mini-batch SGD,初始學(xué)習(xí)率,步長20k,momentum=0.9,用caffe library訓(xùn)練。
4.3?EyePACS數(shù)據(jù)集實驗結(jié)果
實驗完整地評估了放大網(wǎng)絡(luò)的每個部分:M-Net在val/test上分別達(dá)到0.832/0.825,加入A-Net之后僅增加了0.5%,這也不奇怪,因為A-Net里面沒有加入什么附加信息。
此外,我們用A-Net得到的門控注意力圖(gated attention maps)來提取可疑區(qū)域并訓(xùn)練C-Net??梢栽?92*492的圖像上觀察到,病灶點區(qū)域通常小于200*200,因此,我們設(shè)置區(qū)域大小s=200,裁剪區(qū)域N=4.?我們從1230*1230的高分辨率圖像中裁剪384*384的patches作為C-Net的輸入,在放大網(wǎng)絡(luò)訓(xùn)練過程中,一個mini-batch包含了圖像的全圖和4個高分辨率patches,這時候GPU就差不多爆滿了,所以網(wǎng)絡(luò)在每12個mini-batches之后更新參數(shù)。最終放大網(wǎng)絡(luò)達(dá)到了0.857/0.849,三個模型集成結(jié)果達(dá)到0.865/0.854,超過了kaggle競賽第一名min-pool(0.86/0.849).

5 結(jié)論
本文提出了一個新的框架:放大網(wǎng)絡(luò),在兩個數(shù)據(jù)集上達(dá)到了state-of-the-art的表現(xiàn)。僅靠圖像級的監(jiān)督訓(xùn)練,放大網(wǎng)絡(luò)可以生成注意力圖,突出可疑區(qū)域。門控注意力圖的定位能力我們也驗證過了,很可靠。進(jìn)一步的實驗顯示,門控注意力的高反應(yīng)區(qū)域與潛在病灶點有關(guān),因此可以用來進(jìn)一步促進(jìn)分類效果。