文 | 全世界最乖巧的小豬

Zoom-in-Net:?Deep Mining Lesions for Diabetic Retinopathy Detection

這是一篇關(guān)于糖尿病視網(wǎng)膜病變分級診斷的論文，由來自港中文、清華大學(xué)等作者發(fā)表于MICCAI2018，下載地址：Zoom-in-Net: Deep Mining Lesions for Diabetic Retinopathy Detection

摘要

本文提出了一種能夠同時診斷糖網(wǎng)病并突出可疑病灶區(qū)域的卷積神經(jīng)網(wǎng)絡(luò)，主要貢獻(xiàn)體現(xiàn)在以下兩方面：1）提出放大網(wǎng)絡(luò)，模擬醫(yī)生在診斷時放大圖像的過程。僅僅在圖像級（image-level）的監(jiān)督下訓(xùn)練，放大網(wǎng)絡(luò)就可以生成注意力圖（attention map）來顯示可疑病灶點區(qū)域，并綜合整張圖像和其中高分辨率的可疑patches，來準(zhǔn)確地預(yù)測疾病等級。2）由注意力圖生成的僅4個邊框（bounding box）就足以覆蓋由醫(yī)生標(biāo)注出來的80%的病灶點，顯示了注意力圖強大的定位能力，通過將注意力圖上高反應(yīng)位置（high response locations）的特征聚類，可以發(fā)現(xiàn)非常有意義的簇，包含了糖網(wǎng)病中的潛在病灶。實驗表明，本算法在EyePACS和Messidor數(shù)據(jù)集上的表現(xiàn)都超過了state-of-the-art方法，很不錯！

1 文章簡介

識別醫(yī)療圖像的可疑區(qū)域非常重要，但是目前的工作主要依靠強監(jiān)督，也就是需要精確的病灶點位置信息。由于標(biāo)注醫(yī)療圖像的成本太昂貴了，從而大大限制了數(shù)據(jù)集的規(guī)模，因此，急需一個算法，能夠通過弱監(jiān)督的方法利用大數(shù)據(jù)集同時進(jìn)行分類和定位任務(wù)。

本文提出了廣義弱監(jiān)督學(xué)習(xí)框架，叫做基于卷積神經(jīng)網(wǎng)絡(luò)的放大網(wǎng)絡(luò)。該方法可以進(jìn)行準(zhǔn)確分類，同時自動檢測圖像中的病灶點，僅用幾個邊框就可以達(dá)到高召回率。這個框架可以拓展到各種分類問題上，并為醫(yī)生提供更方便的檢查。

本文將在糖網(wǎng)病問題上驗證這個框架的有效性，(此處跳過介紹糖網(wǎng)病和前人工作)。

放大網(wǎng)絡(luò)使用了注意力機制，僅用圖像級監(jiān)督就可以生成注意力圖。注意力圖是一種熱力圖，表示哪些像素對最終圖像級預(yù)測起到重要作用。此外，放大網(wǎng)絡(luò)的確名副其實，它模擬了醫(yī)生在診斷時，首先瀏覽整張圖像來辨認(rèn)病灶點，然后放大圖像進(jìn)一步驗證病灶點的過程。放大網(wǎng)絡(luò)在EyePACS數(shù)據(jù)集（也就是kaggle糖網(wǎng)病競賽使用的數(shù)據(jù)集）和Messidor數(shù)據(jù)集上進(jìn)行驗證，表現(xiàn)都超過了state-of-the-art方法和普通醫(yī)生。另外，注意力定位的準(zhǔn)確率在200張專業(yè)醫(yī)生標(biāo)注的圖像上進(jìn)行驗證，達(dá)到了0.82的召回率。注意力圖中高反應(yīng)位置的聚類區(qū)域顯示了糖網(wǎng)病中非常有意義的病灶點。

2 放大網(wǎng)絡(luò)結(jié)構(gòu)框架

放大網(wǎng)絡(luò)從糖網(wǎng)病檢測的圖像級監(jiān)督中學(xué)習(xí)，卻同時實現(xiàn)了圖像分級和病灶點定位的功能。它模擬了醫(yī)生在高分辨率圖像上選擇高度可疑的區(qū)域進(jìn)行檢查的放大過程，并通過全局圖像和局部patches來預(yù)測最終的等級。

放大網(wǎng)絡(luò)包括三個模塊，如圖1所示：用于DR分級的主網(wǎng)絡(luò)（M-Net），用于生成注意力值的注意力網(wǎng)絡(luò)（A-Net）和裁剪網(wǎng)絡(luò)（C-Net），它將高注意力值的高分辨率patches作為輸入，以修正M-Net的預(yù)測。預(yù)測結(jié)果分為五個種類：0-無??；1-輕度；2-中度；3-重度；4-增殖。

圖1 放大網(wǎng)絡(luò)結(jié)構(gòu)圖

2.1 主網(wǎng)絡(luò)（M-Net）

M-Net采用的是Inception-ResNet模型，模型結(jié)構(gòu)參考Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning論文第7頁。中間特征圖M是在5 x inception_resnet_c層后提取得到的， $M\in R^{1024\times14\times14}$ ，將M-Net分成了兩個部分，后面緊跟一個全連接層，映射到一個概率向量 $y_M\in R^5$ ，表示該圖像屬于每個患病等級的概率。M會進(jìn)一步作為A-Net的輸入。

由于Kaggle數(shù)據(jù)集提供了一個病人的左右眼圖像，本文也就充分利用兩只眼睛之間的關(guān)系。統(tǒng)計表明，超過95%的同一個病人的兩只眼睛的等級區(qū)別不超過1，因此本文將M-Net中兩只眼睛的特征連接在一起，以端到端的方式訓(xùn)練網(wǎng)絡(luò)。

2.2 注意力網(wǎng)絡(luò)（A-Net）

A-Net將特征圖M作為輸入，包括兩個分支，第一個分支A-Net Part I?是一個1*1卷積核的卷積層，可以看作是應(yīng)用在每個像素上的線性分類器，生成得分圖（score maps） $S\in R^{5\times14\times14}$ ，對應(yīng)五個患病等級。第二個分支A-Net Part II?用三個卷積層生成注意力門圖（attention gate maps），如圖2所示。特別地，它為每個患病等級生成了獨立的注意力門圖。每個注意力圖（attention map）由空間softmax操作得到。直觀地，空間softmax迫使注意力值相互競爭，并且集中在最有信息的區(qū)域。因此將注意力圖 $A\in R^{5\times14\times14}$ 作為門控，A-Net的輸出為：

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?? $G^l=S^l\otimes A^l$

其中， $G^l$ 是A-Net的門控特征（gated feature：被門控制住了的特征 $\odot \forall \odot$ ）， $S^l$ 是得分圖， $A^l$ 是注意力圖，對應(yīng)第 $l$ 個類別， $\otimes$ 表示逐元素相乘?，F(xiàn)在就可以計算最后的得分向量 $y_A^l=\sum_{i,j}G^l_{i,j}$ .

圖2 A-Net part II 結(jié)構(gòu)圖

2.3 裁剪網(wǎng)絡(luò)（C-Net）

通過放大可疑的注意力區(qū)域來進(jìn)一步提高準(zhǔn)確率，給定門控注意力圖（gated attention maps：被注意力門控制住了的圖 $\odot \forall \odot$ ） $G\in R^{5\times14\times14}$ ，先把它resize成輸入圖像的大小，然后用貪心算法來采樣區(qū)域，每次迭代中，記錄G中最大反應(yīng)的位置，然后遮罩掉它周圍s*s的區(qū)域，防止這個區(qū)域再次被選中，重復(fù)這個過程，直到N個坐標(biāo)（實驗中N=4）都被記錄（病入膏肓的時候），或者最大的注意力反應(yīng)已經(jīng)達(dá)到（病灶點還很少的時候），這一過程如圖3所示：

圖3 從左到右：原圖，1-4級門控注意力圖，圖像選擇區(qū)域。

得到記錄的位置后，裁剪原高分辨率圖中相關(guān)patches，輸入到C-Net中。C-Net的結(jié)構(gòu)和inception-v3模型相似，參考Rethinking the Inception Architecture for Computer Vision。有所不同的是，它在global_pool層中結(jié)合了所有patches的特征 $\hatu0z1t8os_C$ 。由于一些patches沒有病變（可能是因為需要四個框，但等級低的沒那么多病灶點），所以在特征 $\hatu0z1t8os_C$ 上用element-wise取最大值來提取最有信息的特征，然后把這個特征和從M-Net出來的 $d_M$ 連接起來分類。

3 注意力定位評估與理解

3.1 注意力定位評估

為了驗證高反應(yīng)區(qū)域包含了能夠解釋患病等級的線索，有請一位專業(yè)醫(yī)生來標(biāo)注182張EyePACS數(shù)據(jù)庫中的圖像，畫邊框來緊密覆蓋病灶點，共標(biāo)注了306個病灶點。（應(yīng)該是不分病灶點種類的）

計算ground truth和采樣框之間的IoM（intersection over minimum），采樣框就是C-Net里用的四個框。如果IoM高于閾值，則采樣框正確。本文畫了兩條召回率曲線，分別是對人和對框VS閾值。對人召回率表示只要一個人標(biāo)注的ground truth 框被采樣框檢索到，就認(rèn)為此人正確。因此，這比對框召回率要高。注意，我們在IoM閾值為0.3時達(dá)到了0.76（對框）和0.83（對人）的召回率。這表明A-Net僅僅用圖像級監(jiān)督就可以準(zhǔn)確定位病灶點。我們認(rèn)為，增大注意力圖的分辨率（14*14）可以進(jìn)一步提高定位準(zhǔn)確率。

3.2 注意力視覺理解

為了更好地理解網(wǎng)絡(luò)，本文提出了基于聚類的方法來可視化門控注意力圖（gated attention maps）中的最高反應(yīng)位置。我們用AP聚類算法，將特征圖M上相同位置的特征分割成簇，不需要預(yù)定的簇數(shù)量。我們可以恢復(fù)到它們相關(guān)圖像區(qū)域作為C-Net輸入，并將一些區(qū)域可視化，如圖4所示。有些簇包含了非常有意義的病灶點比如微血管瘤啥的。這種操作可能會幫助醫(yī)生找出一些新的病灶點。

圖4 自動檢測可疑區(qū)域的例子

4 定量評估

4.1 數(shù)據(jù)集與評估準(zhǔn)則

EyePACS（也就是kaggle數(shù)據(jù)集）：訓(xùn)練/驗證/測試數(shù)量分別為35k/11k/43k，在不同的場景和設(shè)備下拍攝。提供每位患者的左右眼圖像，以及醫(yī)生給出的0-4級。采用相同的官方評價指標(biāo)：二次加權(quán)kappa。

Messidor：公共數(shù)據(jù)集，包含1200張圖像，每張圖像提供兩個等級，視網(wǎng)膜等級和XXX等級，這里只用視網(wǎng)膜等級。

4.2 實驗細(xì)節(jié)

預(yù)處理：

1.????裁剪圖像去掉沒用的黑邊；

2.????數(shù)據(jù)增強：隨機旋轉(zhuǎn)（0/90/180/270），隨機翻轉(zhuǎn)；

訓(xùn)練過程：

1.????先訓(xùn)練M-Net，基于Image-Net預(yù)訓(xùn)練；

2.????再訓(xùn)練A-Net，固定M-Net的參數(shù)；

3.????最后訓(xùn)練C-Net（M-Net和A-Net也同時訓(xùn)練）得到最終的放大網(wǎng)絡(luò)。

4.????采用mini-batch SGD，初始學(xué)習(xí)率 $10^{-5}$ ，步長20k，momentum=0.9，用caffe library訓(xùn)練。

4.3?EyePACS數(shù)據(jù)集實驗結(jié)果

實驗完整地評估了放大網(wǎng)絡(luò)的每個部分：M-Net在val/test上分別達(dá)到0.832/0.825，加入A-Net之后僅增加了0.5%，這也不奇怪，因為A-Net里面沒有加入什么附加信息。

此外，我們用A-Net得到的門控注意力圖（gated attention maps）來提取可疑區(qū)域并訓(xùn)練C-Net?？梢栽?92*492的圖像上觀察到，病灶點區(qū)域通常小于200*200，因此，我們設(shè)置區(qū)域大小s=200，裁剪區(qū)域N=4.?我們從1230*1230的高分辨率圖像中裁剪384*384的patches作為C-Net的輸入，在放大網(wǎng)絡(luò)訓(xùn)練過程中，一個mini-batch包含了圖像的全圖和4個高分辨率patches，這時候GPU就差不多爆滿了，所以網(wǎng)絡(luò)在每12個mini-batches之后更新參數(shù)。最終放大網(wǎng)絡(luò)達(dá)到了0.857/0.849，三個模型集成結(jié)果達(dá)到0.865/0.854，超過了kaggle競賽第一名min-pool（0.86/0.849）.

EyePACS實驗結(jié)果

5 結(jié)論

本文提出了一個新的框架：放大網(wǎng)絡(luò)，在兩個數(shù)據(jù)集上達(dá)到了state-of-the-art的表現(xiàn)。僅靠圖像級的監(jiān)督訓(xùn)練，放大網(wǎng)絡(luò)可以生成注意力圖，突出可疑區(qū)域。門控注意力圖的定位能力我們也驗證過了，很可靠。進(jìn)一步的實驗顯示，門控注意力的高反應(yīng)區(qū)域與潛在病灶點有關(guān)，因此可以用來進(jìn)一步促進(jìn)分類效果。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

論文 | 糖網(wǎng)病分級診斷之 Zoom-in-Net

論文 | 糖網(wǎng)病分級診斷之 Zoom-in-Net

Zoom-in-Net:?Deep Mining Lesions for Diabetic Retinopathy Detection

摘要

1 文章簡介