Attention by Selection: A Deep Selective Attention Approach to Breast Cancer Classification

Bolei Xu , Jingxin Liu , Xianxu Hou , Bozhi Liu , Jon Garibaldi , Member, IEEE, Ian O. Ellis,

Andy Green , Linlin Shen , and Guoping Qiu


摘要--深度學習方法因其在組織病理學圖像分析中所取得的顯著成績而被廣泛應用。然而,在處理高分辨率組織病理學圖像時,利用原始圖像作為深度學習模型的輸入計算代價很高,同時調整原始圖像的大小以獲得低分辨率會導致信息丟失。為了避免對原始圖像進行處理,出現了一些基于注意力的硬方法來從圖像中選擇可能的病變區(qū)域。然而,這些基于注意力的方法通常需要很長的時間才能收斂于弱制導,而無價值的補丁可以通過分類器進行訓練。為了解決這一問題,我們提出了一種深度選擇性注意的方法,目的是在原始圖像中選擇有價值的區(qū)域進行分類。在我們的方法中,我們開發(fā)了一個決策網絡來決定在哪里進行切割,以及是否有必要在分類。然后,這些選定的補丁由分類網絡進行培訓,然后分類網絡向決策網絡提供反饋,以更新其選擇策略。利用這種協(xié)同進化訓練策略,我們證明了我們的方法能夠獲得較快的收斂速度和較高的分類精度。我們的方法是在一個公共乳腺癌組織病理學圖像數據庫上進行評估的,與最先進的深入學習方法相比,它表現出了優(yōu)越的性能,實現了大約98%的分類準確度,而只達到了前一個高度關注方法的50%。

I. INTRODUCTION

乳腺癌是女性的主要關注點,因為其死亡率高于其他癌癥[1]。因此,早期檢測和準確評估對于提高存活率是必要的。在臨床乳房檢查的過程中,病理學家提供診斷報告通常是很費時費力的。因此,發(fā)展計算機輔助診斷(CADX)以減輕病理學家的工作量是一個很大的需求。近年來,深度學習方法[2]–[4]因其在各種醫(yī)學成像任務中的顯著表現而被廣泛應用于組織病理學圖像分析。然而,深度學習方法的一個問題是原始圖像的大小通常很大。直接將原始圖像輸入深度神經網絡的計算成本很高,并且需要幾天的時間在GPU上進行訓練。以前的方法通過調整圖像大小以獲得低分辨率[5]–[7]或從圖像中隨機剪切補丁[8]來解決這個問題。然而,這兩種方法都會導致信息丟失,并且考慮到有異常的圖像部分的詳細特征可能丟失,這些方法可能導致誤診。另一種方法是使用滑動窗口[9]裁剪圖像補丁。然而,考慮到在某些情況下異常通常只存在于一小部分,因此將選擇大量與病變部位無關的斑塊。

此外,人類視覺系統(tǒng)的一個特點是它不必同時處理整個圖像。因此,在臨床診斷任務中,病理學家首先有選擇地關注異常區(qū)域,然后對異常區(qū)域進行詳細調查。受這種人類視覺特性的啟發(fā),許多作品[10]–[12]采用基于注意力的深度學習方法來突出圖像中可能的損傷部位。注意機制主要有兩種:硬注意和軟注意。硬注意旨在識別圖像中一系列感興趣的區(qū)域,而軟注意通常試圖學習每個像素的重要性權重。由于病理組織學圖像的大小通常很大,因此在以前的一些著作[4],[13]中,人們越來越重視這個問題,在這些著作中,這個問題被表述為一個部分觀測的馬爾可夫決策過程(POMDP),通過坐標隨機地從圖像中采樣斑塊,而不直接對原始圖像進行處理。然而,這些基于pomdp的方法的一個問題是采樣過程不高效,因為無值和冗余的補丁也由分類器訓練。因此需要很長時間才能實現收斂。此外,在這些方法中,長短期記憶網絡不僅需要對圖像進行采樣,還需要完成分類或回歸任務。因此,該模型的訓練難度大且不穩(wěn)定。

為了克服上述問題,我們提出了一種組織病理學圖像分類的深度選擇性注意方法,這是基于我們的初步會議論文[13]。該方法包括決策網絡(DENET)和軟注意分類網絡(SANET)。DENET用于從圖像中選擇最有用的補丁進行分類。該決策基于SANET的學習進度和輸入數據的統(tǒng)計。我們的方法和以前的努力工作的主要區(qū)別在于,并不是每個修剪的小塊都被用于分類。相反,我們尋找能夠增強SANET識別能力的圖像補丁。在某些情況下,即使與圖像中的病變部分相關,也可以放棄修剪后的貼片,并且可以被SANET很好地分類,因為該貼片對提高SANET的識別能力可能影響很小。在另一種情況下,DENET將選擇那些在當前階段被錯誤分類的補丁來糾正它們的預測。因此,通過實現我們的方法,DENET選擇最有用的補丁來訓練分類器,而不是像前面的工作那樣使用所有裁剪的補丁。這種學習策略使我們的方法能夠實現更快的訓練收斂速度。另一方面,我們構建了兩個網絡分別進行選擇和分類任務,并提出了協(xié)同進化訓練策略,以確保兩個網絡在訓練過程中相互協(xié)作,從而使整個框架比以前基于POMDP的方法更穩(wěn)定、更容易訓練。我們在公共乳腺癌數據集(Breakhis[14])上評估了我們的方法,其中我們的方法優(yōu)于最先進的方法,顯著提高了分類的準確性。此外,我們還表明,與以前基于POMDP的方法相比,我們的方法所需的培訓時間要少得多[13]。

本文的主要貢獻有三個方面,總結如下。(1)提出了一種新的選擇性注意機制,從Breakhis數據庫的原始組織病理圖像中尋找關鍵區(qū)域。這使得SANET能夠使用最有用的訓練樣本,從而提高SANET的識別能力,實現快速收斂。(2)提出了一種協(xié)同進化訓練策略,使DENET和SANET同時訓練,使整個框架更穩(wěn)定、更容易訓練。(3)這種方法在公共乳腺癌數據集上顯示出比以往最先進的方法優(yōu)越的性能,這對于計算機輔助乳腺癌診斷很重要。

II. RELA TED WORK

A. Visual Attention

注意力機制的概念由于能夠提取有意義的特征并忽略不必要的信息,近年來在深層神經網絡的構建中得到了廣泛的應用。這種關注機制已成功應用于各種圖像分類任務中的圖像特征學習[15]、[16]。它們還可以在其他相關研究領域發(fā)揮重要作用,包括圖像字幕和視覺問答[17]–[19]。Wang等人[15]采用深度剩余注意網絡,將多個注意塊疊加在剩余網絡中。最后在每個塊中學習一個注意力屏蔽,以過濾有用的信息。Hu等人[16]開發(fā)一種基于渠道的注意力機制,通過學習每個渠道的注意力權重來生成注意力特征。Chen等人[20]建議通過軟max層學習深卷積神經網絡中的空間和信道注意事項。Schlemite等人[21]以及他們的進一步工作[22]也試圖應用關注機制來解決醫(yī)學成像的分類和分割問題。張等。[11]提出了一種用于皮膚損傷分類的注意剩余學習卷積神經網絡。它由多個注意剩余塊組成,并在深度神經網絡中利用了一種自我注意機制。雖然這些注意機制通常會顯著提高深度神經網絡的性能,但它們都必須處理整個圖像,這就要求將原始圖像調整到較低的分辨率,或者使用滑動窗口從圖像中提取補丁。直接將這些策略應用到數據集(如breakhis)不可避免地會導致信息丟失和/或高計算成本。相比之下,我們的方法不直接從breakhis數據集訪問原始圖像,而是通過坐標自動選擇關鍵區(qū)域,以節(jié)省計算成本并將細節(jié)保存在圖像中。

B. Histopathological Image Classification

特征工程是實現多類乳腺癌精確分類的主要問題。張等。【23】采用基于核的主成分分析法對乳腺癌組織病理圖像進行良惡性分類。Wang等人[24]進一步利用四種形狀和138種文字特征實現二元分類。Bahlmann等人[25]將RGB貼片轉化為兩個通道,一個通道增強蘇木精染色,另一個通道顯示伊紅染色。這些傳統(tǒng)的方法需要人工設計的特征來表示圖像內容,這可能無法準確地捕捉病變區(qū)域的關鍵屬性。

深度學習方法由于其顯著的性能和端到端的訓練策略,最近已被應用于組織病理學圖像的分類。Liu等人[26]提出了一種深度自動編碼分類網絡,可以同時對輸入圖像進行重構和分類,以學習健壯的圖像特征。斯潘諾爾等人[9]應用預先培訓過的Alexnet來精確顯示圖像特征。Han等人[6]利用分層特征表示進行乳腺癌多分類。他們的方法采用端到端的訓練方案,從低層次到高層次自動學習層次特征,并在特征層次空間中考慮類內和類間關系。[27]將深度特征與Fisher向量相結合。在他們的進一步工作[28]中,他們使用Fisher向量對基于CNN的局部特征進行編碼,并將Fisher向量轉換為高級別的識別特征空間。Gupta和Bhavsar[29]建議利用關節(jié)顏色和紋理特征對乳房組織病理學圖像進行分類。他們還探索了不同層次特征的表示能力,以提高特征表示的識別性[30]。他們最新的研究整合了乳腺癌分類的resnet特征[31]。我們之前的工作[13]首先將分類過程視為一個POMDP,然后采用混合注意機制來確定原始圖像中的病變部位。它使網絡能夠處理選定的補丁而不是整個輸入的原始圖像,從而節(jié)省計算成本并聚焦于圖像的病變部位。然而,在這項初步工作中,每個圖像補丁都必須在訓練過程中進行分類,這需要很長的訓練時間才能實現融合。為了解決這個問題,我們在前面的工作基礎上,開發(fā)了一種新的深度學習方法,選擇性地訓練圖像補丁,從而去除多余的訓練樣本,減少訓練時間,提高模型的分類精度。

III. PROPOSED METHOD

提出的深度選擇性注意網絡模型由一個循環(huán)決策網絡和一個軟注意分類網絡組成。在每次訓練迭代中,我們將組織病理學圖像分類任務定義為一個POMDP問題,這意味著網絡無法完全訪問原始圖像,必須根據當前觀察區(qū)域做出決定。對于小批量中的每個圖像,它由兩個階段處理,包括“選擇”和“分類”,如圖1所示。在“選擇”階段,我們設計了一個決策網絡(DENET),基于硬注意機制識別原始圖像中可能的病變區(qū)域。在“分類”階段,SANET利用軟注意機制捕獲選定補丁的詳細特性,并為每個輸入補丁分配標簽。在培訓過程中,兩個網絡相互協(xié)作,實現協(xié)同進化。我們現在深入研究這個模型的細節(jié)。

A. “Selection” Stage

在“選擇”階段,我們設計了一個DENET,根據圖像中補丁中心的坐標,從原始圖像中迭代地裁剪k=5個感興趣區(qū)域(ROI),而不直接訪問原始圖像。DENET是基于循環(huán)的LSTM網絡構建的,如圖2所示。LSTM非常適合于時間序列數據的分類、處理和預測。在本文中,我們將ROI選擇定義為一個POMDP問題,其中狀態(tài)特征(表一)主要是時間序列數據(例如位置信息)。LSTM模型可以通過記憶過去時間段中的狀態(tài)特征更好地預測期望的投資回報率。相比之下,卷積神經網絡不適合處理時間序列數據。當與比較(RNN),LSTM能較好地處理訓練過程中的梯度消失問題,這意味著LSTM比RNN更容易訓練[32]。在每個時間步驟中,LSTM都有兩個主要任務:(i)通過硬注意機制決定在原始圖像中的何處裁剪一個補??;(ii)決定裁剪的補丁是否有助于提高SANET的識別能力。

DENET中的硬注意機制設計用于確定小批量中每個圖像中可能的損傷部位。在時間步驟t,硬注意傳感器根據Denet在最后一個時間步驟中預測的位置信息lt?1(原始圖像中補丁的中心坐標)接收部分圖像補丁xt。裁剪后的補丁的圖像尺寸比原始圖像小得多,而X,W,H,I,C,H是一個粗糙的區(qū)域,可能與異常部分有關。我們沒有構造新的卷積神經網絡來提取裁剪區(qū)域的特征,而是直接使用SANET的特征層(圖3)來表示圖像特征。應用這種特征提取策略有兩個優(yōu)點:(i)它能夠節(jié)省計算成本并加快計算速度;(ii)SANET學習的特征可以作為SANET學習狀態(tài)的一部分構造,DENET可以根據這一重要特征做出決策(我們將詳細介紹在下面的章節(jié)中)。

由θdmodel參數化的denet對動作策略πθd(st)進行建模,根據每個時間步的狀態(tài)特征進行決策。狀態(tài)特征s=(fe,fd)是兩個特征的組合:SANET fd的學習狀態(tài)表示和輸入數據統(tǒng)計fe。SANET的學習狀態(tài)表示fe構造為(i)歷史培訓損失的平均數;(ii)迄今為止驗證數據集的最佳分類結果;以及(iii)通過的迭代數。傳入數據統(tǒng)計fd當前裁剪的圖像補丁包括(i)來自SANET特征層的深層特征;(ii)SANET預測的標簽;(iii)其地面真值標簽;以及(iv)位置信息lt-1。各部件的詳細信息見表一。

從表一可以看出,深度特征的長度占總狀態(tài)特征的比例比其他特征大得多。因此,直接將所有特征融合在一起將導致不平衡的狀態(tài)特征表示。為了解決這個問題,我們將狀態(tài)特征重新分配為深度特征C,其余狀態(tài)特征Z:S=C∪Z。采用完全連接層將深度特征編碼為低維特征:

wc∈rl×l在哪里?,bc∈rl?,l是深度特征的尺寸,l?是編碼圖像表示的維數,而φ(·)是relu激活函數。同樣,應用另一個完全連接的層對剩余的特性z進行編碼,以生成編碼的特性z?以下內容:

wz∈ru×u在哪里?,bz∈ru?,u是指z和u的尺寸?編碼特征的尺寸是Z嗎?.we t h e n通過連接c構造lstm的輸入狀態(tài)特性?還有Z?以下內容:

式中:ws∈r(l?+u?)×q,bs∈rq,q表示輸入狀態(tài)特征的維數,||表示串聯(lián)操作。根據具有乙狀結腸激活功能的LSTM的隱藏特征層,最終估計決策操作(是否使用當前補丁進行培訓以及下一時間步驟的裁剪位置)。當為小批量中的每個圖像選擇k=5個區(qū)域時,選擇過程將停止。

B. “Classification” Stage

“分類”階段涉及由θfand參數化的軟注意機制fs(xt;θf),它將觀察到的圖像區(qū)域xto編碼為軟注意地圖,其中突出顯示有價值的信息。由于裁剪后的面片的大小比原始圖像小得多,因此計算裁剪后的面片的軟注意比處理原始圖像需要的資源要少得多。這是通過一個軟注意網絡(SANET)實現的,如圖3所示。SANET包含一個mask分支和一個主干分支,該分支根據工作進行了修改[15]。主干分支由兩個剩余單元(剩余單元的詳細結構如補充材料所示)組成,用于從輸入補丁中提取特征圖。Soft Mask分支旨在通過對稱自頂向下結構和SoftMax層學習[0,1]范圍內的Mask M(xt),以規(guī)范化輸出。具體來說,我們在mask分支中實現了兩次maxpooling層,以增加剩余單元之后的接收字段。這導致用于收集輸入補丁的全局特征信息的分辨率較低。然后,我們通過執(zhí)行兩次線性插值來擴展它,以便在一些剩余單元之后對特征圖進行上采樣。因此,它將特征映射的大小修改為與輸入補丁相同。在1×1卷積層之后,使用乙狀結腸層將輸出范圍標準化為[0,1]。

主干分支輸出特征映射T(xt),而遮罩分支輸出注意遮罩M(xt)。注意力特征圖的計算方法如下:

整個等式(4)與剩余學習相似:在最壞的情況下,當軟注意遮罩M(xt)接近0時,可以將其視為相同的映射,并且A(xt)將近似等于原始特征T(xt),這意味著性能不會比不應用軟注意遮罩更差。最后一個基于軟注意的特征映射fs(xt;θf)通過關注映射a(xt)上的全局平均池學習。接著是一個具有relu激活功能的完全連接的特征層,并學習輸入補丁的特征向量,該特征向量也作為denet的狀態(tài)特征的一部分。最后,我們使用一個Softmax層將輸入貼片分為8種組織病理學腫瘤。

C. Reward Signal

在DENET選擇數據后,所選數據將用于訓練SANET。將對狀態(tài)ST+1進行新的觀察。一種獎勵信號RTI,用于反映選擇機制的性能。在本文中,獎勵信號設計為:

其中rp表示SANET的訓練進度,rc表示SANET的收斂性能。兩個rtpand rt care都設置為終端獎勵:它們只在每個迭代的最后一個時間步驟t計算。具體來說,訓練進度獎勵rtpis的計算精度為驗證集上的τ∈[0,1];收斂速度獎勵rt cis的估計指標為i?驗證損失低于閾值的小批量

在 是預定義的最大迭代次數。由此可見,獎勵信號的設計是為了提高分類精度和快速收斂速度。

D. Network Optimization

在本節(jié)中,我們將描述如何優(yōu)化DENET和SANET。在每次迭代中,SANET將交叉熵損失最小化:

其中,yi是Sanet的估計類標簽,yi是地面真值標簽。由于DENET中的難點是不可微的,我們采用策略梯度[33]訓練DENET,以學習最優(yōu)選擇策略πθ(at| s1:t)。在本文中,我們的目標是最大化回報

為了使j最大化,j的梯度可近似為:

其中j=1…K是連續(xù)的劇集。方程式9鼓勵網絡調整所選行動概率的參數,以獲得較高的累積獎勵,并降低行動概率以降低獎勵。盡管上述梯度估計為我們提供了一個無偏估計(由于[33],[34]中所示的事實),但它可能有很大的方差,使訓練不穩(wěn)定??朔@個問題的一個訓練策略是通過減去基線[34]:

其中bt是歷史時期的平均回報值。方程10的估計值與方程9的期望值相同,但方差可能較低。

E. Testing Phase

在測試階段,DENET將從每個測試圖像中選擇五個ROI。五個補丁中的每一個都將由SANET分配一個類標簽。在某些情況下,可能會為五個補丁分配不同的標簽,在這種情況下,我們采用多數投票策略來決定測試圖像的標簽。例如,如果預測三個斑塊為導管癌,而剩下的兩塊貼片被指定為小葉癌的標簽,那么最后指定給測試圖像的標簽將是導管癌。有時,5個斑塊不能以多數票作出最終決定(例如其中2個預測為導管癌,2個預測為小葉癌,1個預測為粘液癌),在這種情況下,我們利用DENET選擇更多的斑塊,直到一個預測類獲得多數。

IV . EXPERIMENT

a.數據集

我們在公共數據集中斷上評估了我們的方法[14]。該數據集包含7909張乳腺癌圖像和8個乳腺癌亞類,從82名患者中收集,其中58名為惡性,24名為良性。良性和惡性乳腺腫瘤都由病理學家用顯微鏡標記。因此,這些腫瘤組織圖像是在40倍、100倍、200倍和400倍的四種光學放大率下拍攝的。數據集包含四種組織病理學類型的良性乳腺腫瘤:腺癌(a)、纖維腺瘤(f)、葉狀瘤(pt)和管狀腺瘤(ta);以及四種惡性腫瘤:導管癌(dc)、小葉癌(lc)、粘液癌(mc)和乳頭癌(pc)。breakhis數據集的類分布如表二所示。Breakhis數據集中的數字化圖像是由Olympus BX-50系統(tǒng)顯微鏡從乳腺組織載玻片上獲得的分辨率為700×460的單個圖像片。有關數據集的詳細信息,請參閱[14]。

b.Implementation

在實驗中,我們首先按照[14]和[6]的實驗方案,隨機將患者的breakhis數據集分為一個訓練(70%)數據集和一個測試(30%)數據集。為了估計方程式6中的收斂獎勵信號rt c,我們進一步使用25%的訓練數據集(即15名患者)進行驗證,并使用剩下的75%的訓練數據集(即42名患者)進行網絡訓練,而測試患者數(即25名患者)與[14]f中的實驗方案相同?;蛘咭粋€公平的比較。各褶皺的數據分割詳情見表二。在所有的實驗中,訓練數據集用于訓練深度學習模型,驗證數據集用于微調超參數,測試數據集用于評估學習的方法。因此,對于實驗中的所有表,我們報告了測試數據集的分類精度。結果是通過五次試驗的平均值得出的,分類精度和標準偏差都是按照先前工作的方法報告的[14]。如[14]所述,本實驗方案獨立應用于每種放大率。在訓練之前,我們通過應用旋轉、水平和垂直翻轉來增強breakhis數據集中的圖像,這將導致原始訓練數據的3倍。數據集中的圖像大小為740×460。對于DENET,應用以下設置:1)權重在(?0.01,0.01)之間均勻初始化。2)偏差值在fc層中初始化為0。3)我們使用L2規(guī)范化來規(guī)范化輸入狀態(tài)特征。4)批量大小設置為4,學習率設置為0.001,應用Adam優(yōu)化器。5)門檻?在方程式6中,設為0.25,這在第IV-J節(jié)中討論過,我們設定了預先定義的迭代數t?=200。

對于SANET,我們選擇學習率為0.01的Adam優(yōu)化器,該優(yōu)化器在各個時期內呈指數衰減,并且將批大小設置為20。在一個工作站上進行了四個Nvidia1080TiGPU的實驗,并以Pythoch為平臺實現了該代碼。

C. Evaluation Metrics

我們的方法的性能首先由患者識別率(PRR)來評估。PRR旨在計算正確分類的組織與組織總數的比率。

其中n是測試數據中的患者總數。對患者P和NP的正確分類組織進行重新分類,即患者P的總組織數。然后我們在圖像級別(IRR)評估識別率,其目的是在不考慮患者信息的情況下單獨評估圖像分類率。如果網絡正確分類了所有圖像中的nRecimages,則圖像級別的識別率公式如下:

D. Comparing to Baseline Methods

由于我們提出的方法利用了注意學習和剩余學習,我們首先將我們的方法與深度剩余注意學習方法(DRAN)[15]和一個最先進的注意網絡SENET[16]進行了比較。我們還將我們的方法與其他著名的深度學習框架進行了比較,包括vgg-16[35]、vgg-19[35]和resnet-50[36](所有這些框架都首先在Imagenet數據集上進行了預培訓,然后整個網絡在breakhis數據集上進行了微調)。

結果如表三(患者級別)和表四(圖像級別)所示。從這兩個表中可以看出,與所有基線模型相比,我們的方法實現了最佳性能。我們的方法(8月)的患者水平的平均準確度在不同放大倍數下為98.1%,圖像水平的平均準確度為97.9%??梢宰⒁獾?,通過使用數據增強策略,性能有了輕微的提高:患者級別的平均準確度從97.5%(原始)增加到98.1%(8月),而圖像級別的平均準確度從96.6%(原始)增加到97.9%(8月)。這個改進的主要原因是訓練數據量較大,數據量增加。它使網絡能夠避免過擬合,并從增強圖像中捕獲更多信息。也可以觀察到,當應用數據增強時,標準偏差減小。這意味著網絡更穩(wěn)定,有一個更大的訓練數據集可以學習更具辨別性的特征表示。

很明顯,我們的方法明顯優(yōu)于基于注意力的方法(dran和senet)和非注意力深度學習框架(vgg-16、vgg-19和resnet-50)。我們方法優(yōu)越性的原因可以歸結為兩個因素:(i)我們采用了一種硬注意機制,以避免像在這些深度學習方法中那樣調整圖像大小,從而防止信息丟失;(ii)由于數據集的大小相對較?。ü?909個),因此不必采用非常深的神經管。L網絡。使用非常深的網絡必然會導致過度擬合問題,從而降低測試數據集的網絡性能。通過比較vgg-16和vgg-19,也可以驗證這一點,其中vgg-19沒有表現出比具有更深層網絡結構的vgg16更好的性能。我們還展示了圖4中不同放大系數的混淆矩陣??梢钥闯觯琍C機和MC機之間的混淆主要是由于它們的高度相似性導致性能下降。

E. Comparing to State-of-the-Art Methods

我們還將我們提出的深度學習框架與在Breakhis數據集上報告結果的最先進方法進行了比較([6]、[9]、[13]、[14]、[27]、[29]、[30]、[37]–[41])。結果如表三(患者水平)和表四(圖像水平)所示,說明了我們的方法。

優(yōu)于所有以前的方法。值得注意的是,我們的方法比大多數CNN方法的精確度要高[27]、[38]、[39]。我們相信這是通過精心設計的注意機制實現的,這些注意機制為SANET選擇了有用的區(qū)域。具體來說,DENET中的硬注意機制識別出與異常部分最相關的區(qū)域,SANET中的軟注意機制突出了這些異常特征。因此,我們的方法可以防止在中斷數據集中調整圖像的大小,這可能導致信息丟失,并使網絡能夠通過小尺寸圖像補丁處理圖像,以節(jié)省計算成本。與我們以前的工作[13]相比,本文的改進模型可以更好地預測班級標簽,并且在培訓過程中更穩(wěn)定,達到更低的標準差。這主要是由于我們的新方法所涉及的選擇機制。選擇機制能夠為SANET提供最合適的培訓樣本。因此,利用噪聲訓練樣本可以防止SANET的訓練,提高SANET的識別能力。低標準偏差(約0.2)也表明我們的方法是穩(wěn)定的,對輸入數據不敏感。模型可以根據驗證數據集學習最優(yōu)參數。我們還觀察到大量的方法([9]、[13]、[27]、[30]、[31]、[37]、[39]、[41])在400倍放大時表現較差。主要原因是400倍放大的圖像片更有可能包含接收場較小的不完整組織結構,以從原始圖像中獲取信息,這在某些情況下可能導致錯誤分類。


F . Significance Study

我們將方法(aug)的性能與以前的一些具有公開代碼的方法進行了比較。這些方法包括dran[15]、senet[16]、resnet-50[36]和先前最先進的方法isbi'19[13]。弗里德曼檢驗用于檢測不同方法的性能差異,然后對每對組進行兩樣本配對符號檢驗,以確定差異所在。使用R(版本3.6.1)中的“friedman.test”包進行統(tǒng)計比較。對患者水平數據和圖像水平數據進行了測試,每種放大倍數分別為40倍、100倍、200倍和400倍。這些統(tǒng)計測試的詳細信息顯示在補充材料中。弗里德曼檢驗證實,所有比較方法之間存在差異,事后檢驗結果證實,我們的方法比比較方法在統(tǒng)計學上有顯著改善。

G. Ablation Study

我們在深度選擇性注意力框架中評估每個組成部分。我們設計了四個基線:1)消除難以引起注意(?H.A):我們不使用坐標來選擇圖像補丁。相反,我們將圖像大小調整為112×112,然后使用DENET為SANET選擇適當的訓練圖像。2)消除軟注意(?s.a,+resnet):整個sanet被刪除,denet選擇的補丁按resnet-18或resnet-50分類。換句話說,SANET被resnet-18或resnet-50取代。3)刪除DENET(-DENET):將DENET從框架中刪除。圖像大小調整為112×112,并由SANET分類。4)從獎勵函數(?rtp、?rt c)中移除rtpor rt cfs:從獎勵函數中移除的rtpor rt cis(方程式5)。5)不應用方程3(方程式3):方程3不用于實現平衡特征表示。在這種情況下,學習狀態(tài)表示直接與輸入數據統(tǒng)計信息融合,以表示DENET中的輸入狀態(tài)特征(狀態(tài)特征的長度為135)。然后將狀態(tài)特征輸入一個完全連接的層(1×1×24),然后再輸入relu激活函數,以獲得嵌入的狀態(tài)特征,然后將其用作LSTM的輸入。6)隨機選擇和隨機初始化:隨機選擇是指我們從每個圖像中隨機裁剪5個補丁,用于訓練不適用DENET的SANET。隨機初始化是指用正態(tài)分布(Pythost中正態(tài)分布的默認平均值為0,標準差為1.0)隨機初始化DENET的權重。

其他設置與第IV-B節(jié)所述設置相同。

結果如表五所示??梢钥闯?,當采用硬注意和軟注意機制時,模型能夠達到最佳性能。當不易引起注意時,我們必須將圖像的分辨率調低,這不可避免地會導致信息丟失。在調整大小的過程中,損傷部分的細節(jié)可能會被放棄。因此,分類的性能在圖像級別和患者級別分類上都略有下降。當軟注意被resnet所取代時,我們發(fā)現性能也顯著降低。性能下降是因為所有的圖像區(qū)域都被resnet平等地處理以提取圖像特征。這意味著網絡也會處理一些冗余的特性,這些特性可能包含會導致錯誤分類的噪聲特性。因此,應用軟注意機制來突出有用的特性,鼓勵網絡忽略那些不必要的信息。DENET是提高分類精度的關鍵部件。我們可以看到,當DENET不適用時,分類精度會大大降低。在這種情況下,圖像必須調整大小以適應SANET的輸入形狀,這會導致信息丟失。另一方面,所有的訓練圖像都用于訓練SANET,這可能包括冗余和噪聲樣本。因此,它的分類性能無法與使用DENET的完整模型相比較。

當評估獎勵函數的組成部分(方程式5)時,我們可以看到,rtpor-rt-cis對于提高分類精度很重要。具體來說,刪除rtpis后,分類精度顯著下降。這意味著驗證數據集上的分類精度是反映SANET培訓進度的關鍵獎勵信號,因此DENET可以根據該獎勵信號提供最合適的補丁。當從獎勵函數中刪除rt-cis時,分類精度略有降低。這是因為它能夠鼓勵DENET拒絕冗余和無用的訓練樣本進行分類,以實現快速的收斂速度。然而,當使用RTPIS時,DENET可以繼續(xù)選擇關鍵區(qū)域進行分類。因此,與去除RTP相比,去除RT C會導致精度降低較小。

然后我們評估方程3在特征平衡上的有效性??梢钥闯?,當方程3不適用時,分類精度顯著下降。在這種情況下,深層次特征控制所有剩余的狀態(tài)特征(128對7),DENET可能嚴重依賴深層次特征來做出可能導致非最優(yōu)選擇的決策。因此,有必要實現特征平衡,即嵌入深度特征和其他特征,如圖2所示。

也可以看出,隨機選擇策略大大降低了分類精度。主要原因是,隨機選擇無法知道哪些區(qū)域包含有用的信息,它可以為訓練SANET而裁剪不必要或嘈雜的補丁。我們還發(fā)現,隨機初始化也略微降低了預測精度,增加了標準差。原因是隨機初始化通常將DENET中的偏差項設置為非零值,導致在早期階段過濾了太多的補丁。

H. How Does the Number and Size of ROI Affect Classification Accuracy?

我們還研究了在選擇階段ROI的數量和大小如何影響分類精度。我們利用DENET選擇的3、5、7和9個ROI進行評估,補丁大小分別設置為56×56、112×112和224×224。我們報告了四種不同放大因子的不同數量的ROI和貼片尺寸。根據Breakhis數據集的描述,四個放大因子的有效像素尺寸分別為:0.49μm(40×)、0.20μm(100×)、0.10μm(200×)和0.05μm(400×)。測試數據集準確度和驗證數據集的分類結果分別見表六(患者級別)和表七(圖像級別)。我們根據驗證數據集的性能選擇了超參數。由于驗證數據集參與了選擇超參數的培訓過程,其性能通常優(yōu)于測試數據集的性能(在培訓階段未看到測試數據集)。

可以看出,最佳性能是通過選擇5個修補尺寸為112×112的ROI來實現的。當選擇更多區(qū)域時,性能接近5個ROI,因為5個ROI中包含最重要的功能,并且SANET的任何附加補丁都是多余的。當選擇較少的區(qū)域時,我們可以觀察到分類精度顯著下降。這是由于所選修補程序的信息丟失造成的。此外,可以看出標準偏差隨著ROI的減少而增加,這意味著培訓不穩(wěn)定,并且在ROI較少的情況下沒有得到良好的培訓。另一個可以觀察到的發(fā)現是,當將補丁大小設置為56×56時,需要大量的ROI來達到較高的分類精度。這是一個合理的結果,因為當接收場很小時,隨著ROI數目的增加,可以獲得更多的信息。補丁大小為56×56的7個ROI達到了最佳性能。

但是,其最佳性能仍然低于補丁大小為112×112和224×224獲得的性能。這一結果是由于小的接收場導致軟注意機制無法捕獲其詳細的補丁特征進行分類。此外,可以注意到,在ROI(3和5)較少的情況下,放大系數的增加會降低小片尺寸(例如,56×56)的分類精度。其原因是小的光斑尺寸只能從高放大系數圖像中捕捉到微小的信息。ROI很?。ɡ?,3個ROI),因為在這種情況下,較大的補丁可以接收更多信息。但是,當ROI數目增加時,有足夠的信息進行分類,因此,224×224的補丁大小與112×112的補丁大小相比沒有優(yōu)勢。也可以注意到,ROI的數目越大,分類精度的標準偏差越低。這是因為更多的訓練樣本可以為SANET提供更多病變部位的細節(jié)。因此,隨著ROI數量的增加,SANET可以提供更穩(wěn)定的結果(例如,當三個補丁大小都有9個ROI時,標準偏差可以低于1)。然而,當已經有足夠的信息用于SANET時,更多的ROI也可能是冗余的。我們可以看到,當ROI數量大于3時,112×112的補丁比224×224的補丁性能稍好。主要原因是,當已經有足夠的特征信息進行分類時,可以在較大的接收字段補丁中包含冗余和可能有噪聲的特征。因此,我們發(fā)現通過將補丁大小設置為112×112,補丁數設置為5,模型能夠達到最佳的分類性能。我們還可視化了輔助材料中選定的補片。

I. Convergence Analysis

然后,我們比較了我們的方法和四個不同基線之間的收斂性能。這四個基線模型是:(1)從方程5(w/o rt p)中刪除獎勵信號rt pf;(2)從方程5中刪除獎勵信號rt cft;(3)刪除整個denet并僅使用sanet進行培訓(w/o denet);(4)我們以前的poMDP方法[13](ISBI'19)。我們在訓練數據集上計算每個時代結束時的交叉熵分類損失?;颊吆蛨D像水平的不同光學放大的結果如圖5所示。我們觀察到,DENET的應用可以顯著促進更快的收斂和更低的損失。當采用DENET時,大約需要75到100個周期才能實現收斂,且損失值較低。如果不應用DENET,則需要超過175個時段才能聚合,并導致相對較高的培訓損失。這表明,DENET可以有效地選擇最合適的訓練數據進行分類,從而將冗余數據從訓練中去除,從而實現快速收斂。獎勵信號rt p反映了sanet的分類能力,也是實現早期收斂的關鍵。我們可以看到,當rt-pis不在獎勵函數中時,分類損失將收斂到一個相對較高的值。這意味著DENET不能為SANET提供合適的訓練樣本,在梯度下降優(yōu)化過程中,SANET將收斂到局部最小值。同樣,獎勵信號rt calso有助于網絡融合。從實驗結果可以看出,應用RT C比不應用RT C具有更好的收斂速度。原因是,RT-cis是一個信號,用于指示網絡實現低損耗值的速度,因此它鼓勵DENET選擇最佳訓練樣本,加速訓練過程。由此可見,獎勵信號的設計是實現穩(wěn)定訓練的關鍵因素。當獎勵功能中沒有任何一個RT-POR-RT-CI時,與完整模型甚至唯一的SANET(不包括DENET)場景相比,培訓損失波動增加。與我們之前的工作[13]相比,我們發(fā)現本文提出的方法更穩(wěn)定,能夠快速達到較低的損失值。這主要是由于本文開發(fā)的貼片選擇機制,防止了在訓練階段對每一個修剪的貼片進行分類。此外,在我們之前的工作[13]中,補丁裁剪和分類任務是在同一個網絡中完成的,這使得培訓變得困難。在本文中,我們將DENET和SANET這兩個任務進行了劃分,并制定了一個訓練策略,使兩個網絡在訓練階段相互協(xié)作。從而使整個框架更容易、更穩(wěn)定地進行培訓。


J. Threshold Analysis

接下來,我們評估閾值的影響?方程式6中的分類性能。驗證數據集和測試數據集的分類結果如圖6所示。的值?根據驗證數據集的性能選擇??梢钥闯?,設置時達到最佳性能?=0.25。什么時候設置?分類精度下降到較高值。其原因在于,在培訓的早期階段很容易實現如此高的驗證損失,這降低了SANET實現較低驗證損失的動機。什么時候設置?對于較小的值,分類精度略有降低。原因是SANET很難實現如此低的驗證損失,因此每次迭代之間的獎勵收益相對較小。這使得denet用獎勵反饋的微小變化來更新其選擇策略變得模糊不清。

K. Computational Time Analysis

最后,在我們的實驗中,該模型需要大約4個小時的時間在一個工作站上訓練,該工作站有四個Nvidia GTX 1080 Ti GPU。相比之下,我們之前工作[13]中的模型需要大約8小時才能實現收斂。這意味著使用培訓補丁選擇機制,培訓時間減少了50%。大多數冗余和不必要的補丁不用于訓練SANET。在測試階段,我們的模型還可以快速預測每個圖像的類標簽。雖然我們的方法有兩個網絡,但DENET的網絡結構非常簡單,有幾個完全連接的層和一個LSTM。在測試階段為每個圖像推斷一個類標簽只需要不到6毫秒。如此快速的在線檢測速度表明它可以應用于常規(guī)的臨床工作流程。

L. Limitations

我們也知道目前的研究有一些局限性。首先,breakhis數據集中的圖像是原始組織病理學數據的裁剪區(qū)域。盡管我們的方法不必像前面的工作那樣在breakhis數據集中調整圖像大小,但它還沒有在整個幻燈片數據集中進行評估。其次,Breakhis數據集的大小相對較小,總共只有82名患者的數據,再加上測試數據集的大小較小,這可能意味著結果有偏差。第三,本文只評估了一個數據集。我們的方法能在多大程度上推廣到其他數據集需要進一步研究。在今后的工作中,我們會嘗試在越來越多的幻燈片數據集上評估我們的方法,以測試我們的方法的泛化能力。

V. CONCLUSION

本文介紹了一種新型的深度混合注意力網絡,應用于乳腺癌組織病理圖像分類。網絡中的硬注意機制可以從breakhis數據集中的圖像自動確定有用的區(qū)域,因此不必為網絡調整圖像大小以避免信息丟失。與以往基于pomdp的方法相比,我們的框架中的選擇機制可以減少50%的培訓時間。我們在公共數據集上評估了我們的方法,在四種不同的放大倍數下,該方法的精度大約達到98%。

REFERENCES

[1] Cancer Facts & Figures, Amer. Cancer Soc., New Y ork, NY , USA, 2008.

[2] H. D. Couture et al., “Image analysis with deep learning to predict breast

cancer grade, er status, histologic subtype, and intrinsic subtype,” NPJ

Breast Cancer, vol. 4, no. 1, p. 30, 2018.

[3] D. Bardou, K. Zhang, and S. M. Ahmad, “Classification of breast cancer

based on histology images using convolutional neural networks,” IEEE

Access, vol. 6, pp. 24680–24693, 2018.

[4] T. Qaiser and N. M. Rajpoot, “Learning where to see: A novel attention

model for automated immunohistochemical scoring,” IEEE Trans. Med.

Imag., vol. 38, no. 11, pp. 2620–2631, Nov. 2019.

[5] F. A. Spanhol, L. S. Oliveira, P. R. Cavalin, C. Petitjean, and L. Heutte,

“Deep features for breast cancer histopathological image classification,”

in Proc. IEEE Int. Conf. Syst., Man, Cybern. (SMC), Oct. 2017,

pp. 1868–1873.

[6] Z. Han, B. Wei, Y . Zheng, Y . Yin, K. Li, and S. Li, “Breast cancer

multi-classification from histopathological images with structured deep

learning model,” Sci. Rep., vol. 7, no. 1, p. 4172, 2017.

[7] M. Jannesari et al., “Breast cancer histopathological image classification:

A deep learning approach,” in Proc. IEEE Int. Conf. Bioinf. Biomed.

(BIBM), Dec. 2018, pp. 2405–2412.

[8] A. Rakhlin, A. Shvets, V . Iglovikov, and A. A. Kalinin, “Deep con-

volutional neural networks for breast cancer histology image analysis,”

in Proc. Int. Conf. Image Anal. Recognit. Cham, Switzerland: Springer,

2018, pp. 737–744.

[9] F. A. Spanhol, L. S. Oliveira, C. Petitjean, and L. Heutte, “Breast

cancer histopathological image classification using convolutional neural

networks,” in Proc. Int. Joint Conf. Neural Netw. (IJCNN), Jul. 2016,

pp. 2560–2567.

[10] L. Fang, C. Wang, S. Li, H. Rabbani, X. Chen, and Z. Liu, “Attention

to lesion: Lesion-aware convolutional neural network for retinal optical

coherence tomography image classification,” I E E E T r a n s . M e d . I m a g .,

vol. 38, no. 8, pp. 1959–1970, Aug. 2019.

[11] J. Zhang, Y . Xie, Y . Xia, and C. Shen, “Attention residual learning

for skin lesion classification,” IEEE Trans. Med. Imag., vol. 38, no. 9,

pp. 2092–2103, Sep. 2019.

[12] M. Tang, Z. Zhang, D. Cobzas, M. Jagersand, and J. L. Jaremko,

“Segmentation-by-detection: A cascade network for volumetric medical

image segmentation,” in Proc. IEEE 15th Int. Symp. Biomed. Imag.

(ISBI), Apr. 2018, pp. 1356–1359.

[13] B. Xu et al., “Look, investigate, and classify: A deep hybrid attention

method for breast cancer classification,” in Proc. IEEE 16th Int. Symp.

Biomed. Imag. (ISBI), Apr. 2019, pp. 914–918.

[14] F. A. Spanhol, L. S. Oliveira, C. Petitjean, and L. Heutte, “A dataset

for breast cancer histopathological image classification,” IEEE Trans.

Biomed. Eng., vol. 63, no. 7, pp. 1455–1462, Jul. 2016.

[15] F. Wang et al., “Residual attention network for image classification,”

in Proc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), Jul. 2017,

pp. 3156–3164.

[16] J. Hu, L. Shen, and G. Sun, “Squeeze-and-excitation networks,” in

Proc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), Jun. 2018,

pp. 7132–7141.

[17] H. Zhang, Z. Kyaw, S.-F. Chang, and T.-S. Chua, “Visual translation

embedding network for visual relation detection,” in Proc. IEEE Conf.

Comput. Vis. Pattern Recognit. (CVPR), Jul. 2017, pp. 5532–5540.

[18] J. Lu, J. Yang, D. Batra, and D. Parikh, “Hierarchical question-image

co-attention for visual question answering,” in Proc. Adv. Neural Inf.

Process. Syst., 2016, pp. 289–297.

[19] V . Mnih, N. Heess, and A. Graves, “Recurrent models of visual

attention,” in Proc. Adv. Neural Inf. Process. Syst., 2014, pp. 2204–2212.

[20] L. Chen et al., “SCA-CNN: Spatial and channel-wise attention in

convolutional networks for image captioning,” in Proc. IEEE Conf.

Comput. Vis. Pattern Recognit. (CVPR), Jul. 2017, pp. 5659–5667.

[21] J. Schlemper et al., “Attention gated networks: Learning to lever-

age salient regions in medical images,” Med. Image Anal., vol. 53,

pp. 197–207, Apr. 2019.

[22] O. Oktay et al., “Attention U-Net: Learning where to look for the

pancreas,” 2018, arXiv: 1804.03999. [Online]. Available: https://arxiv.

org/abs/1804.03999

[23] Y . Zhang, B. Zhang, F. Coenen, J. Xiao, and W. Lu, “One-class Kernel

subspace ensemble for medical image classification,” EURASIP J. Adv.

Signal Process., vol. 2014, no. 1, p. 17, 2014.

[24] P . Wang, X. Hu, Y . Li, Q. Liu, and X. Zhu, “Automatic cell nuclei

segmentation and classification of breast cancer histopathology images,”

Signal Process., vol. 122, pp. 1–13, May 2016.

[25] C. Bahlmann, A. Patel, J. Johnson, J. Ni, A. Chekkoury, and P . Khurd,

“Automated detection of diagnostically relevant regions in H&E

stained digital pathology slides,” Proc. SPIE, vol. 8315, Feb. 2012,

Art. no. 831504.

[26] J. Liu, B. Xu, L. Shen, J. Garibaldi, and G. Qiu, “HEp-2 cell clas-

sification based on a deep autoencoding-classification convolutional

neural network,” in Proc. IEEE 14th Int. Symp. Biomed. Imag. (ISBI),

Apr. 2017, pp. 1019–1023.

[27] Y . Song, J. J. Zou, H. Chang, and W. Cai, “Adapting Fisher vectors

for histopathology image classification,” in Proc. IEEE 14th Int. Symp.

Biomed. Imag. (ISBI), Apr. 2017, pp. 600–603.

[28] Y . Song, H. Chang, H. Huang, and W. Cai, “Supervised intra-embedding

of Fisher vectors for histopathology image classification,” in Proc.

Int. Conf. Med. Image Comput. Comput.-Assist. Intervent. Cham,

Switzerland: Springer, 2017, pp. 99–106.

[29] V . Gupta and A. Bhavsar, “Breast cancer histopathological image

classification: Is magnification important?” in Proc. IEEE Conf. Comput.

Vis. Pattern Recognit. Workshops (CVPRW), Jul. 2017, pp. 769–776.

[30] V . Gupta and A. Bhavsar, “Sequential modeling of deep features for

breast cancer histopathological image classification,” in Proc. IEEE/CVF

Conf. Comput. Vis. Pattern Recognit. Workshops (CVPRW), Jun. 2018,

pp. 2335-1–2335-7.

[31] V . Gupta and A. Bhavsar, “Partially-independent framework for breast

cancer histopathological image classification,” in Proc. IEEE Conf.

Comput. Vis. Pattern Recognit. Workshops (CVPR), Jun. 2019, pp. 1–8.

[32] R. Jozefowicz, W. Zaremba, and I. Sutskever, “An empirical exploration

of recurrent network architectures,” in Proc. Int. Conf. Mach. Learn.,

2015, pp. 2342–2350.

[33] R. J. Williams, “Simple statistical gradient-following algorithms for

connectionist reinforcement learning,” Mach. Learn., vol. 8, nos. 3–4,

pp. 229–256, 1992.

[34] R. S. Sutton, D. A. McAllester, S. P . Singh, and Y . Mansour, “Policy gra-

dient methods for reinforcement learning with function approximation,”

in Proc. Adv. Neural Inf. Process. Syst., 2000, pp. 1057–1063.

[35] K. Simonyan and A. Zisserman, “Very deep convolutional networks

for large-scale image recognition,” 2014, arXiv: 1409.1556. [Online].

Available: https://org/arxiv.abs/1409.1556

[36] K. He, X. Zhang, S. Ren, and J. Sun, “Deep residual learning for

image recognition,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit.

(CVPR), Aug. 2016, pp. 770–778.

[37] Y . Song et al., “Feature learning with component selective encoding

for histopathology image classification,” in Proc. IEEE 15th Int. Symp.

Biomed. Imag. (ISBI), Apr. 2018, pp. 257–260.

[38] J. Wu, Y . Yu, C. Huang, and K. Yu, “Deep multiple instance learning for

image classification and auto-annotation,” in Proc. IEEE Conf. Comput.

Vis. Pattern Recognit. (CVPR), Jun. 2015, pp. 3460–3469.

[39] K. Das, S. Conjeti, A. G. Roy, J. Chatterjee, and D. Sheet, “Multiple

instance learning of deep convolutional neural networks for breast

histopathology whole slide classification,” in Proc. IEEE 15th Int. Symp.

Biomed. Imag. (ISBI), Apr. 2018, pp. 578–581.

[40] M. Nawaz, A. A. Sewissy, and T. H. A. Soliman, “Multi-class breast

cancer classification using deep learning convolutional neural network,”

Int. J. Adv. Comput. Sci. Appl, vol. 9, no. 6, pp. 316–332, 2018.

[41] Y . Jiang, L. Chen, H. Zhang, and X. Xiao, “Breast cancer histopatho-

logical image classification using convolutional neural networks with

small SE-ResNet module,” PLoS ONE, vol. 14, no. 3, 2019,

Art. no. 0214587.

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

友情鏈接更多精彩內容