論文:https://arxiv.org/ftp/arxiv/papers/1802/1802.06955.pdf
摘要
基于深度學習(DL)的語義分割方法在過去幾年已經(jīng)提供了最先進的性能。更具體地說,這些技術已經(jīng)成功地應用于醫(yī)學圖像的分類、分割和檢測任務。一種深度學習技術,U-Net,已經(jīng)成為最受歡迎的應用之一。本文提出了一種基于U-Net的遞歸卷積神經(jīng)網(wǎng)絡(RCNN)和一種基于U-Net模型的遞歸剩余卷積神經(jīng)網(wǎng)絡(RRCNN),分別命名為RU-Net和R2U-Net。該模型利用了U-Net、殘差網(wǎng)絡和RCNN的能量。這些被提議的架構對于分割任務有幾個優(yōu)點。首先,在培訓深度架構時,residual 單元是有幫助的。其次,利用循環(huán)殘差卷積層進行特征積累,可以更好地表示分割任務的特征。第三,它允許我們設計更好的U-Net架構,具有相同數(shù)量的網(wǎng)絡參數(shù)和更好的醫(yī)學圖像分割性能。該模型分別在視網(wǎng)膜圖像血管分割、皮膚癌分割和肺部病變分割三個基準數(shù)據(jù)集上進行了測試。實驗結果表明,與包括UNet和 Residual U-Net (ResU-Net)在內的等價模型相比,分割任務具有更好的性能。
1. 介紹
目前,深度學習為圖像分類[1]、分割[2]、檢測和跟蹤[3]以及字幕顯示[4]提供了最先進的性能。自2012年以來,已有多個深度卷積神經(jīng)網(wǎng)絡(DCNN)模型被提出,如AlexNet[1]、VGG[5]、GoogleNet[6]、Residual Net[7]、DenseNet[8]和CapsuleNet[9]、[65]?;贒L的方法(尤其是CNN)為分類和分割任務提供了最先進的性能,原因如下:首先,激活函數(shù)解決了DL方法中的訓練問題。第二,dropout有助于網(wǎng)絡規(guī)范化。第三,幾種有效的優(yōu)化技術可用于訓練CNN模型[1]。然而,在大多數(shù)情況下,模型是在非常大的數(shù)據(jù)集(如ImageNet[1])上使用分類任務來探索和評估的,其中分類任務的輸出是單標簽或概率值。另外,小型的體系結構變體模型用于語義圖像分割任務。例如,全連接卷積神經(jīng)網(wǎng)絡(FCN)也為計算機視覺中的圖像分割任務提供了最新的結果。還提出了FCN的另一種變體,稱為SegNet[10]。
由于DCNNs在計算機視覺領域的巨大成功,該方法的不同變體被應用于醫(yī)學成像的不同模式,包括分割、分類、檢測、配準和醫(yī)療信息處理。醫(yī)學影像來自于不同的影像技術,如計算機斷層掃描(CT)、超聲、x射線和磁共振成像(MRI)。計算機輔助診斷(CAD)的目標是獲得更快更好的診斷,以確保在同一時間更好的治療大量的人。此外,無需人工參與的高效自動處理可以減少人為錯誤,并降低總體時間和成本。由于手工分割方法的過程緩慢且繁瑣,因此對無需人工干預即可快速準確分割的計算機算法有著很大的需求。然而,醫(yī)學圖像分割存在數(shù)據(jù)稀缺性和類別不均衡性等局限性。在大多數(shù)情況下,訓練所需的大量標簽(通常是數(shù)千個)不可用,原因有幾個[11]。標記數(shù)據(jù)集需要這個領域的專家,這是昂貴的,并且需要大量的工作和時間。有時,會使用不同的數(shù)據(jù)轉換或增強技術(數(shù)據(jù)增白、旋轉、平移和縮放)來增加可用標記樣本的數(shù)量[12,13,14]。此外,基于patch的方法被用來解決階級不平衡問題。在這項工作中,我們評估了基于patch和基于整個圖像的方法。然而,要從基于patch的方法切換到基于像素的方法,以處理整個圖像,我們必須意識到類別不平衡問題。在語義分割的情況下,給圖像背景分配一個標簽,給前景區(qū)域分配一個目標類。因此,類別不平衡問題得到了很好的解決。在[13,14]中,為了有效地訓練分類和分割任務,引入了交叉熵損失和dice相似度兩種先進的技術。
此外,在醫(yī)學圖像處理中,全局定位和上下文調制經(jīng)常被用于定位任務。在識別任務中,每個像素被分配一個類標簽,該類標簽具有與目標病變輪廓相關的期望邊界。為了定義這些目標病變邊界,我們必須強調相關像素。醫(yī)學成像中的地標檢測[15,16]就是一個例子。在DL革命之前,有幾種傳統(tǒng)的機器學習和圖像處理技術可用于醫(yī)學圖像分割任務,包括基于直方圖特征的幅度分割[17]、基于區(qū)域的分割方法[18]和基于圖割的方法[19]。然而,近年來,在醫(yī)學圖像分割、病變檢測和定位等領域,利用DL的語義分割方法已經(jīng)成為非常流行的方法[20]。此外,基于DL的方法被稱為通用學習方法,其中單個模型可以有效地用于不同的醫(yī)學成像模式,如MRI、CT和X射線。
根據(jù)最近的一項調查,DL方法幾乎適用于所有的醫(yī)學影像學模式[20,21]。此外,在不同醫(yī)學影像學模式的分割任務方面發(fā)表的論文數(shù)量最多[20,21]。文獻[22]提出了一種基于DCNN的腦腫瘤分割與檢測方法。
從架構的角度來看,用于分類任務的CNN模型需要一個編碼單元,并提供類概率作為輸出。在分類任務中,我們使用激活函數(shù)進行卷積運算,然后使用子采樣層來降低特征映射的維數(shù)。當輸入樣本遍歷網(wǎng)絡層時,特征映射的數(shù)目增加,但特征映射的維數(shù)降低。如圖2中模型的第一部分(綠色部分)所示。由于特征圖的數(shù)量隨著深度的增加而增加,網(wǎng)絡參數(shù)的數(shù)量也相應增加。最后,在網(wǎng)絡的末端應用Softmax操作來計算目標類的概率。

與分類任務不同,分割任務的結構需要卷積編碼和解碼單元。該編碼單元用于將輸入圖像編碼成更大數(shù)量的低維映射。解碼單元用于執(zhí)行上卷積(反卷積)操作,生成與原始輸入圖像具有相同維數(shù)的分割圖像。因此,與分類任務的體系結構相比,分割任務的體系結構通常需要幾乎兩倍的網(wǎng)絡參數(shù)。因此,設計高效的DCNN結構來分割任務是非常重要的,它可以在較少網(wǎng)絡參數(shù)的情況下保證更好的性能。

本研究證明了兩種改進的分割模型,一種使用遞歸卷積網(wǎng)絡,另一種使用遞歸殘差卷積網(wǎng)絡。為了實現(xiàn)我們的目標,所提出的模型如圖2所示。U-Net體系結構由卷積編碼和解碼單元組成,這些單元以圖像為輸入,生成各自像素類的分割特征圖。對圖1所示的不同醫(yī)療成像方式進行評估。這項工作的貢獻可以總結如下:
1)介紹了醫(yī)學圖像分割的兩種新模型RU-Net和R2U-Net。
2)分別以視網(wǎng)膜血管分割、皮膚癌分割、肺分割三種不同的醫(yī)學影像方式進行實驗。
3)分別對基于patch的視網(wǎng)膜血管分割方法和基于端到端圖像的皮膚損傷和肺分割方法的模型進行了性能評價。
4)與最近提出的最先進的方法進行比較,這些方法與具有相同數(shù)量網(wǎng)絡參數(shù)的等效模型相比具有更好的性能。
論文的結構安排如下:第二節(jié)論述了相關工作。第三節(jié)介紹了所提出的RU-Net和R2U-Net模型的體系結構,第四節(jié)說明了數(shù)據(jù)集、實驗和結果。第五節(jié)討論了本文的結論和未來的發(fā)展方向。
2. 相關工作
2016年提出了一種深輪廓感知網(wǎng)絡(deep ContourAware Networks,DCAN),利用層次結構提取多層次的上下文特征,對組織學圖像進行精確的腺體分割,在分割時表現(xiàn)出很好的性能[34]。此外,Nabla網(wǎng)絡:2017年提出了一種深度挖掘式卷積結構用于分割[35]。
針對醫(yī)學圖像的三維分割問題,提出了基于U-Net的深度學習方法。用于體積分割的3D-Unet體系結構從注釋稀疏的體積圖像中學習[13]。提出了一種基于體積圖像的端到端三維醫(yī)學圖像分割系統(tǒng)V-net,該系統(tǒng)由帶殘差連接的FCN組成[14]。本文還介紹了一個dice loss層[14]。此外,在[36]中提出了一種三維深度監(jiān)督的醫(yī)學圖像自動分割方法。2016年,High-Res3DNet被提議使用殘差網(wǎng)絡進行3D分割任務[37]。2017年,提出了一種基于CNN的腦腫瘤分割方法,使用3D-CNN模型和全連接的CRF[38]。在[39]中提出了胰腺分割,在2016年又提出了Voxresnet,采用深度體素殘差網(wǎng)絡進行腦分割。該架構利用了殘差網(wǎng)絡和來自不同層的特征映射的[40]。
另外,我們提出了兩種基于U-Net架構的語義分割模型。提出的基于U-Net的遞歸卷積神經(jīng)網(wǎng)絡(RCNN)模型命名為RU-Net,如圖3所示。此外,我們還提出了一個基于殘差RCNN的U-Net模型,稱為R2U-Net。下一節(jié)將提供這兩個模型的體系結構細節(jié)。

3. RU-NET AND R2U-NET模型結構
受深度殘差模型[7]、RCNN[41]和UNet[12]的啟發(fā),我們提出了兩種分割任務模型RU-Net和R2U-Net。這兩種方法利用了最近開發(fā)的三種深度學習模型的優(yōu)點。RCNN及其變體已經(jīng)顯示出在使用不同基準的對象識別任務上的優(yōu)異性能[42,43]。根據(jù)文獻[43]中改進的殘差網(wǎng)絡,可以從數(shù)學上證明遞歸殘差卷積運算。遞歸卷積層(RCL)的操作是相對于根據(jù)RCNN表示的離散時間步來執(zhí)行的[41]。
? R2U-Net全稱叫做Recurrent Residual CNN-based U-Net[9]。該方法將殘差連接和循環(huán)卷積結合起來,用于替換U-Net中原來的子模塊,如下圖所示:

其中環(huán)形箭頭表示循環(huán)連接。下圖表示了幾種不同的子模塊內部結構圖,(a)是常規(guī)的U-Net中使用的方法,(b)是在(a)的基礎上循環(huán)使用包含激活函數(shù)的卷積層,(c)是使用殘差連接的方式,(d)是該文章提出的結合(b)和(c)的循環(huán)殘差卷積模塊。
所提出的深度學習模型是如圖4(b)和(d)所示的疊加卷積單元的構建塊,本文評估了四種不同的體系結構。首先,使用U-Net的前向卷積層和特征連接作為U-Net[12]原始版本中的裁剪和復制方法的替代方法。該模型的基本卷積單元如圖4(a)所示。其次,使用具有殘差連接的前向卷積層的U-Net,通常稱為殘差U-Net (ResU-Net),如圖4(c)[14]所示。第三種架構的U-Net,具有前向循環(huán)卷積層,如圖4(b)所示,命名為RU-Net。最后一種結構的U-Net,具有循環(huán)卷積層和殘差連接,如圖4(d)所示,稱為R2U-Net。未展開的RCL層對時間步長的圖形表示如圖5所示。這里t=2(0 ~ 2)指的是一個循環(huán)卷積操作,包括一個單卷積層,后接兩個連續(xù)的循環(huán)卷積層。在這個實現(xiàn)中,我們將RUNet和R2U-Net模型的特征映射從編碼單元串聯(lián)到解碼單元。

提出的模型與U-Net模型之間的差異有三方面。該體系結構由與U-Net相同的卷積編碼和譯碼單元組成。然而,在編碼和解碼單元中,RCLs和帶有剩余單元的RCLs代替了常規(guī)的前向卷積層。帶有RCLs的剩余單元有助于開發(fā)更有效的更深入的模型。其次,兩種模型的RCL單元都包含了有效的特征累積方法?;赾nn的醫(yī)學圖像分割方法顯示了特征從網(wǎng)絡的一個部分到另一個部分積累的有效性。在這個模型中,元素方面的特征求和是在U-Net模型[32]之外進行的。該模型只在訓練過程中以較好的收斂性的形式表現(xiàn)出了好處。然而,由于模型內部的特性積累,我們提出的模型顯示了在訓練和測試階段的好處。相對于不同的時間步長的特征積累確保了更好和更強的特征表示。因此,它有助于提取非常低層次的特征,這些特征對于不同醫(yī)學成像方式的分割任務(如血管分割)是必不可少的。第三,我們從基本的U-Net模型中刪除了裁剪和復制單元,只使用了連接操作,從而得到了一個非常復雜的體系結構,從而獲得了更好的性能。
與U-Net相比,使用所提出的體系結構有幾個優(yōu)點。首先是網(wǎng)絡參數(shù)數(shù)量方面的效率。提出的RU-Net和R2U-Net體系結構與U-Net和ResU-Net相比具有相同數(shù)量的網(wǎng)絡參數(shù),并且RU-Net和R2U-Net在分割任務上表現(xiàn)出更好的性能。循環(huán)和殘差操作不會增加網(wǎng)絡參數(shù)的數(shù)量。然而,它們確實對培訓和測試性能有顯著影響。這是通過以下[43]部分的一系列實驗得到的經(jīng)驗證據(jù)。這種方法也是可推廣的,因為它很容易應用于基于SegNet[10]、3D-UNet[13]和VNet[14]的深度學習模型,提高了分割任務的性能。
4.?實驗設置與結果

在本例中,我們使用了t=3的時間步長,它表示一個正卷積層,然后是三個遞歸卷積層。本網(wǎng)絡用于皮膚和肺部病變的分割。雖然網(wǎng)絡參數(shù)的數(shù)量相對于遞歸卷積層的時間步長增加了一點,但在表II和表III的最后幾行中可以清楚地看到性能的進一步提高。此外,我們還評估了這兩種模型的視網(wǎng)膜血管分割和基于端到端圖像的皮膚和肺部病變分割。
5. 結論和未來工作
本文利用遞歸卷積神經(jīng)網(wǎng)絡和遞歸殘差卷積神經(jīng)網(wǎng)絡對U-Net體系結構進行了擴展。提出的模型分別稱為“RU-Net”和“R2U-Net”。這些模型在醫(yī)學成像領域使用了三種不同的應用,包括視網(wǎng)膜血管分割、皮膚癌病變分割和肺分割。實驗結果表明,在相同網(wǎng)絡參數(shù)的情況下,提出的RU-Net和R2U-Net模型在分割任務上的性能優(yōu)于現(xiàn)有的方法,包括在所有三個數(shù)據(jù)集上的U-Net和殘差U-Net(或ResU-Net)模型。結果表明,所提出的模型不僅在訓練階段保證了較好的性能,而且在測試階段也保證了較好的性能。在未來的研究中,我們將探索從編碼單元到解碼單元的同一體系結構和新的特征融合策略。