SV-RCNet: Workflow Recognition from Surgical Videos using Recurrent Convolutional Network(SV-RCNe...

本文為原作者為香港中文大學(xué)Yueming Jin等人原文地址
譯文:lowkeybin

摘要

我們提出了一種基于新型循環(huán)卷積神經(jīng)網(wǎng)絡(luò)(SV-RCNet)的外科手術(shù)視頻分析,專門用于在線外科手術(shù)視頻的工作流程的自動(dòng)識(shí)別,這是開(kāi)發(fā)情感感知的計(jì)算機(jī)輔助干預(yù)系統(tǒng)的一個(gè)關(guān)鍵組成部分。與以前分別利用視覺(jué)信息的時(shí)間信息的方法不同,SV-RCNet為了充分利用從視頻中學(xué)習(xí)到的視覺(jué)和時(shí)間特征的互補(bǔ)信息,提出了一種使得卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)無(wú)縫結(jié)合的新型循環(huán)卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。我們使用一種首尾相連(end-to-end)的方法有效的訓(xùn)練SV-RCNet,以便在學(xué)習(xí)的過(guò)程中,視覺(jué)信息和序列動(dòng)態(tài)信息能夠共同的被充分利用。為了能產(chǎn)生更有辨別能力的時(shí)空特征,我們利用了一個(gè)深度殘差網(wǎng)絡(luò)(ResNet)和一個(gè)長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)分別提取視覺(jué)特征和時(shí)間依賴,并將它們整合到SV-RCNet中。此外,SV-CNet基于the phase transition-sensitive的預(yù)測(cè),我們利用外科手術(shù)視頻的自然特征,提出了一種簡(jiǎn)單而有效的推理方案,名為先驗(yàn)知識(shí)推理(prior knowledge inference)(PKI)。這樣一種策略進(jìn)一步改善了結(jié)果的連貫性并很大程度上提高了識(shí)別性能。現(xiàn)在已經(jīng)在 MICCAI 2016 Modeling and Monitoring of Computer Assisted Interventions Workflow Challenge dataset和Cholec80 dataset 上做過(guò)大量實(shí)驗(yàn)來(lái)驗(yàn)證SV-RCNet。我們的方法不但在兩個(gè)數(shù)據(jù)集上都有優(yōu)異的表現(xiàn),而且顯著的優(yōu)于最先進(jìn)的方法。

檢索詞:循環(huán)卷積神經(jīng)網(wǎng)絡(luò),外科手術(shù)流程化識(shí)別,時(shí)序特征的聯(lián)合學(xué)習(xí),非常深的殘差網(wǎng)絡(luò),長(zhǎng)短期記憶

1.簡(jiǎn)介

為了提高患者治療質(zhì)量,現(xiàn)代手術(shù)室需要情感感知系統(tǒng)來(lái)監(jiān)測(cè)外科手術(shù)過(guò)程,安排外科醫(yī)生并加強(qiáng)手術(shù)團(tuán)隊(duì)的協(xié)作。流程化自動(dòng)識(shí)別已變成發(fā)展情感感知系統(tǒng)的一個(gè)重要組成部分。此外,如果流程化識(shí)別能在手術(shù)進(jìn)行的時(shí)候在線監(jiān)測(cè),那么實(shí)時(shí)識(shí)別可以解釋當(dāng)前正在操作的詳細(xì)活動(dòng),當(dāng)接近可能的難題時(shí),這將提醒外科醫(yī)生以減少他們的操作錯(cuò)誤,同時(shí)支持做出決策供他們參考,特別時(shí)對(duì)那些經(jīng)驗(yàn)少的外科醫(yī)生。
已經(jīng)通過(guò)使用多種信息,包括使用信號(hào)的二進(jìn)制儀器[7]、RFID標(biāo)簽[8]、跟蹤工具設(shè)備上的傳感器獲取的數(shù)據(jù)[9]以及外科手術(shù)機(jī)器人[10]。然而,收集這些信號(hào)通常需要大量的人工注釋或者額外的設(shè)備的安裝,這將在手術(shù)過(guò)程中引入額外的工作量[2]。因此,最近的研究已經(jīng)探索了僅僅基于手術(shù)過(guò)程中常規(guī)收集到的視頻數(shù)據(jù)的流程識(shí)別[2][6][11]。除了避免使用輔助設(shè)備的優(yōu)點(diǎn)外,外科手術(shù)視頻自動(dòng)流程化識(shí)別在外科醫(yī)生技能評(píng)估[12]和手術(shù)視頻數(shù)據(jù)庫(kù)文檔的建立上也有用,因?yàn)槟壳斑M(jìn)行的手動(dòng)索引既繁瑣又耗時(shí)[11]。
然而,僅僅使用視頻鏡頭來(lái)自動(dòng)識(shí)別手術(shù)階段是十分有挑戰(zhàn)性的。首先,不同階段的類間差異很小而相同階段的類內(nèi)差異很大(圖1(a)和(b))。第二,由于相機(jī)運(yùn)動(dòng)和手術(shù)時(shí)產(chǎn)生的氣體而引起嚴(yán)重的場(chǎng)景模糊,這增加了識(shí)別的難度(見(jiàn)圖1(c))。第三,在復(fù)雜的外科手術(shù)過(guò)程中,相機(jī)可能不總能對(duì)手術(shù)場(chǎng)景聚焦,這就會(huì)在錄制視頻的時(shí)候引入額外的噪點(diǎn)和人工痕跡(見(jiàn)圖1(d))。
為了應(yīng)對(duì)這些挑戰(zhàn),許多研究致力于從視頻幀中提取有辨識(shí)度的視覺(jué)特征并對(duì)幀之間的時(shí)序關(guān)系進(jìn)行建模來(lái)提高識(shí)別精度。就視覺(jué)特征的提取而言,早期的研究利用人工特征,比如基于亮度、梯度、形狀、顏色和紋理的描述符。然而,這些低級(jí)特征代表復(fù)雜的外科手術(shù)視覺(jué)表現(xiàn)是不夠的。隨著深度學(xué)習(xí)的革命和它在醫(yī)學(xué)圖像上的成功應(yīng)用[15]-[17],最新的方法提出通過(guò)使用卷積神經(jīng)網(wǎng)絡(luò)(CNNs)[11]來(lái)增加特征的辨識(shí)度能力。同時(shí),考慮到外科手術(shù)視頻通常是一組序列數(shù)據(jù),那么利用時(shí)序信息和有效的捕獲序列動(dòng)態(tài)對(duì)于精準(zhǔn)的流程化識(shí)別就尤為重要了。在這個(gè)方向上,很多基于動(dòng)態(tài)時(shí)間扭曲(dynamic time warping)[7][12]、條件隨機(jī)場(chǎng)[18]和隱馬爾可夫模型(HMM)[19][20]的方法已經(jīng)提出。具體來(lái)說(shuō),Twinanda等人實(shí)現(xiàn)的外科手術(shù)流程化識(shí)別擁有最好的性能,他們?yōu)橐曈X(jué)特征構(gòu)建了一個(gè)9層的卷積神經(jīng)網(wǎng)絡(luò)并為了對(duì)時(shí)序信息進(jìn)行建模設(shè)計(jì)了一個(gè)兩級(jí)分層的隱馬爾可夫模型。
然而,現(xiàn)存的方法仍然難以完全解決這些問(wèn)題,并且由于以下幾個(gè)原因,存在提高自動(dòng)識(shí)別性能的極大潛力。首先,之前使用的視覺(jué)特征,要么是手工特征要么是淺層的CNN特征,這些都遠(yuǎn)不足以代表復(fù)雜的手術(shù)視頻幀中的視覺(jué)特征。此外,當(dāng)探索時(shí)序信息時(shí),大多數(shù)的傳統(tǒng)方法依靠預(yù)定義的線性統(tǒng)計(jì)模型,它們不能精確的表示外科手術(shù)視頻中至關(guān)重要但微妙的動(dòng)作。第二,更重要的問(wèn)題,大部分現(xiàn)存的方法分開(kāi)利用視覺(jué)信息和時(shí)序信息,也就是首先使用視覺(jué)特征分類器來(lái)預(yù)測(cè)每一幀,然后再使用時(shí)序依賴來(lái)改進(jìn)結(jié)果。以這種方式,視覺(jué)特征不能在時(shí)序模型中發(fā)揮作用,因此這種方案幾乎不能在時(shí)空信息上得到收益。第三,由于上述的兩個(gè)原因,我們分析和發(fā)現(xiàn)以前的方法很難敏感的識(shí)別和定位過(guò)渡幀(即當(dāng)一個(gè)階段跳躍到另一個(gè)階段時(shí)),而識(shí)別它對(duì)于準(zhǔn)確如一的識(shí)別流程有著重要的作用。
在本文中,我們提出使用一種名為SV-RCNet的新型循環(huán)卷積神經(jīng)網(wǎng)絡(luò)以全面解決上述外科手術(shù)流程精準(zhǔn)識(shí)別的挑戰(zhàn)。我們的SV-RCNet在線模式下進(jìn)行流程識(shí)別,并使用最先進(jìn)的深度學(xué)習(xí)網(wǎng)絡(luò)來(lái)獲取視覺(jué)特征和模擬時(shí)序依賴關(guān)系。具體的,我們開(kāi)發(fā)很深的殘差網(wǎng)絡(luò)ResNet[21]來(lái)獲取視頻幀中高度辨識(shí)度的視覺(jué)特征。計(jì)算理論[22][23]和現(xiàn)實(shí)應(yīng)用[24]-[26]已經(jīng)證明網(wǎng)絡(luò)深度對(duì)獲取有辨識(shí)度特征的重要性。我們進(jìn)一步提出利用長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)來(lái)學(xué)習(xí)時(shí)序依賴關(guān)系。通過(guò)非線性遠(yuǎn)程建模時(shí)序依賴關(guān)系[27]處理序列數(shù)據(jù)是很強(qiáng)大的,并也成功的應(yīng)用在很多挑戰(zhàn)性任務(wù)上[28]-[30]。更重要的是,SV-RCNet無(wú)縫的結(jié)合殘差網(wǎng)絡(luò)和LSTM網(wǎng)絡(luò),以便于我們通過(guò)首尾相連的方式聯(lián)合訓(xùn)練他們來(lái)產(chǎn)生具有時(shí)空信息的高級(jí)特征。特別的,SV-RCNet學(xué)習(xí)到的時(shí)空特征對(duì)外科手術(shù)中的運(yùn)動(dòng)很敏感,并且能精確的識(shí)別階段過(guò)渡幀??紤]到SV-RCNet產(chǎn)生的結(jié)果對(duì)過(guò)渡期極為敏感且外科手術(shù)視頻有良好的結(jié)構(gòu),我們?cè)O(shè)計(jì)了一種簡(jiǎn)單還有效的方案(被叫做先驗(yàn)知識(shí)推理(PKI))來(lái)改進(jìn)SV-RCNet的輸出。我們的PKI策略是為了利用外科手術(shù)視頻的自然特征而量身定做的,可以大大的改善識(shí)別精度。
我們主要的貢獻(xiàn)總結(jié)如下:
1)我們提出了一種新的網(wǎng)絡(luò)結(jié)構(gòu),即SV-RCNet,來(lái)精準(zhǔn)的識(shí)別外科手術(shù)視頻的流程。比較之前獨(dú)立利用視覺(jué)和時(shí)序信息的方法,SV-RCNet為了提高識(shí)別精度能在一種首尾相連的結(jié)構(gòu)中學(xué)習(xí)到一種包含視覺(jué)特征和時(shí)序依賴關(guān)系的高級(jí)表示。
2)為了增強(qiáng)SV-RCNet的辨識(shí)能力,我們整合了一個(gè)很深的殘差網(wǎng)絡(luò)和一個(gè)LSTM網(wǎng)絡(luò)來(lái)學(xué)習(xí)相應(yīng)的視覺(jué)和時(shí)序特征,相較于傳統(tǒng)的外科手術(shù)視頻分析的方法,我們的方法能產(chǎn)生更有代表性的特征。
3)基于SV-RCNet的高質(zhì)量輸出以及外科手術(shù)視頻的有序結(jié)構(gòu),我們研發(fā)了PKI方案來(lái)增強(qiáng)階段預(yù)測(cè)的一致性并大大提高了識(shí)別精度。
4)在MICCAI2016建模和計(jì)算機(jī)輔助干預(yù)監(jiān)控流程挑戰(zhàn)賽上我們?nèi)娴脑u(píng)估了我們提出的方法。我們?nèi)〉昧嗽擁?xiàng)賽事的第一名,并且我們的方法顯著的優(yōu)于其他的方法。此外,我們?cè)谝粋€(gè)更大的外科手術(shù)視頻集(及Chole80數(shù)據(jù)集)上驗(yàn)證我們的方法。我們的方法比現(xiàn)在表現(xiàn)最優(yōu)越的方法表現(xiàn)更好。
本文的剩余內(nèi)容安排如下。在第二節(jié)中我們?cè)敱M的闡述我們的方法,并在第三節(jié)報(bào)告實(shí)驗(yàn)結(jié)果。第四節(jié)中我們進(jìn)一步討論和分析我們的方法。第五節(jié)作最后的總結(jié)。源代碼和相關(guān)的文檔可以在我們的項(xiàng)目網(wǎng)站上找到。

2.方法

我們提出的 SV-RCNet概述如圖2所示。我們開(kāi)發(fā)了一個(gè)很深的殘差網(wǎng)絡(luò)從每一幀來(lái)提取有辨識(shí)度的視覺(jué)特征并利用LSTM網(wǎng)絡(luò)來(lái)對(duì)序列幀的時(shí)序信息進(jìn)行建模。更重要的是,我們無(wú)縫結(jié)合了這兩個(gè)部分形成了一個(gè)首尾相連的循環(huán)卷積神經(jīng)網(wǎng)絡(luò),以便視覺(jué)和時(shí)序特征的互補(bǔ)信息能得到充分的編碼從而得到更精準(zhǔn)的識(shí)別。

A.高辨識(shí)度視覺(jué)描述符的提取

從輸入視頻的每一幀中提取高辨識(shí)度視覺(jué)特征對(duì)精準(zhǔn)識(shí)別至關(guān)重要,同時(shí)這也是構(gòu)成SV-RCNet的基礎(chǔ)。鑒于復(fù)雜的外科手術(shù)環(huán)境,獲取具備高辨識(shí)度能力的特征的確是很難。不同于以前利用人工特征或淺層CNNs特征的方法,我們提出開(kāi)發(fā)一種很深的殘差網(wǎng)絡(luò)來(lái)解決這一至關(guān)重要的挑戰(zhàn)性難題。
如圖2所示,我們的殘差網(wǎng)絡(luò)由一堆殘差塊組成。對(duì)于第l哥殘差塊 ,我們使用x和x相應(yīng)表示它的輸入和輸出。而不是期望堆疊層去擬合一個(gè)復(fù)雜的底層變換x=H(x),殘差網(wǎng)絡(luò)學(xué)習(xí)的目標(biāo)明確的通過(guò)使這些層有一個(gè)近似的殘差映射來(lái)簡(jiǎn)化優(yōu)化難度:x=wx+f(x;{w}),其中F1是殘差映射函數(shù); {Wl}表示與殘余塊B1相關(guān)聯(lián)的權(quán)重集; Ws是一個(gè)標(biāo)識(shí)映射矩陣,用于線性匹配輸入/輸出維度。每個(gè)殘差塊的詳細(xì)結(jié)構(gòu)如圖2(c)所示。在我們的實(shí)現(xiàn)中,每個(gè)殘差塊包含三個(gè)卷積層,每個(gè)卷層后面是批標(biāo)準(zhǔn)化(BN)層和ReLU非線性層。在最后的BN層和ReLU層之間執(zhí)行shortcut identitymapping和element-wise addition。
在構(gòu)造殘差塊之后,我們可以分批次堆疊塊以大量增加網(wǎng)絡(luò)深度。最后構(gòu)建一個(gè)卷積層和一個(gè)最大池化層放在網(wǎng)絡(luò)的開(kāi)頭作為預(yù)處理層,用于執(zhí)行下采樣,這樣就構(gòu)建好了一個(gè)50層殘差網(wǎng)絡(luò)。這個(gè)殘差網(wǎng)絡(luò)以7×7平均池化層結(jié)束,從每個(gè)幀中提取全局特征,最后輸出2048維特征向量。有興趣的讀者建議參考[21]了解殘差網(wǎng)絡(luò)學(xué)習(xí)的基本原則。請(qǐng)注意,從ResNet獲得的視覺(jué)描述符被直接連接到SV-RCNet中的LSTM單元。

B.有效的時(shí)間信息建模

由于視頻數(shù)據(jù)的連續(xù)性,時(shí)間信息為識(shí)別外科手術(shù)過(guò)程中的階段提供了有價(jià)值的背景線索。例如,來(lái)自不同階段的單幀可能采用非常相似的外觀,因此難以僅基于視覺(jué)外觀來(lái)區(qū)分。相反,如果我們可以共同考慮它與相鄰過(guò)去幀的相關(guān)性,那么識(shí)別當(dāng)前幀的相位將會(huì)大大減輕。
代替使用如HMM的傳統(tǒng)模型,我們建議使用LSTM [31],[32]來(lái)利用外科視頻數(shù)據(jù)的時(shí)間維度,這被證明是一種非常強(qiáng)大的時(shí)間概念建模工具。在我們的SV-RCNet中,我們將從ResNet獲得的視覺(jué)描述符順序輸入到LSTM網(wǎng)絡(luò)中,并利用其存儲(chǔ)單元來(lái)維護(hù)過(guò)去幀的時(shí)間信息,然后利用時(shí)間依賴性來(lái)更好地識(shí)別。
我們的SV-RCNet [33]中使用的LSTM單元如圖2(a)所示。 LSTM單元采用三個(gè)門,即輸入門i,遺忘門f和輸出門o,以調(diào)節(jié)記憶單元c與其環(huán)境之間的相互作用。輸入門i控制將多少新信息存儲(chǔ)到記憶單元中。遺忘門f控制記憶單元丟棄先前存儲(chǔ)的信息。在這方面,存儲(chǔ)器單元ct是由輸入門調(diào)制的輸入信息和由忘記門ft調(diào)制的先前存儲(chǔ)器的總和。輸出門ot允許存儲(chǔ)器單元對(duì)當(dāng)前隱藏狀態(tài)和輸出產(chǎn)生影響。或阻止其影響力。在時(shí)間步t,給定輸入rt(我們的任務(wù)中的ResNet視覺(jué)描述符),隱藏狀態(tài)ht-1和存儲(chǔ)器單元ct-1,LSTM單元用以下等式更新:
其中計(jì)算三個(gè)門的函數(shù):雙曲正切函數(shù)將激活值映射到[-1,1],sigmoid函數(shù)把激活值映射到[0,1]。w和b分別代表權(quán)值和偏置項(xiàng)。圓圈中間一個(gè)點(diǎn)(有關(guān)門的計(jì)算)代表元素逐項(xiàng)相乘,記憶單元和所有的門都有相同的向量維度,同時(shí)我們把h0初始化為零向量。

C.循環(huán)卷積神經(jīng)網(wǎng)絡(luò)首尾相連的學(xué)習(xí)

為了充分利用視覺(jué)和時(shí)序特征的互補(bǔ)性息,我們提出了一種新型循環(huán)卷積神經(jīng)網(wǎng)絡(luò),即SV-RCNet,該網(wǎng)絡(luò)無(wú)縫結(jié)合了為提取視覺(jué)描述符的深層殘差網(wǎng)絡(luò)和為了給時(shí)序動(dòng)態(tài)建模的LSTM網(wǎng)絡(luò),這種方法優(yōu)于現(xiàn)在基于分開(kāi)學(xué)習(xí)和利用視覺(jué)和時(shí)序特征的方法。請(qǐng)注意,我們的SV-RCNet的輸入時(shí)視頻輯而不是單個(gè)幀以便視覺(jué)和時(shí)序信息能被充分利用,因此聯(lián)合增強(qiáng)了我們SV-RCNet的辨識(shí)能力。我們訓(xùn)練SV-RCNet用一種首尾相連的方式共同優(yōu)化殘差網(wǎng)絡(luò)和LSTM網(wǎng)絡(luò)的參數(shù)以精準(zhǔn)識(shí)別外科手術(shù)流程。
因?yàn)槊總€(gè)視頻記錄了整個(gè)外科手術(shù)操作,大部分的外科手術(shù)包含十分長(zhǎng)的序列,并且流程識(shí)別任務(wù)要求模型來(lái)識(shí)別每幀屬于哪個(gè)階段??紤]到這些因素,代替輸入完整的視頻進(jìn)入網(wǎng)絡(luò)[32][34],我們提出把外科手術(shù)視頻切割成段的視頻輯以進(jìn)行為了減輕訓(xùn)練難度和計(jì)算記憶的限制被精簡(jiǎn)的反向傳播。具體的,為了在在線模式下識(shí)別時(shí)間t的外科手術(shù)階段,我們提取一個(gè)包含當(dāng)前幀和當(dāng)前幀之前的一些幀的視頻輯。視頻輯中的幀序列用x來(lái)表示,序列的長(zhǎng)度為t-t·。我們使用U來(lái)表示殘差網(wǎng)絡(luò)的映射。殘差網(wǎng)絡(luò)對(duì)應(yīng)每一個(gè)幀xj輸出一個(gè)相應(yīng)固定長(zhǎng)度的視覺(jué)描述符,rj=U()。視頻輯的視覺(jué)特征r按照順序駛?cè)隠STM網(wǎng)絡(luò),使用V來(lái)表示映射。使用rt和上一個(gè)隱層的ht-1LSTM來(lái)計(jì)算輸出zt并更新隱層輸出ht,記作zt=ht=V(rt,ht-1)。注意每一個(gè)時(shí)間步中使用相同的參數(shù)。就這點(diǎn)而言我們可以從視頻輯中學(xué)習(xí)到通用的時(shí)序動(dòng)態(tài)同時(shí)也避免了參數(shù)隨著視頻片段的長(zhǎng)度的增長(zhǎng)而成比例增長(zhǎng)。最后,正向傳播的輸出zt輸入softmax層產(chǎn)生xt幀的預(yù)測(cè)結(jié)果:
這里的w和b分別代表投影矩陣和偏置項(xiàng),pt屬于R是一個(gè)預(yù)測(cè)向量,向量中每個(gè)元素代表一個(gè)類號(hào)(我們?nèi)蝿?wù)中的階段號(hào))
令ptc為pt的第c個(gè)元素,ptc表示xt幀被預(yù)測(cè)為c類,令lt為幀xt的真實(shí)標(biāo)簽,時(shí)間t上幀的負(fù)對(duì)數(shù)損失函數(shù)應(yīng)該被這樣計(jì)算:
在訓(xùn)練期間,在視頻幀x中每個(gè)幀的損失都會(huì)被計(jì)算和求和,讓X代表包含n個(gè)輯樣本的訓(xùn)練集,x是屬于X數(shù)據(jù)集中的一個(gè)視頻片段,總體的損失函數(shù)可以表示為:
我們現(xiàn)在來(lái)看看訓(xùn)練過(guò)程并觀察首尾相連訓(xùn)練的SV-RCNet是如何影響視覺(jué)和時(shí)序特征以及他們的相互作用來(lái)增強(qiáng)網(wǎng)絡(luò)的辨識(shí)能力的。在正向傳播過(guò)程中,SV-RCNet按順序輸入來(lái)自殘差網(wǎng)絡(luò)輸出的視頻幀的視覺(jué)描述符到LSTM網(wǎng)絡(luò)中,然后LSTM網(wǎng)絡(luò)基于這些幀視覺(jué)特征的對(duì)時(shí)序依賴建模。另外一方面,當(dāng)反向傳播時(shí),我們共同優(yōu)化殘差網(wǎng)絡(luò)的參數(shù)β和LSTM網(wǎng)絡(luò)的參數(shù)。在這個(gè)過(guò)程中,時(shí)序信息指導(dǎo)著殘差網(wǎng)絡(luò)更新參數(shù)。
通過(guò)采用隨機(jī)梯度下降法,通過(guò)計(jì)算它們的梯度朝著損失變小的方向來(lái)更新參數(shù)。具體來(lái)說(shuō)殘差網(wǎng)絡(luò)的學(xué)習(xí)率用表示,LSTM網(wǎng)絡(luò)的學(xué)習(xí)率用表示,我們使用下面的等式更新權(quán)值:
在反向傳播的過(guò)程中,梯度首先流向LSTM網(wǎng)絡(luò)的V,這里的梯度計(jì)算如下所示:
隨著反向網(wǎng)絡(luò)中梯度的傳播,殘差網(wǎng)絡(luò)的參數(shù)使用下面的法則優(yōu)化:
從首尾相連的訓(xùn)練過(guò)程中,我們能發(fā)現(xiàn)SV-RCNet能使兩個(gè)網(wǎng)絡(luò)的參數(shù)都學(xué)習(xí)到視覺(jué)和時(shí)序信息同時(shí)保留各自的優(yōu)勢(shì)。視覺(jué)特征的學(xué)習(xí)將受到捕獲時(shí)序動(dòng)態(tài)的影響,反之也是一樣。

D.一致性增強(qiáng)的先驗(yàn)知識(shí)推理

通過(guò)無(wú)縫整合時(shí)序信息,學(xué)習(xí)到特征的SV-RCNet能更加平順的預(yù)測(cè)整個(gè)外科手術(shù)視頻的結(jié)果。然而,一個(gè)外科手術(shù)視頻通常包含一些靜止的幀,或者說(shuō)一些幀只能體現(xiàn)一些很細(xì)微的動(dòng)作,又或者在每個(gè)階段中都有一些人為的遮擋,這些都會(huì)使精準(zhǔn)識(shí)別變得困難。幸運(yùn)的是,我們發(fā)現(xiàn),與自然視頻不同,大多數(shù)手術(shù)視頻內(nèi)容結(jié)構(gòu)更好,排序更好,因?yàn)橐笸饪漆t(yī)生根據(jù)具體的工作流程和說(shuō)明進(jìn)行手術(shù)。舉個(gè)例子,圖三總結(jié)了Modeling and Monitoring of Computer Assisted Interventions Workflow Challenge數(shù)據(jù)集的階段變換條件。具體來(lái)說(shuō),從P0到P4,順序的定義這些階段。從P4到P7這里沒(méi)有絕對(duì)的順序,但我們?nèi)匀豢梢栽谝欢ǔ潭壬嫌^察到順序信息,比如P7不會(huì)再P5觸發(fā)之前發(fā)生。
考慮到上面的因素,應(yīng)該研究一個(gè)想法:通過(guò)跟蹤流程并根據(jù)先前幀的預(yù)測(cè)即使推斷當(dāng)前幀的階段,我們是否可以獲得有用的先驗(yàn)知識(shí),這將有助于校準(zhǔn)階段內(nèi)一些幀的錯(cuò)誤預(yù)測(cè)(見(jiàn)圖6中的黃色箭頭)。通常在階段變化期(每個(gè)階段開(kāi)始時(shí)),由于關(guān)鍵動(dòng)作的改變,帶來(lái)了豐富的時(shí)序信息,SV-RCNet能在兩個(gè)階段之間精準(zhǔn)的識(shí)別過(guò)渡序列。例如圖6中粉色箭頭所示。換句話說(shuō),SV-RCNet對(duì)動(dòng)作很敏感,能精確的定位階段過(guò)渡點(diǎn)。為此,我們?yōu)榱颂岣哳A(yù)測(cè)的一致性提出一種依賴與SV-RCNet的一種簡(jiǎn)單還有效的推理方案,命名為先驗(yàn)知識(shí)推理。通過(guò)PKI,我們成功的利用了外科手術(shù)視頻的良好有序性和SV-RCNet的過(guò)渡敏感輸出,以提高流程識(shí)別的性能。
PKI算法的邏輯如圖3所示,我們以P1到P2作為一個(gè)例子詳盡說(shuō)明了PKI是如何在過(guò)渡點(diǎn)上工作的,其他階段的過(guò)渡點(diǎn)的工作原理也是一樣的。圖3(a)主要解釋如何確定階段的先驗(yàn)pt。我們用yt表示視頻幀xt的網(wǎng)絡(luò)階段預(yù)測(cè)結(jié)果,在M2CAI流程挑戰(zhàn)賽數(shù)據(jù)集上有7個(gè)流程階段。為了給現(xiàn)階段幀xt提供先驗(yàn)知識(shí),一個(gè)之前狀態(tài)的收集器(用S表示)被用于記錄先前幀的階段預(yù)測(cè):
通過(guò)S收集的先驗(yàn)知識(shí),我們推斷出當(dāng)前幀xt最有可能的階段先驗(yàn)pt。更具體的來(lái)說(shuō),我們?yōu)槊總€(gè)可能的階段設(shè)置一個(gè)累加器A,以分別計(jì)數(shù)分類到該階段幀的數(shù)量。根據(jù)圖3(b)定義的整個(gè)階段變換,圖3(a)中的P2就是一個(gè)可能的階段。為了確保pt的準(zhǔn)確性和健壯性,每個(gè)可能階段的累加器A只有當(dāng)連續(xù)的序列幀都被預(yù)測(cè)到當(dāng)前階段才進(jìn)行累加。否則,A將被置0,同時(shí)開(kāi)始該階段的新一輪計(jì)數(shù)。
最終,當(dāng)該階段的計(jì)數(shù)達(dá)到一個(gè)閾值就可以確定階段的先驗(yàn)pt了。在圖3(a)中,僅當(dāng)連續(xù)的A增加到閾值時(shí),pt從p1變p2。注意,對(duì)每一個(gè)新的時(shí)間步,PKI只更新S并用相同的策略獲取S到處階段的先驗(yàn)知識(shí)。
然后使用獲取的階段先驗(yàn)pt來(lái)校準(zhǔn)當(dāng)前幀的階段預(yù)測(cè),如圖3(a)所示。如果xt被分類為既不是pt也不是流程中下一個(gè)潛在的階段,那么SV-RCNet很大概率上由于它難以分辨現(xiàn)在的情況把xt分錯(cuò)到了另一個(gè)階段中去,PKI將其預(yù)測(cè)的結(jié)果校準(zhǔn)為pt以以保持預(yù)測(cè)結(jié)果的一致性。如圖3(a)中的第一種情況所示,如果SV-RCNet的預(yù)測(cè)結(jié)果既不是第二階段也不是第三階段,PKI將其預(yù)測(cè)結(jié)果修正為先驗(yàn)結(jié)果2。如果xt被分到下一個(gè)可能的階段中去,PKI將檢查該預(yù)測(cè)的可信度以決定是否應(yīng)該去修正。如果預(yù)測(cè)概率低于閾值,則PKI將其修正為pt;否則將保持原有預(yù)測(cè),如圖3(a)的第二和第三種例子所示。使用對(duì)數(shù)據(jù)集中的驗(yàn)證子集掃描的方法來(lái)確定PKI的超參數(shù)。

E.SV-RCNet的訓(xùn)練詳情

為了高效的訓(xùn)練SV-RCNet,考慮到殘差網(wǎng)絡(luò)的參數(shù)規(guī)模遠(yuǎn)遠(yuǎn)的大于LSTM網(wǎng)絡(luò)的參數(shù)規(guī)模,我們首先與訓(xùn)練殘差網(wǎng)絡(luò)來(lái)學(xué)習(xí)可靠的參數(shù)來(lái)作為整個(gè)網(wǎng)絡(luò)的初始化,利用遷移學(xué)習(xí)有效的泛化能力,我們使用在ImageNet數(shù)據(jù)集上訓(xùn)練的殘差網(wǎng)絡(luò)的權(quán)值作為初始化權(quán)值。在這一步中,我們對(duì)原始視頻進(jìn)行重新采樣來(lái)平衡不同階段的訓(xùn)練樣本,然后將幀的大小從1920x1080改為250x250來(lái)大大的節(jié)省內(nèi)存并減少網(wǎng)絡(luò)參數(shù)。通過(guò)使用224x224上處理圖像的策略,圖像更進(jìn)一步增加了鏡像對(duì)稱和旋轉(zhuǎn)圖擴(kuò)充到了訓(xùn)練集上。
在獲得預(yù)訓(xùn)練的殘差網(wǎng)絡(luò)模型之后,整合了視覺(jué)和時(shí)序信息的SV-RCNet通過(guò)首尾相連的方式來(lái)訓(xùn)練直至收斂。注意當(dāng)我們使用殘差網(wǎng)絡(luò)的預(yù)訓(xùn)練參數(shù)作為它的初始化時(shí),LSTM網(wǎng)絡(luò)的參數(shù)應(yīng)用高斯分布來(lái)隨機(jī)初始化的。因此,LSTM網(wǎng)絡(luò)的學(xué)習(xí)率應(yīng)該設(shè)為殘差網(wǎng)絡(luò)的的十倍大小。為了準(zhǔn)備訓(xùn)練數(shù)據(jù),我們下采樣原始視頻從25fps到5fps以豐富視頻輯中的時(shí)序信息。使用相同的增強(qiáng)策略幀的大小也改為250x250,視頻輯的長(zhǎng)度大約設(shè)置為2秒,采樣的步長(zhǎng)設(shè)為3。
我們的框架基于caffe[35]深度學(xué)習(xí)庫(kù)使用C++和python語(yǔ)言實(shí)現(xiàn)
,使用了一個(gè)TITAN X GPU來(lái)加速。網(wǎng)絡(luò)中的超參數(shù)設(shè)置如下:momentum=0.9,weight decay=0.005,LSTM網(wǎng)絡(luò)的dropout rate=0.5。殘差網(wǎng)絡(luò)的LSTM網(wǎng)絡(luò)的初始學(xué)習(xí)率設(shè)置為0.005和0.0005,并每?jī)扇f(wàn)此迭代就減小十倍。大約花了整整一天來(lái)訓(xùn)練整個(gè)網(wǎng)絡(luò)使它收斂,在預(yù)測(cè)過(guò)程中,我們的框架大概0.1秒處理1幀,這表明它可用于在線手術(shù)流程識(shí)別。

3.實(shí)驗(yàn)

A.數(shù)據(jù)集和評(píng)估指標(biāo)
B.在深層的卷積神經(jīng)網(wǎng)絡(luò)上的實(shí)驗(yàn)
C.不同時(shí)序建模方案的實(shí)驗(yàn)
D.M2CAI流程挑戰(zhàn)賽的結(jié)果
E.Choler80數(shù)據(jù)集上的結(jié)果

4.討論

5.結(jié)論

參考文獻(xiàn)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容