本文為原作者為香港中文大學(xué)Yueming Jin等人原文地址
譯文：lowkeybin

摘要

我們提出了一種基于新型循環(huán)卷積神經(jīng)網(wǎng)絡(luò)（SV-RCNet）的外科手術(shù)視頻分析，專門用于在線外科手術(shù)視頻的工作流程的自動(dòng)識(shí)別，這是開(kāi)發(fā)情感感知的計(jì)算機(jī)輔助干預(yù)系統(tǒng)的一個(gè)關(guān)鍵組成部分。與以前分別利用視覺(jué)信息的時(shí)間信息的方法不同，SV-RCNet為了充分利用從視頻中學(xué)習(xí)到的視覺(jué)和時(shí)間特征的互補(bǔ)信息，提出了一種使得卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)無(wú)縫結(jié)合的新型循環(huán)卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。我們使用一種首尾相連(end-to-end)的方法有效的訓(xùn)練SV-RCNet，以便在學(xué)習(xí)的過(guò)程中，視覺(jué)信息和序列動(dòng)態(tài)信息能夠共同的被充分利用。為了能產(chǎn)生更有辨別能力的時(shí)空特征，我們利用了一個(gè)深度殘差網(wǎng)絡(luò)（ResNet）和一個(gè)長(zhǎng)短期記憶網(wǎng)絡(luò)（LSTM）分別提取視覺(jué)特征和時(shí)間依賴，并將它們整合到SV-RCNet中。此外，SV-CNet基于the phase transition-sensitive的預(yù)測(cè)，我們利用外科手術(shù)視頻的自然特征，提出了一種簡(jiǎn)單而有效的推理方案，名為先驗(yàn)知識(shí)推理（prior knowledge inference）（PKI）。這樣一種策略進(jìn)一步改善了結(jié)果的連貫性并很大程度上提高了識(shí)別性能。現(xiàn)在已經(jīng)在 MICCAI 2016 Modeling and Monitoring of Computer Assisted Interventions Workflow Challenge dataset和Cholec80 dataset 上做過(guò)大量實(shí)驗(yàn)來(lái)驗(yàn)證SV-RCNet。我們的方法不但在兩個(gè)數(shù)據(jù)集上都有優(yōu)異的表現(xiàn)，而且顯著的優(yōu)于最先進(jìn)的方法。

檢索詞：循環(huán)卷積神經(jīng)網(wǎng)絡(luò)，外科手術(shù)流程化識(shí)別，時(shí)序特征的聯(lián)合學(xué)習(xí)，非常深的殘差網(wǎng)絡(luò)，長(zhǎng)短期記憶

1.簡(jiǎn)介

為了提高患者治療質(zhì)量，現(xiàn)代手術(shù)室需要情感感知系統(tǒng)來(lái)監(jiān)測(cè)外科手術(shù)過(guò)程，安排外科醫(yī)生并加強(qiáng)手術(shù)團(tuán)隊(duì)的協(xié)作。流程化自動(dòng)識(shí)別已變成發(fā)展情感感知系統(tǒng)的一個(gè)重要組成部分。此外，如果流程化識(shí)別能在手術(shù)進(jìn)行的時(shí)候在線監(jiān)測(cè)，那么實(shí)時(shí)識(shí)別可以解釋當(dāng)前正在操作的詳細(xì)活動(dòng)，當(dāng)接近可能的難題時(shí)，這將提醒外科醫(yī)生以減少他們的操作錯(cuò)誤，同時(shí)支持做出決策供他們參考，特別時(shí)對(duì)那些經(jīng)驗(yàn)少的外科醫(yī)生。
已經(jīng)通過(guò)使用多種信息，包括使用信號(hào)的二進(jìn)制儀器[7]、RFID標(biāo)簽[8]、跟蹤工具設(shè)備上的傳感器獲取的數(shù)據(jù)[9]以及外科手術(shù)機(jī)器人[10]。然而，收集這些信號(hào)通常需要大量的人工注釋或者額外的設(shè)備的安裝，這將在手術(shù)過(guò)程中引入額外的工作量[2]。因此，最近的研究已經(jīng)探索了僅僅基于手術(shù)過(guò)程中常規(guī)收集到的視頻數(shù)據(jù)的流程識(shí)別[2][6][11]。除了避免使用輔助設(shè)備的優(yōu)點(diǎn)外，外科手術(shù)視頻自動(dòng)流程化識(shí)別在外科醫(yī)生技能評(píng)估[12]和手術(shù)視頻數(shù)據(jù)庫(kù)文檔的建立上也有用，因?yàn)槟壳斑M(jìn)行的手動(dòng)索引既繁瑣又耗時(shí)[11]。
然而，僅僅使用視頻鏡頭來(lái)自動(dòng)識(shí)別手術(shù)階段是十分有挑戰(zhàn)性的。首先，不同階段的類間差異很小而相同階段的類內(nèi)差異很大（圖1（a）和（b））。第二，由于相機(jī)運(yùn)動(dòng)和手術(shù)時(shí)產(chǎn)生的氣體而引起嚴(yán)重的場(chǎng)景模糊，這增加了識(shí)別的難度（見(jiàn)圖1（c））。第三，在復(fù)雜的外科手術(shù)過(guò)程中，相機(jī)可能不總能對(duì)手術(shù)場(chǎng)景聚焦，這就會(huì)在錄制視頻的時(shí)候引入額外的噪點(diǎn)和人工痕跡（見(jiàn)圖1（d））。
為了應(yīng)對(duì)這些挑戰(zhàn)，許多研究致力于從視頻幀中提取有辨識(shí)度的視覺(jué)特征并對(duì)幀之間的時(shí)序關(guān)系進(jìn)行建模來(lái)提高識(shí)別精度。就視覺(jué)特征的提取而言，早期的研究利用人工特征，比如基于亮度、梯度、形狀、顏色和紋理的描述符。然而，這些低級(jí)特征代表復(fù)雜的外科手術(shù)視覺(jué)表現(xiàn)是不夠的。隨著深度學(xué)習(xí)的革命和它在醫(yī)學(xué)圖像上的成功應(yīng)用[15]-[17]，最新的方法提出通過(guò)使用卷積神經(jīng)網(wǎng)絡(luò)（CNNs）[11]來(lái)增加特征的辨識(shí)度能力。同時(shí)，考慮到外科手術(shù)視頻通常是一組序列數(shù)據(jù)，那么利用時(shí)序信息和有效的捕獲序列動(dòng)態(tài)對(duì)于精準(zhǔn)的流程化識(shí)別就尤為重要了。在這個(gè)方向上，很多基于動(dòng)態(tài)時(shí)間扭曲（dynamic time warping）[7][12]、條件隨機(jī)場(chǎng)[18]和隱馬爾可夫模型（HMM）[19][20]的方法已經(jīng)提出。具體來(lái)說(shuō)，Twinanda等人實(shí)現(xiàn)的外科手術(shù)流程化識(shí)別擁有最好的性能，他們?yōu)橐曈X(jué)特征構(gòu)建了一個(gè)9層的卷積神經(jīng)網(wǎng)絡(luò)并為了對(duì)時(shí)序信息進(jìn)行建模設(shè)計(jì)了一個(gè)兩級(jí)分層的隱馬爾可夫模型。
然而，現(xiàn)存的方法仍然難以完全解決這些問(wèn)題，并且由于以下幾個(gè)原因，存在提高自動(dòng)識(shí)別性能的極大潛力。首先，之前使用的視覺(jué)特征，要么是手工特征要么是淺層的CNN特征，這些都遠(yuǎn)不足以代表復(fù)雜的手術(shù)視頻幀中的視覺(jué)特征。此外，當(dāng)探索時(shí)序信息時(shí)，大多數(shù)的傳統(tǒng)方法依靠預(yù)定義的線性統(tǒng)計(jì)模型，它們不能精確的表示外科手術(shù)視頻中至關(guān)重要但微妙的動(dòng)作。第二，更重要的問(wèn)題，大部分現(xiàn)存的方法分開(kāi)利用視覺(jué)信息和時(shí)序信息，也就是首先使用視覺(jué)特征分類器來(lái)預(yù)測(cè)每一幀，然后再使用時(shí)序依賴來(lái)改進(jìn)結(jié)果。以這種方式，視覺(jué)特征不能在時(shí)序模型中發(fā)揮作用，因此這種方案幾乎不能在時(shí)空信息上得到收益。第三，由于上述的兩個(gè)原因，我們分析和發(fā)現(xiàn)以前的方法很難敏感的識(shí)別和定位過(guò)渡幀（即當(dāng)一個(gè)階段跳躍到另一個(gè)階段時(shí)），而識(shí)別它對(duì)于準(zhǔn)確如一的識(shí)別流程有著重要的作用。
在本文中，我們提出使用一種名為SV-RCNet的新型循環(huán)卷積神經(jīng)網(wǎng)絡(luò)以全面解決上述外科手術(shù)流程精準(zhǔn)識(shí)別的挑戰(zhàn)。我們的SV-RCNet在線模式下進(jìn)行流程識(shí)別，并使用最先進(jìn)的深度學(xué)習(xí)網(wǎng)絡(luò)來(lái)獲取視覺(jué)特征和模擬時(shí)序依賴關(guān)系。具體的，我們開(kāi)發(fā)很深的殘差網(wǎng)絡(luò)ResNet[21]來(lái)獲取視頻幀中高度辨識(shí)度的視覺(jué)特征。計(jì)算理論[22][23]和現(xiàn)實(shí)應(yīng)用[24]-[26]已經(jīng)證明網(wǎng)絡(luò)深度對(duì)獲取有辨識(shí)度特征的重要性。我們進(jìn)一步提出利用長(zhǎng)短期記憶網(wǎng)絡(luò)（LSTM）來(lái)學(xué)習(xí)時(shí)序依賴關(guān)系。通過(guò)非線性遠(yuǎn)程建模時(shí)序依賴關(guān)系[27]處理序列數(shù)據(jù)是很強(qiáng)大的，并也成功的應(yīng)用在很多挑戰(zhàn)性任務(wù)上[28]-[30]。更重要的是，SV-RCNet無(wú)縫的結(jié)合殘差網(wǎng)絡(luò)和LSTM網(wǎng)絡(luò)，以便于我們通過(guò)首尾相連的方式聯(lián)合訓(xùn)練他們來(lái)產(chǎn)生具有時(shí)空信息的高級(jí)特征。特別的，SV-RCNet學(xué)習(xí)到的時(shí)空特征對(duì)外科手術(shù)中的運(yùn)動(dòng)很敏感，并且能精確的識(shí)別階段過(guò)渡幀?？紤]到SV-RCNet產(chǎn)生的結(jié)果對(duì)過(guò)渡期極為敏感且外科手術(shù)視頻有良好的結(jié)構(gòu)，我們?cè)O(shè)計(jì)了一種簡(jiǎn)單還有效的方案（被叫做先驗(yàn)知識(shí)推理（PKI））來(lái)改進(jìn)SV-RCNet的輸出。我們的PKI策略是為了利用外科手術(shù)視頻的自然特征而量身定做的，可以大大的改善識(shí)別精度。
我們主要的貢獻(xiàn)總結(jié)如下：
1）我們提出了一種新的網(wǎng)絡(luò)結(jié)構(gòu)，即SV-RCNet，來(lái)精準(zhǔn)的識(shí)別外科手術(shù)視頻的流程。比較之前獨(dú)立利用視覺(jué)和時(shí)序信息的方法，SV-RCNet為了提高識(shí)別精度能在一種首尾相連的結(jié)構(gòu)中學(xué)習(xí)到一種包含視覺(jué)特征和時(shí)序依賴關(guān)系的高級(jí)表示。
2）為了增強(qiáng)SV-RCNet的辨識(shí)能力，我們整合了一個(gè)很深的殘差網(wǎng)絡(luò)和一個(gè)LSTM網(wǎng)絡(luò)來(lái)學(xué)習(xí)相應(yīng)的視覺(jué)和時(shí)序特征，相較于傳統(tǒng)的外科手術(shù)視頻分析的方法，我們的方法能產(chǎn)生更有代表性的特征。
3）基于SV-RCNet的高質(zhì)量輸出以及外科手術(shù)視頻的有序結(jié)構(gòu)，我們研發(fā)了PKI方案來(lái)增強(qiáng)階段預(yù)測(cè)的一致性并大大提高了識(shí)別精度。
4）在MICCAI2016建模和計(jì)算機(jī)輔助干預(yù)監(jiān)控流程挑戰(zhàn)賽上我們?nèi)娴脑u(píng)估了我們提出的方法。我們?nèi)〉昧嗽擁?xiàng)賽事的第一名，并且我們的方法顯著的優(yōu)于其他的方法。此外，我們?cè)谝粋€(gè)更大的外科手術(shù)視頻集（及Chole80數(shù)據(jù)集）上驗(yàn)證我們的方法。我們的方法比現(xiàn)在表現(xiàn)最優(yōu)越的方法表現(xiàn)更好。
本文的剩余內(nèi)容安排如下。在第二節(jié)中我們?cè)敱M的闡述我們的方法，并在第三節(jié)報(bào)告實(shí)驗(yàn)結(jié)果。第四節(jié)中我們進(jìn)一步討論和分析我們的方法。第五節(jié)作最后的總結(jié)。源代碼和相關(guān)的文檔可以在我們的項(xiàng)目網(wǎng)站上找到。

2.方法

我們提出的 SV-RCNet概述如圖2所示。我們開(kāi)發(fā)了一個(gè)很深的殘差網(wǎng)絡(luò)從每一幀來(lái)提取有辨識(shí)度的視覺(jué)特征并利用LSTM網(wǎng)絡(luò)來(lái)對(duì)序列幀的時(shí)序信息進(jìn)行建模。更重要的是，我們無(wú)縫結(jié)合了這兩個(gè)部分形成了一個(gè)首尾相連的循環(huán)卷積神經(jīng)網(wǎng)絡(luò)，以便視覺(jué)和時(shí)序特征的互補(bǔ)信息能得到充分的編碼從而得到更精準(zhǔn)的識(shí)別。

A.高辨識(shí)度視覺(jué)描述符的提取

從輸入視頻的每一幀中提取高辨識(shí)度視覺(jué)特征對(duì)精準(zhǔn)識(shí)別至關(guān)重要，同時(shí)這也是構(gòu)成SV-RCNet的基礎(chǔ)。鑒于復(fù)雜的外科手術(shù)環(huán)境，獲取具備高辨識(shí)度能力的特征的確是很難。不同于以前利用人工特征或淺層CNNs特征的方法，我們提出開(kāi)發(fā)一種很深的殘差網(wǎng)絡(luò)來(lái)解決這一至關(guān)重要的挑戰(zhàn)性難題。
如圖2所示，我們的殘差網(wǎng)絡(luò)由一堆殘差塊組成。對(duì)于第l哥殘差塊，我們使用x和x相應(yīng)表示它的輸入和輸出。而不是期望堆疊層去擬合一個(gè)復(fù)雜的底層變換x=H（x），殘差網(wǎng)絡(luò)學(xué)習(xí)的目標(biāo)明確的通過(guò)使這些層有一個(gè)近似的殘差映射來(lái)簡(jiǎn)化優(yōu)化難度：x=wx+f(x;{w})，其中F1是殘差映射函數(shù); {Wl}表示與殘余塊B1相關(guān)聯(lián)的權(quán)重集; Ws是一個(gè)標(biāo)識(shí)映射矩陣，用于線性匹配輸入/輸出維度。每個(gè)殘差塊的詳細(xì)結(jié)構(gòu)如圖2（c）所示。在我們的實(shí)現(xiàn)中，每個(gè)殘差塊包含三個(gè)卷積層，每個(gè)卷層后面是批標(biāo)準(zhǔn)化（BN）層和ReLU非線性層。在最后的BN層和ReLU層之間執(zhí)行shortcut identitymapping和element-wise addition。
在構(gòu)造殘差塊之后，我們可以分批次堆疊塊以大量增加網(wǎng)絡(luò)深度。最后構(gòu)建一個(gè)卷積層和一個(gè)最大池化層放在網(wǎng)絡(luò)的開(kāi)頭作為預(yù)處理層，用于執(zhí)行下采樣，這樣就構(gòu)建好了一個(gè)50層殘差網(wǎng)絡(luò)。這個(gè)殘差網(wǎng)絡(luò)以7×7平均池化層結(jié)束，從每個(gè)幀中提取全局特征，最后輸出2048維特征向量。有興趣的讀者建議參考[21]了解殘差網(wǎng)絡(luò)學(xué)習(xí)的基本原則。請(qǐng)注意，從ResNet獲得的視覺(jué)描述符被直接連接到SV-RCNet中的LSTM單元。

B.有效的時(shí)間信息建模

由于視頻數(shù)據(jù)的連續(xù)性，時(shí)間信息為識(shí)別外科手術(shù)過(guò)程中的階段提供了有價(jià)值的背景線索。例如，來(lái)自不同階段的單幀可能采用非常相似的外觀，因此難以僅基于視覺(jué)外觀來(lái)區(qū)分。相反，如果我們可以共同考慮它與相鄰過(guò)去幀的相關(guān)性，那么識(shí)別當(dāng)前幀的相位將會(huì)大大減輕。
代替使用如HMM的傳統(tǒng)模型，我們建議使用LSTM [31]，[32]來(lái)利用外科視頻數(shù)據(jù)的時(shí)間維度，這被證明是一種非常強(qiáng)大的時(shí)間概念建模工具。在我們的SV-RCNet中，我們將從ResNet獲得的視覺(jué)描述符順序輸入到LSTM網(wǎng)絡(luò)中，并利用其存儲(chǔ)單元來(lái)維護(hù)過(guò)去幀的時(shí)間信息，然后利用時(shí)間依賴性來(lái)更好地識(shí)別。
我們的SV-RCNet [33]中使用的LSTM單元如圖2（a）所示。 LSTM單元采用三個(gè)門，即輸入門i，遺忘門f和輸出門o，以調(diào)節(jié)記憶單元c與其環(huán)境之間的相互作用。輸入門i控制將多少新信息存儲(chǔ)到記憶單元中。遺忘門f控制記憶單元丟棄先前存儲(chǔ)的信息。在這方面，存儲(chǔ)器單元ct是由輸入門調(diào)制的輸入信息和由忘記門ft調(diào)制的先前存儲(chǔ)器的總和。輸出門ot允許存儲(chǔ)器單元對(duì)當(dāng)前隱藏狀態(tài)和輸出產(chǎn)生影響。或阻止其影響力。在時(shí)間步t，給定輸入rt（我們的任務(wù)中的ResNet視覺(jué)描述符），隱藏狀態(tài)ht-1和存儲(chǔ)器單元ct-1，LSTM單元用以下等式更新：
其中計(jì)算三個(gè)門的函數(shù):雙曲正切函數(shù)將激活值映射到[-1,1]，sigmoid函數(shù)把激活值映射到[0，1]。w和b分別代表權(quán)值和偏置項(xiàng)。圓圈中間一個(gè)點(diǎn)（有關(guān)門的計(jì)算）代表元素逐項(xiàng)相乘，記憶單元和所有的門都有相同的向量維度，同時(shí)我們把h0初始化為零向量。

C.循環(huán)卷積神經(jīng)網(wǎng)絡(luò)首尾相連的學(xué)習(xí)

為了充分利用視覺(jué)和時(shí)序特征的互補(bǔ)性息，我們提出了一種新型循環(huán)卷積神經(jīng)網(wǎng)絡(luò)，即SV-RCNet，該網(wǎng)絡(luò)無(wú)縫結(jié)合了為提取視覺(jué)描述符的深層殘差網(wǎng)絡(luò)和為了給時(shí)序動(dòng)態(tài)建模的LSTM網(wǎng)絡(luò)，這種方法優(yōu)于現(xiàn)在基于分開(kāi)學(xué)習(xí)和利用視覺(jué)和時(shí)序特征的方法。請(qǐng)注意，我們的SV-RCNet的輸入時(shí)視頻輯而不是單個(gè)幀以便視覺(jué)和時(shí)序信息能被充分利用，因此聯(lián)合增強(qiáng)了我們SV-RCNet的辨識(shí)能力。我們訓(xùn)練SV-RCNet用一種首尾相連的方式共同優(yōu)化殘差網(wǎng)絡(luò)和LSTM網(wǎng)絡(luò)的參數(shù)以精準(zhǔn)識(shí)別外科手術(shù)流程。
因?yàn)槊總€(gè)視頻記錄了整個(gè)外科手術(shù)操作，大部分的外科手術(shù)包含十分長(zhǎng)的序列，并且流程識(shí)別任務(wù)要求模型來(lái)識(shí)別每幀屬于哪個(gè)階段?？紤]到這些因素，代替輸入完整的視頻進(jìn)入網(wǎng)絡(luò)[32][34]，我們提出把外科手術(shù)視頻切割成段的視頻輯以進(jìn)行為了減輕訓(xùn)練難度和計(jì)算記憶的限制被精簡(jiǎn)的反向傳播。具體的，為了在在線模式下識(shí)別時(shí)間t的外科手術(shù)階段，我們提取一個(gè)包含當(dāng)前幀和當(dāng)前幀之前的一些幀的視頻輯。視頻輯中的幀序列用x來(lái)表示，序列的長(zhǎng)度為t-t·。我們使用U來(lái)表示殘差網(wǎng)絡(luò)的映射。殘差網(wǎng)絡(luò)對(duì)應(yīng)每一個(gè)幀xj輸出一個(gè)相應(yīng)固定長(zhǎng)度的視覺(jué)描述符，rj=U（）。視頻輯的視覺(jué)特征r按照順序駛?cè)隠STM網(wǎng)絡(luò)，使用V來(lái)表示映射。使用rt和上一個(gè)隱層的ht-1LSTM來(lái)計(jì)算輸出zt并更新隱層輸出ht，記作zt=ht=V（rt,ht-1）。注意每一個(gè)時(shí)間步中使用相同的參數(shù)。就這點(diǎn)而言我們可以從視頻輯中學(xué)習(xí)到通用的時(shí)序動(dòng)態(tài)同時(shí)也避免了參數(shù)隨著視頻片段的長(zhǎng)度的增長(zhǎng)而成比例增長(zhǎng)。最后，正向傳播的輸出zt輸入softmax層產(chǎn)生xt幀的預(yù)測(cè)結(jié)果：
這里的w和b分別代表投影矩陣和偏置項(xiàng)，pt屬于R是一個(gè)預(yù)測(cè)向量，向量中每個(gè)元素代表一個(gè)類號(hào)（我們?nèi)蝿?wù)中的階段號(hào)）
令ptc為pt的第c個(gè)元素，ptc表示xt幀被預(yù)測(cè)為c類，令lt為幀xt的真實(shí)標(biāo)簽，時(shí)間t上幀的負(fù)對(duì)數(shù)損失函數(shù)應(yīng)該被這樣計(jì)算：
在訓(xùn)練期間，在視頻幀x中每個(gè)幀的損失都會(huì)被計(jì)算和求和，讓X代表包含n個(gè)輯樣本的訓(xùn)練集，x是屬于X數(shù)據(jù)集中的一個(gè)視頻片段，總體的損失函數(shù)可以表示為：
我們現(xiàn)在來(lái)看看訓(xùn)練過(guò)程并觀察首尾相連訓(xùn)練的SV-RCNet是如何影響視覺(jué)和時(shí)序特征以及他們的相互作用來(lái)增強(qiáng)網(wǎng)絡(luò)的辨識(shí)能力的。在正向傳播過(guò)程中，SV-RCNet按順序輸入來(lái)自殘差網(wǎng)絡(luò)輸出的視頻幀的視覺(jué)描述符到LSTM網(wǎng)絡(luò)中,然后LSTM網(wǎng)絡(luò)基于這些幀視覺(jué)特征的對(duì)時(shí)序依賴建模。另外一方面，當(dāng)反向傳播時(shí)，我們共同優(yōu)化殘差網(wǎng)絡(luò)的參數(shù)β和LSTM網(wǎng)絡(luò)的參數(shù)。在這個(gè)過(guò)程中，時(shí)序信息指導(dǎo)著殘差網(wǎng)絡(luò)更新參數(shù)。
通過(guò)采用隨機(jī)梯度下降法，通過(guò)計(jì)算它們的梯度朝著損失變小的方向來(lái)更新參數(shù)。具體來(lái)說(shuō)殘差網(wǎng)絡(luò)的學(xué)習(xí)率用表示，LSTM網(wǎng)絡(luò)的學(xué)習(xí)率用表示，我們使用下面的等式更新權(quán)值：
在反向傳播的過(guò)程中，梯度首先流向LSTM網(wǎng)絡(luò)的V，這里的梯度計(jì)算如下所示：
隨著反向網(wǎng)絡(luò)中梯度的傳播，殘差網(wǎng)絡(luò)的參數(shù)使用下面的法則優(yōu)化：
從首尾相連的訓(xùn)練過(guò)程中，我們能發(fā)現(xiàn)SV-RCNet能使兩個(gè)網(wǎng)絡(luò)的參數(shù)都學(xué)習(xí)到視覺(jué)和時(shí)序信息同時(shí)保留各自的優(yōu)勢(shì)。視覺(jué)特征的學(xué)習(xí)將受到捕獲時(shí)序動(dòng)態(tài)的影響，反之也是一樣。

D.一致性增強(qiáng)的先驗(yàn)知識(shí)推理

通過(guò)無(wú)縫整合時(shí)序信息，學(xué)習(xí)到特征的SV-RCNet能更加平順的預(yù)測(cè)整個(gè)外科手術(shù)視頻的結(jié)果。然而，一個(gè)外科手術(shù)視頻通常包含一些靜止的幀，或者說(shuō)一些幀只能體現(xiàn)一些很細(xì)微的動(dòng)作，又或者在每個(gè)階段中都有一些人為的遮擋，這些都會(huì)使精準(zhǔn)識(shí)別變得困難。幸運(yùn)的是，我們發(fā)現(xiàn)，與自然視頻不同，大多數(shù)手術(shù)視頻內(nèi)容結(jié)構(gòu)更好，排序更好，因?yàn)橐笸饪漆t(yī)生根據(jù)具體的工作流程和說(shuō)明進(jìn)行手術(shù)。舉個(gè)例子，圖三總結(jié)了Modeling and Monitoring of Computer Assisted Interventions Workflow Challenge數(shù)據(jù)集的階段變換條件。具體來(lái)說(shuō)，從P0到P4，順序的定義這些階段。從P4到P7這里沒(méi)有絕對(duì)的順序，但我們?nèi)匀豢梢栽谝欢ǔ潭壬嫌^察到順序信息，比如P7不會(huì)再P5觸發(fā)之前發(fā)生。
考慮到上面的因素，應(yīng)該研究一個(gè)想法：通過(guò)跟蹤流程并根據(jù)先前幀的預(yù)測(cè)即使推斷當(dāng)前幀的階段，我們是否可以獲得有用的先驗(yàn)知識(shí)，這將有助于校準(zhǔn)階段內(nèi)一些幀的錯(cuò)誤預(yù)測(cè)（見(jiàn)圖6中的黃色箭頭）。通常在階段變化期（每個(gè)階段開(kāi)始時(shí)），由于關(guān)鍵動(dòng)作的改變，帶來(lái)了豐富的時(shí)序信息，SV-RCNet能在兩個(gè)階段之間精準(zhǔn)的識(shí)別過(guò)渡序列。例如圖6中粉色箭頭所示。換句話說(shuō),SV-RCNet對(duì)動(dòng)作很敏感，能精確的定位階段過(guò)渡點(diǎn)。為此，我們?yōu)榱颂岣哳A(yù)測(cè)的一致性提出一種依賴與SV-RCNet的一種簡(jiǎn)單還有效的推理方案，命名為先驗(yàn)知識(shí)推理。通過(guò)PKI，我們成功的利用了外科手術(shù)視頻的良好有序性和SV-RCNet的過(guò)渡敏感輸出，以提高流程識(shí)別的性能。
PKI算法的邏輯如圖3所示，我們以P1到P2作為一個(gè)例子詳盡說(shuō)明了PKI是如何在過(guò)渡點(diǎn)上工作的，其他階段的過(guò)渡點(diǎn)的工作原理也是一樣的。圖3（a）主要解釋如何確定階段的先驗(yàn)pt。我們用yt表示視頻幀xt的網(wǎng)絡(luò)階段預(yù)測(cè)結(jié)果，在M2CAI流程挑戰(zhàn)賽數(shù)據(jù)集上有7個(gè)流程階段。為了給現(xiàn)階段幀xt提供先驗(yàn)知識(shí)，一個(gè)之前狀態(tài)的收集器（用S表示）被用于記錄先前幀的階段預(yù)測(cè)：
通過(guò)S收集的先驗(yàn)知識(shí)，我們推斷出當(dāng)前幀xt最有可能的階段先驗(yàn)pt。更具體的來(lái)說(shuō)，我們?yōu)槊總€(gè)可能的階段設(shè)置一個(gè)累加器A，以分別計(jì)數(shù)分類到該階段幀的數(shù)量。根據(jù)圖3（b）定義的整個(gè)階段變換，圖3（a）中的P2就是一個(gè)可能的階段。為了確保pt的準(zhǔn)確性和健壯性，每個(gè)可能階段的累加器A只有當(dāng)連續(xù)的序列幀都被預(yù)測(cè)到當(dāng)前階段才進(jìn)行累加。否則，A將被置0，同時(shí)開(kāi)始該階段的新一輪計(jì)數(shù)。
最終，當(dāng)該階段的計(jì)數(shù)達(dá)到一個(gè)閾值就可以確定階段的先驗(yàn)pt了。在圖3（a）中，僅當(dāng)連續(xù)的A增加到閾值時(shí)，pt從p1變p2。注意，對(duì)每一個(gè)新的時(shí)間步，PKI只更新S并用相同的策略獲取S到處階段的先驗(yàn)知識(shí)。
然后使用獲取的階段先驗(yàn)pt來(lái)校準(zhǔn)當(dāng)前幀的階段預(yù)測(cè)，如圖3（a）所示。如果xt被分類為既不是pt也不是流程中下一個(gè)潛在的階段，那么SV-RCNet很大概率上由于它難以分辨現(xiàn)在的情況把xt分錯(cuò)到了另一個(gè)階段中去，PKI將其預(yù)測(cè)的結(jié)果校準(zhǔn)為pt以以保持預(yù)測(cè)結(jié)果的一致性。如圖3（a）中的第一種情況所示，如果SV-RCNet的預(yù)測(cè)結(jié)果既不是第二階段也不是第三階段，PKI將其預(yù)測(cè)結(jié)果修正為先驗(yàn)結(jié)果2。如果xt被分到下一個(gè)可能的階段中去，PKI將檢查該預(yù)測(cè)的可信度以決定是否應(yīng)該去修正。如果預(yù)測(cè)概率低于閾值，則PKI將其修正為pt；否則將保持原有預(yù)測(cè)，如圖3（a）的第二和第三種例子所示。使用對(duì)數(shù)據(jù)集中的驗(yàn)證子集掃描的方法來(lái)確定PKI的超參數(shù)。

E.SV-RCNet的訓(xùn)練詳情

為了高效的訓(xùn)練SV-RCNet，考慮到殘差網(wǎng)絡(luò)的參數(shù)規(guī)模遠(yuǎn)遠(yuǎn)的大于LSTM網(wǎng)絡(luò)的參數(shù)規(guī)模，我們首先與訓(xùn)練殘差網(wǎng)絡(luò)來(lái)學(xué)習(xí)可靠的參數(shù)來(lái)作為整個(gè)網(wǎng)絡(luò)的初始化，利用遷移學(xué)習(xí)有效的泛化能力，我們使用在ImageNet數(shù)據(jù)集上訓(xùn)練的殘差網(wǎng)絡(luò)的權(quán)值作為初始化權(quán)值。在這一步中，我們對(duì)原始視頻進(jìn)行重新采樣來(lái)平衡不同階段的訓(xùn)練樣本，然后將幀的大小從1920x1080改為250x250來(lái)大大的節(jié)省內(nèi)存并減少網(wǎng)絡(luò)參數(shù)。通過(guò)使用224x224上處理圖像的策略，圖像更進(jìn)一步增加了鏡像對(duì)稱和旋轉(zhuǎn)圖擴(kuò)充到了訓(xùn)練集上。
在獲得預(yù)訓(xùn)練的殘差網(wǎng)絡(luò)模型之后，整合了視覺(jué)和時(shí)序信息的SV-RCNet通過(guò)首尾相連的方式來(lái)訓(xùn)練直至收斂。注意當(dāng)我們使用殘差網(wǎng)絡(luò)的預(yù)訓(xùn)練參數(shù)作為它的初始化時(shí)，LSTM網(wǎng)絡(luò)的參數(shù)應(yīng)用高斯分布來(lái)隨機(jī)初始化的。因此，LSTM網(wǎng)絡(luò)的學(xué)習(xí)率應(yīng)該設(shè)為殘差網(wǎng)絡(luò)的的十倍大小。為了準(zhǔn)備訓(xùn)練數(shù)據(jù)，我們下采樣原始視頻從25fps到5fps以豐富視頻輯中的時(shí)序信息。使用相同的增強(qiáng)策略幀的大小也改為250x250，視頻輯的長(zhǎng)度大約設(shè)置為2秒，采樣的步長(zhǎng)設(shè)為3。
我們的框架基于caffe[35]深度學(xué)習(xí)庫(kù)使用C++和python語(yǔ)言實(shí)現(xiàn)
，使用了一個(gè)TITAN X GPU來(lái)加速。網(wǎng)絡(luò)中的超參數(shù)設(shè)置如下：momentum=0.9，weight decay=0.005，LSTM網(wǎng)絡(luò)的dropout rate=0.5。殘差網(wǎng)絡(luò)的LSTM網(wǎng)絡(luò)的初始學(xué)習(xí)率設(shè)置為0.005和0.0005，并每?jī)扇f(wàn)此迭代就減小十倍。大約花了整整一天來(lái)訓(xùn)練整個(gè)網(wǎng)絡(luò)使它收斂，在預(yù)測(cè)過(guò)程中，我們的框架大概0.1秒處理1幀，這表明它可用于在線手術(shù)流程識(shí)別。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

SV-RCNet: Workflow Recognition from Surgical Videos using Recurrent Convolutional Network（SV-RCNe...

SV-RCNet: Workflow Recognition from Surgical Videos using Recurrent Convolutional Network（SV-RCNe...

摘要

檢索詞：循環(huán)卷積神經(jīng)網(wǎng)絡(luò)，外科手術(shù)流程化識(shí)別，時(shí)序特征的聯(lián)合學(xué)習(xí)，非常深的殘差網(wǎng)絡(luò)，長(zhǎng)短期記憶

1.簡(jiǎn)介

2.方法

A.高辨識(shí)度視覺(jué)描述符的提取

B.有效的時(shí)間信息建模

C.循環(huán)卷積神經(jīng)網(wǎng)絡(luò)首尾相連的學(xué)習(xí)

D.一致性增強(qiáng)的先驗(yàn)知識(shí)推理

E.SV-RCNet的訓(xùn)練詳情

3.實(shí)驗(yàn)

A.數(shù)據(jù)集和評(píng)估指標(biāo)

B.在深層的卷積神經(jīng)網(wǎng)絡(luò)上的實(shí)驗(yàn)

C.不同時(shí)序建模方案的實(shí)驗(yàn)

D.M2CAI流程挑戰(zhàn)賽的結(jié)果

E.Choler80數(shù)據(jù)集上的結(jié)果

4.討論

5.結(jié)論

參考文獻(xiàn)

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

SV-RCNet: Workflow Recognition from Surgical Videos using Recurrent Convolutional Network（SV-RCNe...

摘要

檢索詞：循環(huán)卷積神經(jīng)網(wǎng)絡(luò)，外科手術(shù)流程化識(shí)別，時(shí)序特征的聯(lián)合學(xué)習(xí)，非常深的殘差網(wǎng)絡(luò)，長(zhǎng)短期記憶

1.簡(jiǎn)介

2.方法

A.高辨識(shí)度視覺(jué)描述符的提取

B.有效的時(shí)間信息建模

C.循環(huán)卷積神經(jīng)網(wǎng)絡(luò)首尾相連的學(xué)習(xí)

D.一致性增強(qiáng)的先驗(yàn)知識(shí)推理

E.SV-RCNet的訓(xùn)練詳情

3.實(shí)驗(yàn)

A.數(shù)據(jù)集和評(píng)估指標(biāo)

B.在深層的卷積神經(jīng)網(wǎng)絡(luò)上的實(shí)驗(yàn)

C.不同時(shí)序建模方案的實(shí)驗(yàn)

D.M2CAI流程挑戰(zhàn)賽的結(jié)果

E.Choler80數(shù)據(jù)集上的結(jié)果

4.討論

5.結(jié)論

參考文獻(xiàn)

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

檢索詞：循環(huán)卷積神經(jīng)網(wǎng)絡(luò)，外科手術(shù)流程化識(shí)別，時(shí)序特征的聯(lián)合學(xué)習(xí)，非常深的殘差網(wǎng)絡(luò)，長(zhǎng)短期記憶