Application of Artificial Intelligence to Gastroenterology and Hepatology
Catherine Le Berre 等
摘要:自2010年以來,人工智能(A I)在醫(yī)學上的應用取得了實質性進展。人工智能在胃腸病學中的應用包括內鏡下病變分析,癌癥檢測,分析無線膠囊內鏡檢查中的炎性病變或消化道出血。人工智能還被用于評估肝纖維化,區(qū)分胰腺癌患者與胰腺炎患者。人工智能也可以根據多組學數據確定病人的預后或預測他們對治療的反應。本文綜述了人工智能幫助醫(yī)生做出診斷或確定預后的方法,并討論其局限性,了解在衛(wèi)生當局批準人工智能技術之前需要進一步的隨機對照研究。
關鍵詞:深度學習;機器學習;神經網絡;消化系統(tǒng)
一、引言
人工智能沒有一個單一的定義,人工智能的概念包含了執(zhí)行與我們人類智能相關聯的功能的程序,比如學習和探索解決問題[1,2]。人工智能、機器學習和深度學習是概念上相互交叉的學科(見圖1)。機器學習是一個包括了計算機科學和統(tǒng)計學的廣闊學科,機器學習程序重復迭代以應對提高特定任務的性能,產生了分析數據和學習描述和預測模型的算法。供訓練的數據大多以表格形式組織,其中對象或個人為行,而變量,無論是數值型還是分類型都是列。機器學習大致可分為監(jiān)督方法和無監(jiān)督方法,無監(jiān)督學習的目的是在不掌握群體的數量或特性的先驗知識的前提下,根據數據的共性識別群體。有監(jiān)督學習在訓練數據包含每一個對象的輸入—輸出對的表征的使用。輸入包含個體的特征描述,輸出包含要預測的感興趣的結果,要么是分類任務的類,要么是回歸任務的數值。有監(jiān)督的機器學習算法學習這種輸入和輸出對的映射關系,在新的輸出出現時,自動預測它對應的輸出[3]。

人工神經網絡(ANN)是受大腦神經解剖學啟發(fā)的監(jiān)督ML模型。每個神經元都是一個計算單元,所有神經元相互連接,建立整個網絡。信號從第一層(輸入)傳到至最后一層(輸出),可能經過了多個隱含層(見圖2)。訓練神經網絡的過程包括將數據劃分為一個訓練集,該訓練集有助于定義網絡的體系結構,并找出節(jié)點之間的各種權重,然后是一個測試集,用于評估神經網絡預測所需輸出的能力。在訓練過程中,神經網絡內部神經元之間的連接權重被不斷優(yōu)化。對更好性能的不斷追求導致了復雜的深度神經網絡的誕生[4]。

深度神經網絡模型的特點是數個連續(xù)濾波器的應用,這些濾波器自動檢測輸入數據的相關特征,因此深度學習被認為能夠有效的學習數據的特征表示?;谏疃葘W習的方法包括了很多種系統(tǒng)結構[5]。然而,所良好性能依賴大量的標記訓練數據。研究人員通過將DL與強化學習原理相結合來解決這個問題。
深度學習的一大局限性是過度擬合和缺乏可解釋性。由深度學習獲得的模型在擬合數據能力上往往比任何其他模型都要好得多,但它們本質上是數據驅動的。如果訓練數據不具備足夠的多樣性,或者含有不明確的數據偏見,那么DL訓練出來的模型將無法對現實中的對象進行泛化。另外,深度神經網絡也存在黑箱模型的可解釋性低的問題。最近的研究旨在提高DNN模型的可解釋性,因為它是它們在許多領域,特別是在生物醫(yī)學應用中被接受的先決條件[7,8]。目前已經有一些關于胃腸病學人工智能的綜述研究,但是它們主要聚焦于人工智能輔助內窺鏡上[9-11]。在本文中,我們對胃腸病學和肝病學的人工智能對診斷和預后估計的的重要文獻進行了綜述(見附表1和附圖1和2)。
大多數研究使用1個數據集訓練機器學習過程,另一個獨立數據集測試其性能。一些研究使用常見的驗證方法,例如留一法交叉驗證[8]。為增加訓練數據,一些研究采用了隨即裁剪、調整大小、平移、沿任一軸翻轉的數據增強方法。數據集包括了陰性和陽性圖像的結果。
二、惡性病灶及癌前病變分析
目前已經有53項研究使用了AI來檢測惡性和癌前腸道病變(表1)。從方法學上看,其中大部分(48項)集中在內鏡上,3項研究使用了提取自電子病歷的臨床和生物學數據(主要包括人口統(tǒng)計數據、心血管疾病、用藥情況、消化癥狀和血液計數情況),1項研究基于血清腫瘤標志物,1項使用腸道微生物群數據。從部位上看,其中,27項研究致力于提高結直腸息肉或癌癥的診斷準確性[12-38].19項研究聚焦于診斷上消化道癌前或惡性病變[39-57]。只有4項研究局限于小腸研究[58-61]。3項研究關注了整個消化道[62-64]。從驗證方法上看,其中,24項研究采用特殊的驗證方法,主要是K折交叉驗證。對于以內鏡為重點的研究,訓練和測試數據集的大小在不同的研究中差異很大。各項研究的性能表現也是差異巨大的(個人認為主要取決于數據集),但大多數算法的精度達到80%以上。
兩項已發(fā)表的隨機對照實驗比較了智能與非智能內鏡的性能。第一項研究測試了一種實時深度學習系統(tǒng)(WISENSE)的性能,監(jiān)測食管胃十二指腸鏡檢查(EGD)中的盲點。一共324名患者被隨機分配到有或者沒有WISENSE系統(tǒng)的EGD中。在WISENSE組中,準確度達到了90.4%,其盲點率明顯比對照組低(5.9% vs 22.5%)[65]。第二項研究探討了基于DL的自動息肉檢測系統(tǒng)在結腸鏡檢查中的作用,一共1058名患者被隨機分配到有或者沒有智能輔助系統(tǒng)的診斷性結腸鏡檢查中。人工智能系統(tǒng)將腺瘤檢出率從20.3%顯著提高到29.1%,平均每個病人檢出的腺瘤數目從0.31增加到0.53[66]。這些結果表明,人工智能系統(tǒng)可用于提高內鏡對胃腸道癌前病變的診斷價值。
除了提高診斷準確性外,人工智能還可以幫助醫(yī)生確定消化道腫瘤患者的預后。一個基于1219例結直腸癌患者的數據集建立的神經網絡與傳統(tǒng)的COX回歸模型相比,提供了更精確的生存時間和影響因素的確定[67],并可用于確定患者遠處轉移的風險[68]。采用人工神經網絡模型對452例胃癌患者進行評估,并以大約90%的準確率確定生存時間[69]。在一項對117例II A期結腸癌根治術后患者的研究中,一種基于神經網絡的評分系統(tǒng),根據腫瘤的分子特征,將腫瘤術后患者分為高、中、低危三組,三組患者十年總體生存率和無病生存率差異顯著[70]。深度學習預測局部晚期直腸癌患者對新輔助化療有完全反應的準確率達80%,這項技術可能被用來識別最有可能從保守治療或根治性切除中受益的患者[71]。另外,一個基于DL的模型可以根據臨床、病理數據及治療方案,預測1190例胃癌患者5年的生存期。該系統(tǒng)的AUC值為0.92,并確定了腫瘤的分子特征與最佳輔助治療之間的關系[72]。




三、炎癥和其他非惡性病變
AI已經被用于識別炎癥性腸?。↖BDs)(N=6)[73-78],潰瘍(N=6)[79-84],脂瀉病(N=5)[85-89],淋巴管擴張(N=1)[90],和鉤蟲?。∟=1)[91],兩項研究評估了炎性病變患者的內鏡檢查結果[92,93]。兩項研究使用電子病歷來確定患者患腹腔疾病的風險,1項研究使用遺傳因素來確定患者患IBD的風險。三分之二(21項中的14項)的研究使用K折交叉驗證,以避免數據的過度擬合,這21項中有12項研究的患者的患者準確率約為90%。
許多研究已經驗證了AI預測IBD患者治療反應的能力。Waljee等人利用年齡和實驗室數據研發(fā)了一種機器學習方法,這種方法的成本較低,且比6-硫鳥嘌呤核苷酸(6-TGN)代謝物測定更準確地預測患者對噻嘌呤的臨床反應(AUC 0.86 vs 0.60)[94]。然后,他們根據生物標志物、影像學數據和內鏡檢查結果,改進了之前的ML模型,以預測接受硫嘌呤治療的患者的客觀緩解。該ML模型優(yōu)于6-TGN水平的測量(AUC 0.79 vs 0.49)[95]。一種ML模型分析了韋多利單抗治療潰瘍性結腸炎患者的三期臨床試驗數據,與第6周AUC為0.71的糞便鈣保護水平相比。AI能夠預測哪些患者將在第52周時在無皮質類固醇的前提下實現內鏡下緩解,預測性能的AUC值為0.73。因此,韋多利單抗在前6周的益處不明顯時,該算法可用于選擇患者繼續(xù)使用韋多利單抗[96]。另外,還有一種人工智能算法,它將微生物群的數據與臨床數據結合起來,確定了IBD患者的臨床反應,其預測患者抗整合治療的AUC為0.78[97]。一種神經網絡鑒定潰瘍性結腸炎患者在細胞置換治療后,需要進一步手術的敏感性和特異性分別達到了0.96和0.87[98]。
預測IBD發(fā)病或進展的人工智能系統(tǒng)也正在研發(fā)中。一種分析克羅恩病患者早期活檢圖像的神經網絡在識別疾病進展的準確性達到了83.3%,預測患者需要手術的準確度達到了86.0%[99]。Waljee等人建立一種ML方法分析電子病歷數據,預測6個月內IBD相關的住院和門診病人使用類固醇的AUC值達到了0.87[100]。人工神經網絡預測IBD患者臨床復發(fā)的頻率,具有較高的準確性[101]。


四、胃腸出血
十二項研究已經被用于驗證AI在無限膠囊內鏡圖像中檢測小腸出血的能力(表3)[55,102-112]。12項中的8項研究采用特殊的驗證技術,主要是K折交叉驗證。在這些研究中,9項研究識別小腸出血的準確率超過了90%。
對于急性上消化道出血或下消化道出血的患者,可通過內鏡檢查輕松確定出血原因,然而,很大一部分病人有反復出血的情況,這需要重復內鏡檢查和治療。因此,ML模型被開發(fā)以確定有復發(fā)性出血風險的患者和最有可能需要治療的患者,并估計死亡率。這些模型使用臨床和/或生物數據,并以大約90%的準確率識別這些患者[113-117]。一種建立在22854名胃潰瘍患者的回顧性分析和1265名用于驗證的患者基礎上的ML模型,能夠根據患者的年齡、血紅蛋白水平、胃潰瘍、胃腸道疾病、惡性腫瘤和感染來確定復發(fā)性潰瘍出血的患者。模型確定1年內復發(fā)性潰瘍出血的患者,AUC為0.78,準確率為84.3%。

五、肝臟和胰膽疾病
22項研究測試了AI在輔助胰腺疾病或肝臟疾病診療中的能力(表4)。其中關于胰腺癌的AI系統(tǒng)有6項,其中5項研究基于內鏡超聲[118-122]、1項基于血清標記物[123]。這些研究識別胰腺癌患者的AUC約為90%。16項關于肝臟的研究中7項研究旨在檢測與病毒性肝炎相關的纖維化[124-130],6項開發(fā)了人工智能策略檢測非酒精性脂肪肝[131-136]。2項研究識別食管靜脈曲張[137,138]。1項評估患者不明原因的慢性肝病[139]。其中,13項研究使用電子病歷和、或生物特征的數據建立算法,3項研究使用彈性成像數據。除2項外,所有研究都使用了特定的驗證技術 ,主要是k-折疊交叉驗證。這些模型的精度約為80%。
除了提高診斷準確性外,還需要確定病人預后和預測疾病進展的AI方法。Pearce等人建立了一個ML模型,根據APACHE II評分和C反應蛋白水平來預測急性胰腺炎患者的嚴重程度。他們模型的AUC值達到了0.82,敏感度87%,特異度71%[140]。Hong等人根據急性胰腺炎患者的年齡、紅細胞壓積、血清葡萄糖和鈣水平以及尿素氮水平,創(chuàng)建了一個ANN來評估患者的持續(xù)性器官衰竭,準確率達96.2%[141]。Jovanovic等人開發(fā)了一種ANN模型,根據臨床、實驗室和經皮超聲檢查結果,識別膽總管結石病患者進行治療性內鏡逆行胰膽管造影術的需求,其AUC為0.88[142]。
Banerjee等人開發(fā)了一種基于臨床和實驗室數據的人工神經網絡,以90%的準確性確定肝硬化患者將在1年內死亡的可能性,該模型可用于確定肝移植的最佳候選者[143]。Konerman等人基于臨床、實驗室和病理組織學數據建立了一個機器學習模型,識別慢性丙型病毒感染肝炎患者疾病進展的最高風險,以及肝臟相關性結果(肝相關死亡、肝失代償、肝細胞癌、肝移植或Child-Pugh評分增加到7分),該模型在1007名患者的驗證集中AUC值達到了0.708。Khosravi等人建立了一種神經網絡來預測1168名肝移植患者的生存期。該模型可估計1-5年的生存概率,AUC為86.4%,而Cox比例風險回歸模型為80.7%[146]。研究人員還利用人工神經網絡將肝臟捐獻者與接受者配對,從而提供強有力的決策技術[147]。此外,ML模型可以幫助預測對治療的反應。Takayama等人建立了一種ANN預測慢性丙型病毒感染肝炎患者對聚乙二醇化干擾素a-2b聯合利巴韋林治療的反應,預測的敏感度達到了82%,特異度達到了88%。


六、未來的方向

人工智能將成為胃腸病和肝病學家診斷患者、選擇治療手段和預測預后的重要手段。許多方法都是在這些目標下發(fā)展起來的,并展示出不同的性能水準。由于性能指標的差異,很難比較這些研究的結果。人工智能似乎在內鏡下特別有價值,它可以增加對惡性和癌前病變、炎癥病變、小腸出血和胰膽紊亂的檢測。在肝臟學中,人工智能技術可以用來確定患者肝纖維化的風險,并允許一些患者避免肝活檢。
我們的綜述只涵蓋了PubMed中列出的文章,并且可能錯過了計算機科學和醫(yī)學圖像分析期刊上的一些出版物。盡管如此,在過去的20年里,人工智能已經成為胃腸病學和肝臟學研究的重要組成部分。盡管本文的綜述的重點是輔助診斷和預后,但是其他研究方向的人工智能也正在被探索,例如基于機器學習的內鏡質控評估(盲腸標志,機器學習評估檢測結腸鏡的后續(xù)建議),AI在胃腸道領域的應用也在不斷被擴大。
值得注意的是,目前的AI技術受的高質量數據集的缺乏所限制。大多數用于開發(fā)ML算法的證據來自臨床前研究,目前在臨床實踐中沒有應用。此外,DL算法被認為是黑箱模型,黑箱模型很難理解決策過程,阻止醫(yī)生發(fā)現潛在的混雜因素??紤]道德挑戰(zhàn)也很重要,人工智能不知道病人的偏好或法律責任。如果發(fā)生內鏡誤診,誰有責任-內鏡醫(yī)生、程序員或制造商?此外,在確定與病毒性肝炎有關的肝臟纖維化風險時,種族歧視等固有偏置容易被納入人工智能算法,特別是在肝臟學領域。在開發(fā)人工智能模型時,重要的是要考慮這些因素,并在一系列人群中驗證模型。醫(yī)學總是有內在的不確定性,因此完美的預測是不可能的,一些與人工智能相關的研究空白在胃腸學和肝臟學領域仍有待研究(表5)。
在胃腸病學和肝病學方面,人工智能的發(fā)展是沒有回頭路可走的,未來的影響是巨大的。使用人工智能可以增加在發(fā)展中地區(qū)的人們獲得護理的機會,特別是在評估患者患病毒性肝炎或腸道寄生蟲病的風險方面。智能手機可以使用人工智能技術遠程監(jiān)測患者的健康,IBD患者居家測量糞便鈣保護素的方法已經被建立[149]。人工智能還可以通過從大型患者數據集中集成分子、遺傳和臨床數據來識別新的治療靶點。然而,人工智能不會完全取代醫(yī)生,人工智能仍將輔助醫(yī)生工作。雖然機器可以做出準確的預測,但最終,醫(yī)護人員必須根據病人的喜好、環(huán)境和道德為他們的病人做出決定。