【綜述筆記】A Survey on Active Learning and Human-in-the-Loop Deep Learning for Medical Image Analysis

入坑Human-in-the-Loop + Medical Image Segmentation,讀一下這篇2019年的綜述。https://arxiv.org/abs/1910.02923

Abstruct


作者認為深度學(xué)習(xí)在醫(yī)療領(lǐng)域的應(yīng)用有以下四個關(guān)鍵點:

  1. 主動學(xué)習(xí) —— 選擇最佳數(shù)據(jù)進行標注,以實現(xiàn)最佳模型性能;
  2. 解釋和細化 —— 使用迭代反饋引導(dǎo)模型針對給定的預(yù)測進行優(yōu)化,并提供有意義的方式來解釋和響應(yīng)預(yù)測;
  3. 實際應(yīng)用 —— 開發(fā)全尺度的應(yīng)用程序以及在部署之前需要進行的關(guān)鍵考慮;
  4. 相關(guān)領(lǐng)域 —— 在人類發(fā)展中將受益于循環(huán)中計算的研究領(lǐng)域。

1. Introduction


醫(yī)學(xué)圖像的難點:

  • 需要專業(yè)的先驗知識
  • 數(shù)據(jù)采集條件不同,存在噪聲,模型難以遷移在別的數(shù)據(jù)上
  • 需要大量標注
  • ground truth千人千面,沒有統(tǒng)一的標準,需要大量專家對每個標注進行討論以達成共識

基于深度學(xué)習(xí)醫(yī)療圖像分割的挑戰(zhàn):

  • 缺少數(shù)據(jù)集
  • 模型需要減小偏差
  • 提升可解釋性

本文主要介紹:

  1. Active Learning

從未標記的分布中找到信息最豐富的樣本,然后再進行標注,最后用這些樣本訓(xùn)練模型。

  1. Interpretability and Refinement

評估用于響應(yīng)用戶反饋來完善模型預(yù)測的技術(shù),指導(dǎo)模型更準確的預(yù)測。 我們評估旨在改善自動預(yù)測的可解釋性的技術(shù),以及模型如何提供有關(guān)其自身輸出的反饋以指導(dǎo)用戶做出更好的決策的技術(shù)。

  1. Practical Considerations

評估在實際中開發(fā)和部署Human-in-the-loop + DL關(guān)鍵因素,并概述在解決上述三個關(guān)鍵挑戰(zhàn)的這些領(lǐng)域中正在進行的工作。 這些領(lǐng)域以人為本,需要探究人類如何與這些系統(tǒng)交互。

  1. Related Areas

AL and Human-in-the-Loop 相關(guān)的 ML DL研究

  1. Future Prospective and Unanswered Questions

2. Active Learning


主動學(xué)習(xí)用于降低標注成本,用盡可能少的標注數(shù)據(jù)集訓(xùn)練一個模型,這個模型的性能可以達到一個由大量的標注數(shù)據(jù)集按照普通方法(隨機選擇訓(xùn)練數(shù)據(jù))訓(xùn)練得到的模型的性能(真是個好東西??)。
下圖直觀的說明了Active Learning的過程。首先給定一些未標注的數(shù)據(jù),隨機抽樣一些數(shù)據(jù)進行標注,然后輸入到一個中間模型(比較簡單的模型,用來發(fā)現(xiàn)模型難以分類的樣本,即信息性大的樣本),然后人工對這些樣本標注,再次用中間模型訓(xùn)練,直到模型表現(xiàn)達到閾值,最后訓(xùn)練模型,達到SOTA??。

Overview of Active Learning frameworks

關(guān)于Active Learning,可以參照知乎回答,寫的非常詳細:
https://zhuanlan.zhihu.com/p/39367595

2.1 Query Types

  • 基于流的選擇采樣(Stream-based Selective Sampling)
    給定一系列未標注的數(shù)據(jù)x_U,用當(dāng)前模型和信息性度量方法I(x_U)來決定每個樣本是否需要專家來標注。
  • 成員查詢綜合(Membership Query Synthesis)
    這種方法不是從數(shù)據(jù)集實際分布中提取數(shù)據(jù),而是生成需要注釋的數(shù)據(jù)x^*_ G。 生成的數(shù)據(jù)是當(dāng)前模型“相信”信息性(Informativeness)最大的數(shù)據(jù)。注意作者這里用了信息性(Informativeness)而非信息量(Information Quantity )和信息熵(Information Entropy)。這種方法與基于流的方法有相同的缺點,因為模型不了解分布中沒見過的區(qū)域,因此不能在這些區(qū)域中生成數(shù)據(jù)。 然而,生成對抗網(wǎng)絡(luò)(GAN)的最新進展顯示了生成模仿真實世界分布的數(shù)據(jù)點的潛力,在醫(yī)療圖像上也有相關(guān)應(yīng)用。
  • 基于池的采樣( Pool-based Sampling)
    該方法在未注釋現(xiàn)實世界數(shù)據(jù)集U從中抽取樣本,并試圖從分布中選擇一個batch的N個樣本x^*_0,...,x^*_N,再請專家標注。該方法用當(dāng)前模型預(yù)測每個未標注的數(shù)據(jù),并計算出這些數(shù)據(jù)的信息性,選擇信息性最大的N個樣本讓專家標注。雖然這種方法計算量大,但是與基于batch訓(xùn)練的deep learning能很好的結(jié)合在一起。

2.2 Evaluating Informativeness

在選擇未標注的樣本后,如何度量樣本的信息性(informativeness)?

2.2.1不確定性(Uncertainty)

總結(jié)起來就一句話:模型對某個樣本的預(yù)測越不確定,這個樣本信息性越大。

Least confident sampling
當(dāng)考慮使用DL進行分割時,最簡單的方法是求出圖像分割中每個像素的最低分類概率之和。我們將上述方法稱為最低置信度抽樣(least confident sampling),其中選擇不確定度最高的樣本進行標記。缺點是,它僅考慮概率最大標簽的信息,而丟棄其余標簽分布的信息。為解決這個問題,margin sampling 可以通過計算概率最大和第二大標簽之間的差異,來解決mulit-label的樣本信息性度量問題。其次,更常用的方法是用信息熵衡量(entropy)。

Query by consensus
還有一些方法和集成學(xué)習(xí)思路相似,用不同的模型預(yù)測同一個sample,通過衡量模型之間的共識來確定樣本信息性。模型越不能達成一致,說明樣本信息性越高。但是這種方法需要更多的計算資源,每次有新的標注數(shù)據(jù)加入,每個模型都需要更新。
作者在此列舉了一些在醫(yī)療圖像處理中衡量Uncertainty的論文,有使用ensemble learning的,使用Bayesian CNNs的, 也有g(shù)eometric smoothness priors,感興趣的同學(xué)可以讀下原文。

2.2.2. 代表性(Representativeness)

許多AL框架擴展了選擇策略,除了度量不確定性外,還度量某種代表性。 出發(fā)點是,僅使用不確定性的方法有可能只關(guān)注分布的小區(qū)域,而對分布相同區(qū)域中的樣本進行訓(xùn)練將為選擇策略帶來冗余 ,或者可能會使模型偏向分布的特定區(qū)域。 增加具有代表性的數(shù)據(jù),旨在鼓勵選擇策略從分布的不同區(qū)域進行抽樣,從而提高AL的效果。 具有高代表性的樣本覆蓋分布的同一區(qū)域中許多圖像的信息,因此代表性圖像不需要覆蓋許多樣本。

2.2.3. Learning Active Learning

取代手動設(shè)計的策略(之前所說的使用置信度低的樣本作為informativeness高的樣本),通過模型預(yù)測選出樣本的經(jīng)驗,學(xué)習(xí)選擇樣本的策略。

2.3. Fine-tuning vs Retraining

在得到新標注的數(shù)據(jù)后,為了提升現(xiàn)有模型,是用新增的數(shù)據(jù)來fine-tuning,還是用所有數(shù)據(jù)(或者新數(shù)據(jù)+舊數(shù)據(jù)的subset)來再訓(xùn)練一遍呢?

作者列舉了兩篇文章,分別用了layer-wise training scheme + one-time fine-tuning,和 continuous fine-tuning method,感興趣可以看看。

3. Interpretability and Refinement


如下圖所示,在模型訓(xùn)練完后,還說需要human-in-the-loop這樣一種人工參與的方式來解釋模型是如何預(yù)測的,并不斷改進模型,使之對沒見過的數(shù)據(jù)獲得最好的性能。


Refinement frameworks 示意圖

3.1. 可解釋性( Interpretability)

深度學(xué)習(xí)是個黑盒子,人們在安全性重要的領(lǐng)域中使用深度學(xué)習(xí)有所顧慮,我們需要提高模型的可解釋性。

關(guān)于模型可解釋性,作者給出了一篇綜述[2]以及醫(yī)療圖像處理相關(guān)論文。

作者認為,DL模型可解釋性的工作也將對AL產(chǎn)生積極影響,因為大多數(shù)提升可解釋性的方法都集中在度量模型預(yù)測的不確定性上,這些相同的不確定性度量也可用于AL選擇策略,代替當(dāng)前采用的不確定性度量。 隨著可解釋性和不確定性度量的提高,我們期望AL框架也將得到類似的改進,因為它們使用不確定性指標來降低標注的工作量。

3.2. Refinement

在醫(yī)療圖像處理中,不能保證模型對每個沒見過的數(shù)據(jù)都預(yù)測正確,泛化(generalise)性能非常重要。為了提升泛化性能,需要使用交互式的標注方法,而交互式標注方法必須節(jié)省標注人員的時間和精力。目前已經(jīng)有許多基于深度學(xué)習(xí)的交互式圖像分割系統(tǒng),他們允許用戶改進模型輸出并將更準確的結(jié)果反饋給模型以提升性能。

有代表性的工作:

在AL中完成的許多工作都忽略了專家的作用,忽略了我們可以在需要時可以獲取準確的帶標注的樣本。 我們預(yù)見,隨著AL研究不斷重視專家提供的數(shù)據(jù),AL和 Human-In-the-Loop 將變得更加緊密。

4. Practical Considerations


要將基于深度學(xué)習(xí)的醫(yī)療圖像分析方法部署到實際場景下,還有許多要考慮的地方。

4.1 噪聲標注人員(Noisy Oracles)

醫(yī)療圖像的標注成本高,專業(yè)性強。如果我們從缺乏專業(yè)知識的標注人員獲取數(shù)據(jù),可能會對模型性能產(chǎn)生什么影響?在使用非專家標注人員時,可以使用哪些技術(shù)來降低可能的標注質(zhì)量的下降,以避免模型準確率等性能的下降。我們可以看到,通過學(xué)習(xí)標注的質(zhì)量,我們可以減輕低質(zhì)量標注的影響,并把最有挑戰(zhàn)性的樣本發(fā)給專家來標注,從而降低專家的工作強度。

4.2 備用查詢類型(Alternative Query Types)

大多數(shù)分割任務(wù)都需要逐像素的標注,但這并不是我們可以給圖像提供的唯一標注類型。 可以使用“弱”標注執(zhí)行細分,其中包括圖像級的標簽,例如形態(tài),存在的器官等,以及bounding-box等。 有人認為,使用“較弱”的標注可以使專家的工作更加輕松,從而獲得更準確的標注。

有代表性的工作:

  • 基于weak annotation:DeepCut(2016),weak annotation+atlas(2017)
  • 基于super pixel: super-pixel + non-expert粗略標注

4.3. 多任務(wù)學(xué)習(xí)(Multi-task learning)

有兩個工作(見原文(Moeskops et al., 2016). Wang et al. (2019a))聯(lián)合分割和檢測任務(wù),以便從CT圖像中進行肺結(jié)節(jié)分割和耳蝸分割,其中僅一部分數(shù)據(jù)進行了密集標注,而其余部分則由邊界框進行了弱標注。這種架構(gòu)超出了幾個baseline。 目前,這項工作僅處理兩種不同標簽類型的情況,還不是真正意義上的Multi-task。

4.4. 標注接口(Annotation Interface)

到目前為止,大多數(shù)Human-in-the-Loop方法都假定從標注專家到數(shù)據(jù)標注和模型預(yù)測的交互水平很高,很少有人考慮標注專家可能與這些圖像進行交互的接口的性質(zhì)。當(dāng)使用分布式在線平臺執(zhí)行此類標注任務(wù)時,需要特別注意醫(yī)學(xué)圖像的性質(zhì)。盡管到目前為止討論的大多數(shù)技術(shù)都使用了已有的數(shù)據(jù)來代替新獲取的標簽,但沒有考慮實際接口可能產(chǎn)生的標注準確性的影響。

4.5 不同的標注成本 (Variable Learning Costs)

非專業(yè)人員標注的數(shù)據(jù)質(zhì)量低,成本低;專家標注的數(shù)據(jù)質(zhì)量高,成本也高。如何權(quán)衡數(shù)據(jù)質(zhì)量和成本,有一些工作對其進行了建模。

  • Kuo et al. (2018) :通過衡量標注時間,建模并優(yōu)化了投資回報率。
  • Shah et al. (2018):基于預(yù)算的成本最小化框架。

5. Related Areas


一些其他領(lǐng)域?qū)︶t(yī)療圖像處理會有所幫助。

  • 半監(jiān)督學(xué)習(xí)(Semi-supervised Learning)
  • 強化學(xué)習(xí)
  • GAN
  • Transfer Learning
  • Continual Lifelong Learning and Catastrophic Forgetting

6. Future Prospective and Unanswered Questions


當(dāng)前醫(yī)療圖像分割目的在于用盡可能少量的帶標注數(shù)據(jù),獲取盡可能好的效果。

Active Learning 假定存用于標注的用戶接口,但僅與要標注的數(shù)據(jù)有關(guān)。Refinement 假設(shè)我們能與當(dāng)前模型進行迭代式的交互,生成更為準確的標注。因此,將這兩者結(jié)合起來是一個有潛力的方向。如果一個模型能夠用少量訓(xùn)練數(shù)據(jù),再加上標注人員的修正提煉,得到更準確的標注,那么就能夠減少初始標注,減少使用未見過的數(shù)據(jù)的工作量,以此加快數(shù)據(jù)標注過程??偨Y(jié)起來一句話:Active Learning + Refinement。

通過將標注人員納入模型生命周期的每個階段,我們還可以用人工反饋模型性能來增加模型置信度的“可解釋”度量,因為用戶可以對模型性能進行排名。模型可能會根據(jù)人類對模型輸出的解釋來給出置信度。當(dāng)然,這需要專家使用該系統(tǒng)。有人可能會說,模型的初始預(yù)測可能會對人類用戶產(chǎn)生一定的影響,但是,將初始標注眾包給不太專業(yè)的多標簽人群可以減少偏差。

Reference

[1] Active learning literature survey
[2] Interpretability of deep learning models: A survey of results

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容