欧日韩黄色,啊嗯～视频,欧美精品久久在线

入坑Human-in-the-Loop + Medical Image Segmentation，讀一下這篇2019年的綜述。https://arxiv.org/abs/1910.02923

Abstruct

作者認為深度學(xué)習(xí)在醫(yī)療領(lǐng)域的應(yīng)用有以下四個關(guān)鍵點：

主動學(xué)習(xí) —— 選擇最佳數(shù)據(jù)進行標注，以實現(xiàn)最佳模型性能；
解釋和細化 —— 使用迭代反饋引導(dǎo)模型針對給定的預(yù)測進行優(yōu)化，并提供有意義的方式來解釋和響應(yīng)預(yù)測；
實際應(yīng)用 —— 開發(fā)全尺度的應(yīng)用程序以及在部署之前需要進行的關(guān)鍵考慮；
相關(guān)領(lǐng)域 —— 在人類發(fā)展中將受益于循環(huán)中計算的研究領(lǐng)域。

1. Introduction

醫(yī)學(xué)圖像的難點：

需要專業(yè)的先驗知識
數(shù)據(jù)采集條件不同，存在噪聲，模型難以遷移在別的數(shù)據(jù)上
需要大量標注
ground truth千人千面，沒有統(tǒng)一的標準，需要大量專家對每個標注進行討論以達成共識

基于深度學(xué)習(xí)醫(yī)療圖像分割的挑戰(zhàn)：

缺少數(shù)據(jù)集
模型需要減小偏差
提升可解釋性

本文主要介紹：

Active Learning

從未標記的分布中找到信息最豐富的樣本，然后再進行標注，最后用這些樣本訓(xùn)練模型。

Interpretability and Refinement

評估用于響應(yīng)用戶反饋來完善模型預(yù)測的技術(shù)，指導(dǎo)模型更準確的預(yù)測。我們評估旨在改善自動預(yù)測的可解釋性的技術(shù)，以及模型如何提供有關(guān)其自身輸出的反饋以指導(dǎo)用戶做出更好的決策的技術(shù)。

Practical Considerations

評估在實際中開發(fā)和部署Human-in-the-loop + DL關(guān)鍵因素，并概述在解決上述三個關(guān)鍵挑戰(zhàn)的這些領(lǐng)域中正在進行的工作。這些領(lǐng)域以人為本，需要探究人類如何與這些系統(tǒng)交互。

Related Areas

AL and Human-in-the-Loop 相關(guān)的 ML DL研究

Future Prospective and Unanswered Questions

2. Active Learning

主動學(xué)習(xí)用于降低標注成本，用盡可能少的標注數(shù)據(jù)集訓(xùn)練一個模型，這個模型的性能可以達到一個由大量的標注數(shù)據(jù)集按照普通方法（隨機選擇訓(xùn)練數(shù)據(jù)）訓(xùn)練得到的模型的性能（真是個好東西??）。
下圖直觀的說明了Active Learning的過程。首先給定一些未標注的數(shù)據(jù)，隨機抽樣一些數(shù)據(jù)進行標注，然后輸入到一個中間模型（比較簡單的模型，用來發(fā)現(xiàn)模型難以分類的樣本，即信息性大的樣本），然后人工對這些樣本標注，再次用中間模型訓(xùn)練，直到模型表現(xiàn)達到閾值，最后訓(xùn)練模型，達到SOTA??。

Overview of Active Learning frameworks

關(guān)于Active Learning，可以參照知乎回答，寫的非常詳細：
https://zhuanlan.zhihu.com/p/39367595

2.1 Query Types

基于流的選擇采樣（Stream-based Selective Sampling）
給定一系列未標注的數(shù)據(jù) $x_U$ ，用當(dāng)前模型和信息性度量方法 $I(x_U)$ 來決定每個樣本是否需要專家來標注。
成員查詢綜合（Membership Query Synthesis）
這種方法不是從數(shù)據(jù)集實際分布中提取數(shù)據(jù)，而是生成需要注釋的數(shù)據(jù) $x^*_ G$ 。生成的數(shù)據(jù)是當(dāng)前模型“相信”信息性（Informativeness）最大的數(shù)據(jù)。注意作者這里用了信息性（Informativeness）而非信息量（Information Quantity ）和信息熵（Information Entropy）。這種方法與基于流的方法有相同的缺點，因為模型不了解分布中沒見過的區(qū)域，因此不能在這些區(qū)域中生成數(shù)據(jù)。然而，生成對抗網(wǎng)絡(luò)（GAN）的最新進展顯示了生成模仿真實世界分布的數(shù)據(jù)點的潛力，在醫(yī)療圖像上也有相關(guān)應(yīng)用。
基于池的采樣（ Pool-based Sampling）
該方法在未注釋現(xiàn)實世界數(shù)據(jù)集 $U$ 從中抽取樣本，并試圖從分布中選擇一個batch的 $N$ 個樣本 $x^*_0，...，x^*_N$ ，再請專家標注。該方法用當(dāng)前模型預(yù)測每個未標注的數(shù)據(jù)，并計算出這些數(shù)據(jù)的信息性，選擇信息性最大的 $N$ 個樣本讓專家標注。雖然這種方法計算量大，但是與基于batch訓(xùn)練的deep learning能很好的結(jié)合在一起。

2.2 Evaluating Informativeness

在選擇未標注的樣本后，如何度量樣本的信息性（informativeness）？

2.2.1不確定性（Uncertainty）

總結(jié)起來就一句話：模型對某個樣本的預(yù)測越不確定，這個樣本信息性越大。

Least confident sampling
當(dāng)考慮使用DL進行分割時，最簡單的方法是求出圖像分割中每個像素的最低分類概率之和。我們將上述方法稱為最低置信度抽樣（least confident sampling），其中選擇不確定度最高的樣本進行標記。缺點是，它僅考慮概率最大標簽的信息，而丟棄其余標簽分布的信息。為解決這個問題，margin sampling 可以通過計算概率最大和第二大標簽之間的差異，來解決mulit-label的樣本信息性度量問題。其次，更常用的方法是用信息熵衡量（entropy）。

Query by consensus
還有一些方法和集成學(xué)習(xí)思路相似，用不同的模型預(yù)測同一個sample，通過衡量模型之間的共識來確定樣本信息性。模型越不能達成一致，說明樣本信息性越高。但是這種方法需要更多的計算資源，每次有新的標注數(shù)據(jù)加入，每個模型都需要更新。
作者在此列舉了一些在醫(yī)療圖像處理中衡量Uncertainty的論文，有使用ensemble learning的，使用Bayesian CNNs的，也有g(shù)eometric smoothness priors，感興趣的同學(xué)可以讀下原文。

2.2.2. 代表性（Representativeness）

許多AL框架擴展了選擇策略，除了度量不確定性外，還度量某種代表性。出發(fā)點是，僅使用不確定性的方法有可能只關(guān)注分布的小區(qū)域，而對分布相同區(qū)域中的樣本進行訓(xùn)練將為選擇策略帶來冗余，或者可能會使模型偏向分布的特定區(qū)域。增加具有代表性的數(shù)據(jù)，旨在鼓勵選擇策略從分布的不同區(qū)域進行抽樣，從而提高AL的效果。具有高代表性的樣本覆蓋分布的同一區(qū)域中許多圖像的信息，因此代表性圖像不需要覆蓋許多樣本。

2.2.3. Learning Active Learning

取代手動設(shè)計的策略（之前所說的使用置信度低的樣本作為informativeness高的樣本），通過模型預(yù)測選出樣本的經(jīng)驗，學(xué)習(xí)選擇樣本的策略。

2.3. Fine-tuning vs Retraining

在得到新標注的數(shù)據(jù)后，為了提升現(xiàn)有模型，是用新增的數(shù)據(jù)來fine-tuning，還是用所有數(shù)據(jù)（或者新數(shù)據(jù)+舊數(shù)據(jù)的subset）來再訓(xùn)練一遍呢？

作者列舉了兩篇文章，分別用了layer-wise training scheme + one-time fine-tuning，和 continuous fine-tuning method，感興趣可以看看。

3. Interpretability and Refinement

如下圖所示，在模型訓(xùn)練完后，還說需要human-in-the-loop這樣一種人工參與的方式來解釋模型是如何預(yù)測的，并不斷改進模型，使之對沒見過的數(shù)據(jù)獲得最好的性能。

Refinement frameworks 示意圖

3.1. 可解釋性（ Interpretability）

深度學(xué)習(xí)是個黑盒子，人們在安全性重要的領(lǐng)域中使用深度學(xué)習(xí)有所顧慮，我們需要提高模型的可解釋性。

關(guān)于模型可解釋性，作者給出了一篇綜述[2]以及醫(yī)療圖像處理相關(guān)論文。

作者認為，DL模型可解釋性的工作也將對AL產(chǎn)生積極影響，因為大多數(shù)提升可解釋性的方法都集中在度量模型預(yù)測的不確定性上，這些相同的不確定性度量也可用于AL選擇策略，代替當(dāng)前采用的不確定性度量。隨著可解釋性和不確定性度量的提高，我們期望AL框架也將得到類似的改進，因為它們使用不確定性指標來降低標注的工作量。

3.2. Refinement

在醫(yī)療圖像處理中，不能保證模型對每個沒見過的數(shù)據(jù)都預(yù)測正確，泛化（generalise）性能非常重要。為了提升泛化性能，需要使用交互式的標注方法，而交互式標注方法必須節(jié)省標注人員的時間和精力。目前已經(jīng)有許多基于深度學(xué)習(xí)的交互式圖像分割系統(tǒng)，他們允許用戶改進模型輸出并將更準確的結(jié)果反饋給模型以提升性能。

有代表性的工作：

基于U-Net：UI-Net（2017）
基于條件隨機場： CRF-CNN（2015），DeepIGeoS（2017）
基于Graph Cut：BIFSeg（2018）
基于兩個CNN：Base Segmentation + InterCNN
提取3D shape/surface：Rapid Interactive and Intuitive Segmentation of 3D Medical Images Using Radial Basis Function Interpolation
Interaction maps

在AL中完成的許多工作都忽略了專家的作用，忽略了我們可以在需要時可以獲取準確的帶標注的樣本。我們預(yù)見，隨著AL研究不斷重視專家提供的數(shù)據(jù)，AL和 Human-In-the-Loop 將變得更加緊密。

4. Practical Considerations

要將基于深度學(xué)習(xí)的醫(yī)療圖像分析方法部署到實際場景下，還有許多要考慮的地方。

4.1 噪聲標注人員（Noisy Oracles）

醫(yī)療圖像的標注成本高，專業(yè)性強。如果我們從缺乏專業(yè)知識的標注人員獲取數(shù)據(jù)，可能會對模型性能產(chǎn)生什么影響？在使用非專家標注人員時，可以使用哪些技術(shù)來降低可能的標注質(zhì)量的下降，以避免模型準確率等性能的下降。我們可以看到，通過學(xué)習(xí)標注的質(zhì)量，我們可以減輕低質(zhì)量標注的影響，并把最有挑戰(zhàn)性的樣本發(fā)給專家來標注，從而降低專家的工作強度。

4.2 備用查詢類型（Alternative Query Types）

大多數(shù)分割任務(wù)都需要逐像素的標注，但這并不是我們可以給圖像提供的唯一標注類型。可以使用“弱”標注執(zhí)行細分，其中包括圖像級的標簽，例如形態(tài)，存在的器官等，以及bounding-box等。有人認為，使用“較弱”的標注可以使專家的工作更加輕松，從而獲得更準確的標注。

有代表性的工作：

基于weak annotation：DeepCut（2016），weak annotation+atlas（2017）
基于super pixel: super-pixel + non-expert粗略標注

4.3. 多任務(wù)學(xué)習(xí)（Multi-task learning）

有兩個工作（見原文(Moeskops et al., 2016). Wang et al. (2019a)）聯(lián)合分割和檢測任務(wù)，以便從CT圖像中進行肺結(jié)節(jié)分割和耳蝸分割，其中僅一部分數(shù)據(jù)進行了密集標注，而其余部分則由邊界框進行了弱標注。這種架構(gòu)超出了幾個baseline。目前，這項工作僅處理兩種不同標簽類型的情況，還不是真正意義上的Multi-task。

4.4. 標注接口（Annotation Interface）

到目前為止，大多數(shù)Human-in-the-Loop方法都假定從標注專家到數(shù)據(jù)標注和模型預(yù)測的交互水平很高，很少有人考慮標注專家可能與這些圖像進行交互的接口的性質(zhì)。當(dāng)使用分布式在線平臺執(zhí)行此類標注任務(wù)時，需要特別注意醫(yī)學(xué)圖像的性質(zhì)。盡管到目前為止討論的大多數(shù)技術(shù)都使用了已有的數(shù)據(jù)來代替新獲取的標簽，但沒有考慮實際接口可能產(chǎn)生的標注準確性的影響。

4.5 不同的標注成本（Variable Learning Costs）

非專業(yè)人員標注的數(shù)據(jù)質(zhì)量低，成本低；專家標注的數(shù)據(jù)質(zhì)量高，成本也高。如何權(quán)衡數(shù)據(jù)質(zhì)量和成本，有一些工作對其進行了建模。

Kuo et al. (2018) ：通過衡量標注時間，建模并優(yōu)化了投資回報率。
Shah et al. (2018)：基于預(yù)算的成本最小化框架。

5. Related Areas

一些其他領(lǐng)域?qū)︶t(yī)療圖像處理會有所幫助。

半監(jiān)督學(xué)習(xí)（Semi-supervised Learning）
強化學(xué)習(xí)
GAN
Transfer Learning
Continual Lifelong Learning and Catastrophic Forgetting

6. Future Prospective and Unanswered Questions

當(dāng)前醫(yī)療圖像分割目的在于用盡可能少量的帶標注數(shù)據(jù)，獲取盡可能好的效果。

Active Learning 假定存用于標注的用戶接口，但僅與要標注的數(shù)據(jù)有關(guān)。Refinement 假設(shè)我們能與當(dāng)前模型進行迭代式的交互，生成更為準確的標注。因此，將這兩者結(jié)合起來是一個有潛力的方向。如果一個模型能夠用少量訓(xùn)練數(shù)據(jù)，再加上標注人員的修正提煉，得到更準確的標注，那么就能夠減少初始標注，減少使用未見過的數(shù)據(jù)的工作量，以此加快數(shù)據(jù)標注過程?？偨Y(jié)起來一句話：Active Learning + Refinement。

通過將標注人員納入模型生命周期的每個階段，我們還可以用人工反饋模型性能來增加模型置信度的“可解釋”度量，因為用戶可以對模型性能進行排名。模型可能會根據(jù)人類對模型輸出的解釋來給出置信度。當(dāng)然，這需要專家使用該系統(tǒng)。有人可能會說，模型的初始預(yù)測可能會對人類用戶產(chǎn)生一定的影響，但是，將初始標注眾包給不太專業(yè)的多標簽人群可以減少偏差。

Reference

[1] Active learning literature survey
[2] Interpretability of deep learning models: A survey of results

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

【綜述筆記】A Survey on Active Learning and Human-in-the-Loop Deep Learning for Medical Image Analysis

【綜述筆記】A Survey on Active Learning and Human-in-the-Loop Deep Learning for Medical Image Analysis

Abstruct

1. Introduction