一片小鼠淋巴細(xì)胞樣的圖像: a是原始數(shù)據(jù),b是相應(yīng)的手動(dòng)分段,c是具有100層的MS-D網(wǎng)絡(luò)的輸出。
美國(guó)能源部勞倫斯伯克利國(guó)家實(shí)驗(yàn)室(伯克利實(shí)驗(yàn)室)的數(shù)學(xué)家們開發(fā)了一種新的機(jī)器學(xué)習(xí)方法,旨在實(shí)驗(yàn)成像數(shù)據(jù)。這種新方法不是依靠典型機(jī)器學(xué)習(xí)方法所使用的數(shù)十或數(shù)十萬個(gè)圖像,而是“更快地學(xué)習(xí)”,并且極少所需的圖像。
伯克利實(shí)驗(yàn)室能源研究應(yīng)用高級(jí)數(shù)學(xué)中心(CAMERA)的Dani?lPelt和James Sethian通過開發(fā)他們稱之為“混合尺度密集卷積神經(jīng)網(wǎng)絡(luò)(MS-D)”的方法,將平常的機(jī)器學(xué)習(xí)視角轉(zhuǎn)變?yōu)轭^腦,比傳統(tǒng)方法少得多的參數(shù),快速收斂,并且能夠從一個(gè)非常小的訓(xùn)練集“學(xué)習(xí)”。他們的方法已被用于從細(xì)胞中提取生物結(jié)構(gòu)圖像,并將提供一個(gè)重要的新計(jì)算工具來分析廣泛的研究領(lǐng)域的數(shù)據(jù)。
當(dāng)實(shí)驗(yàn)設(shè)施以更高的速度生成更高分辨率的圖像時(shí),科學(xué)家們就很難對(duì)得到的數(shù)據(jù)進(jìn)行管理和分析,而這些數(shù)據(jù)通常是手工完成的。2014年,Sethian在伯克利實(shí)驗(yàn)室建立了CAMERA,作為一個(gè)綜合性的跨學(xué)科中心,開發(fā)和提供基本的新數(shù)學(xué),以利用美國(guó)能源部科學(xué)辦公室的用戶設(shè)施的實(shí)驗(yàn)調(diào)查。CAMERA是實(shí)驗(yàn)室計(jì)算研究部門的一部分。
“在許多科學(xué)應(yīng)用中,需要大量的體力勞動(dòng)來注釋和標(biāo)記圖像——需要幾周的時(shí)間才能制作出幾個(gè)精心描繪的圖像,”Sethian說,他也是加州大學(xué)伯克利分校的數(shù)學(xué)教授?!拔覀兊哪繕?biāo)是開發(fā)一種從非常小的數(shù)據(jù)集學(xué)習(xí)的技術(shù)?!?/p>
該算法的信息于2017年12月26日在《美國(guó)國(guó)家科學(xué)院院刊》上發(fā)表。
“這一突破源自于認(rèn)識(shí)到在不同圖像尺度下通常的縮放和放大拍攝功能可以被處理多個(gè)尺度的數(shù)學(xué)卷積所取代,”Pelt說,他也是Centrum計(jì)算成像組的成員。Wiskunde&Informatica,荷蘭數(shù)學(xué)和計(jì)算機(jī)科學(xué)國(guó)家研究機(jī)構(gòu)。
為了使該算法能夠被廣泛的研究人員所接受,由Olivia Jain和Simon Mo領(lǐng)導(dǎo)的伯克利團(tuán)隊(duì)建立了一個(gè)門戶網(wǎng)站“分段標(biāo)記圖像數(shù)據(jù)引擎(SlideCAM)”,作為美國(guó)能源部實(shí)驗(yàn)設(shè)施的CAMERA工具套件的一部分。
使用1024個(gè)投影(a)和120個(gè)投影(b)重建的纖維增強(qiáng)微型復(fù)合材料的斷層圖像。在(c)中,顯示了具有圖像(b)作為輸入的MS-D網(wǎng)絡(luò)的輸出。在每幅圖像的右下角放大顯示由紅色方塊指示的小區(qū)域。
一個(gè)有前途的應(yīng)用是理解生物細(xì)胞的內(nèi)部結(jié)構(gòu),以及Pelt和Sethian的MS-D方法只需要來自7個(gè)細(xì)胞的數(shù)據(jù)來確定細(xì)胞結(jié)構(gòu)的項(xiàng)目。
“在我們的實(shí)驗(yàn)室,我們正在研究細(xì)胞結(jié)構(gòu)和形態(tài)如何影響或控制細(xì)胞的行為。”美國(guó)國(guó)家x射線斷層掃描中心主任、加州大學(xué)舊金山分校醫(yī)學(xué)院的教授Carolyn Larabell說:“我們花了大量的時(shí)間來手工分割細(xì)胞,以提取結(jié)構(gòu),并識(shí)別出健康與患病細(xì)胞之間的差異。”“這種新方法有可能從根本上改變我們理解疾病的能力,并且是我們新的Chan-Zuckerberg贊助的建立Human Cell Atlas項(xiàng)目的關(guān)鍵工具,該項(xiàng)目是一項(xiàng)全球合作項(xiàng)目,用于繪制健康人體中所有細(xì)胞身體。”
從更少的數(shù)據(jù)中獲取更多的科學(xué)
圖像無處不在。智能手機(jī)和傳感器已經(jīng)產(chǎn)生了一批珍貴的圖片,其中很多都帶有相關(guān)的信息。使用這個(gè)交叉參考圖像的龐大數(shù)據(jù)庫,卷積神經(jīng)網(wǎng)絡(luò)和其他機(jī)器學(xué)習(xí)方法已經(jīng)徹底改變了我們快速識(shí)別那些看起來像之前看到和被分類的自然圖像的能力。
這些方法通過調(diào)整一組驚人的隱藏內(nèi)部參數(shù)來“學(xué)習(xí)”,這些隱藏的內(nèi)部參數(shù)由數(shù)以百萬計(jì)的被標(biāo)記的圖像引導(dǎo),并且需要大量的超級(jí)計(jì)算機(jī)時(shí)間。但是如果你沒有那么多的標(biāo)記圖像呢?在許多領(lǐng)域,這樣的數(shù)據(jù)庫是無法實(shí)現(xiàn)的奢侈品。生物學(xué)家記錄下了細(xì)胞的圖像,并煞費(fèi)苦心地用手勾勒出邊界和結(jié)構(gòu):一個(gè)人花數(shù)周時(shí)間想出一個(gè)完全三維的圖像是很正常的。材料科學(xué)家利用斷層重建技術(shù)來觀察巖石和材料,然后卷起他們的袖子來標(biāo)記不同的區(qū)域,用手識(shí)別裂縫和空隙。不同但重要的結(jié)構(gòu)之間的對(duì)比往往非常小,數(shù)據(jù)中的“噪音”可以掩蓋特征,混淆了最佳算法。
這些珍貴的手工制作的圖像在傳統(tǒng)的機(jī)器學(xué)習(xí)方法中還遠(yuǎn)遠(yuǎn)不夠。為了迎接這一挑戰(zhàn),CAMERA的數(shù)學(xué)家們從非常有限的數(shù)據(jù)中攻克了機(jī)器學(xué)習(xí)的問題。他們?cè)噲D用更少的方法做“更多”,他們的目標(biāo)是找出如何建立一套高效的數(shù)學(xué)“運(yùn)算符”,這樣可以大大減少參數(shù)的數(shù)量。這些數(shù)學(xué)運(yùn)算符可能會(huì)自然地結(jié)合關(guān)鍵約束來幫助識(shí)別,例如,包括對(duì)科學(xué)合理形狀和模式的要求。
左圖:具有縮放操作的常見DCNN體系結(jié)構(gòu)的示意圖; 向下箭頭表示縮小操作,向上箭頭表示放大操作,而虛線箭頭表示跳過連接。右圖:w = 2和d = 3的MS-D網(wǎng)絡(luò)的示意圖; 彩色線代表3x3擴(kuò)張卷積,每種顏色對(duì)應(yīng)不同的膨脹:所有特征圖用于最終輸出計(jì)算。
混合尺度密集卷積神經(jīng)網(wǎng)絡(luò)
機(jī)器學(xué)習(xí)在成像問題上的許多應(yīng)用都使用深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN),其中輸入圖像和中間圖像在大量的連續(xù)層中進(jìn)行卷積,使得網(wǎng)絡(luò)能夠?qū)W習(xí)高度非線性的特征。為了在困難的圖像處理問題上獲得準(zhǔn)確的結(jié)果,DCNN通常依賴于額外的操作和連接的組合,例如,縮小和放大操作以捕獲各種圖像尺度的特征。為了訓(xùn)練更深層和更強(qiáng)大的網(wǎng)絡(luò),通常需要額外的圖層類型和連接。最后,DCNN通常使用大量的中間圖像和可訓(xùn)練的參數(shù)(通常超過1億),以達(dá)到解決難題的結(jié)果。
取而代之的是,新的“混合比例密集”網(wǎng)絡(luò)結(jié)構(gòu)避免了許多這樣的復(fù)雜性,并將擴(kuò)張的卷積計(jì)算為縮放操作的替代,以捕獲各種空間范圍的特征,在單個(gè)層中使用多個(gè)尺度,并將所有中間圖像緊密地連接起來。新的算法獲得精確的結(jié)果,中間的圖像和參數(shù)很少,同時(shí)消除了需要調(diào)整超參數(shù)和附加的圖層或連接以支持訓(xùn)練。
從低分辨率數(shù)據(jù)獲取高分辨率科學(xué)
另一個(gè)挑戰(zhàn)是從低分辨率輸入產(chǎn)生高分辨率圖像。任何試圖放大一張小照片的人都會(huì)發(fā)現(xiàn),隨著它越來越大,它變得越來越糟,這聽起來幾乎是不可能的。但是用混合密度密集網(wǎng)絡(luò)處理的一小部分訓(xùn)練圖像可以提供真正的進(jìn)展。舉個(gè)例子,想象一下,試著去對(duì)纖維增強(qiáng)的微型復(fù)合材料的層析重建。在本文描述的實(shí)驗(yàn)中,使用1024個(gè)獲得的X射線投影來重建圖像以獲得具有相對(duì)低噪聲量的圖像。然后通過使用128個(gè)投影重建來獲得同一對(duì)象的噪聲圖像。訓(xùn)練輸入是嘈雜的圖像,相應(yīng)的無噪聲圖像用作訓(xùn)練期間的目標(biāo)輸出。經(jīng)過訓(xùn)練的網(wǎng)絡(luò)能夠有效地獲取噪聲輸入數(shù)據(jù)并重構(gòu)更高分辨率的圖像。
新應(yīng)用程序
Pelt和Sethian正在將他們的方法應(yīng)用到許多新領(lǐng)域,例如快速實(shí)時(shí)分析來自同步加速器光源的圖像以及生物重建中的重建問題,例如細(xì)胞和腦圖。
Pelt說:“這些新方法非常令人興奮,因?yàn)樗鼈儗⑹箼C(jī)器學(xué)習(xí)的應(yīng)用范圍變得比目前可能出現(xiàn)的多種成像問題多得多,”“通過減少所需訓(xùn)練圖像的數(shù)量,增加可以處理的圖像的大小,新的體系結(jié)構(gòu)可以用來回答許多研究領(lǐng)域的重要問題?!?/p>
本文為編譯文章,轉(zhuǎn)載請(qǐng)注明出處。
來源:atyun_com
來源網(wǎng)址:http://www.atyun.com/16621_極簡(jiǎn)主義機(jī)器學(xué)習(xí)算法可從極小數(shù)據(jù)中分析圖&=6.html