姓名:付盼龍
轉(zhuǎn)載至人工智能觀察
【嵌牛導(dǎo)讀】今天,距科學(xué)家首次對人類基因組進(jìn)行測序已有15年之久,但是對人類來說,理解編碼生命的海量基因數(shù)據(jù)仍是一個巨大的挑戰(zhàn)。但是,不得不說,這正是機器學(xué)習(xí)所擅長的領(lǐng)域。本周一,谷歌發(fā)布了一款名為DeepVariant的工具,旨在利用最新的人工智能技術(shù),從測序數(shù)據(jù)中構(gòu)建出一個更精準(zhǔn)的個人基因組圖譜。
【嵌牛提問】未來AI可以用于醫(yī)學(xué)嗎?
【嵌牛鼻子】人類基因組? 圖譜
【嵌牛正文】
DeepVariant有助于將高通量測序(high-throughput sequencing;HTS)的讀數(shù)轉(zhuǎn)化為完整的基因組圖片。此外,它還能自動識別出在測序數(shù)據(jù)中插入和刪除的突變或單堿基對突變。
突破傳統(tǒng)方式測序不完整等問題
高通量測序在2000年初得到廣泛應(yīng)用,并使基因組測序變得更加容易。
但是,高通量測序出來的結(jié)果不是完整的,而是碎片化的片段信息。對科學(xué)家來說,將小的突變與在測序過程中產(chǎn)生的隨機錯誤區(qū)分開來是很困難的,尤其是在基因組的重復(fù)部分。這些突變可能與癌癥等疾病直接相關(guān)。
實際上,有許多的工具可以用來解釋這些讀數(shù),比如GATK, VarDict和FreeBayes。然而, 這些軟件程序通常使用更簡單的統(tǒng)計和機器學(xué)習(xí)的方法來識別突變,嘗試排除錯誤信息。
哈佛大學(xué)公共衛(wèi)生學(xué)院的研究科學(xué)家Brad Chapman表示:“我們面臨的挑戰(zhàn)之一也是基因組的困難部分,每種工具都有各自的優(yōu)點和缺點?!盉rad Chapman曾對早期版本的DeepVariant進(jìn)行過測試。“這些困難部分對臨床測序越來越重要,通過多種方式對其進(jìn)行檢測,也是很重要的。”

這個團(tuán)隊從瓶中基因組聯(lián)盟(Genome in a Bottle;GIAB)項目中收集了數(shù)以百萬計的高通量讀取和全測序基因組。GIAB是一個公私合作的項目,目的是促進(jìn)基因組測序工具和技術(shù)的發(fā)展。
他們將數(shù)據(jù)輸入到一個深度學(xué)習(xí)的系統(tǒng)中,并煞費苦心地調(diào)整模型參數(shù),直到它學(xué)會以較高的緊缺度來解釋序列數(shù)據(jù)。
“DeepVarient的成功是很重要的,因為它表明,在基因組學(xué)中,深度學(xué)習(xí)可以被用來自動訓(xùn)練比復(fù)雜的手工程系統(tǒng)更好的平臺?!盌eep Genomics公司的首席執(zhí)行官Brendan Frey說道。
DeepVariant的發(fā)布是機器學(xué)習(xí)有望促進(jìn)基因組學(xué)發(fā)展的最新跡象。
Deep Genomics是嘗試通過人工智能方法,比如深度學(xué)習(xí),來識別疾病的遺傳原因并尋找潛在的藥物療法的眾多公司之一。
人工智能將幫助醫(yī)生突破醫(yī)學(xué)鴻溝
Frey表示,人工智能最終將遠(yuǎn)遠(yuǎn)超越基因組數(shù)據(jù)的序列。他說:“目前阻礙醫(yī)學(xué)的鴻溝在于我們無法準(zhǔn)確地將基因變異與疾病機制進(jìn)行精確的映射,并利用這些知識快速識別出拯救生命的治療方法。”
這一領(lǐng)域的另一家知名公司是明碼生物科技(Wuxi Nextcode),它在上海、冰島、劍橋和馬薩諸塞州均設(shè)有辦事處。Wuxi Nextcode已經(jīng)積累了世界上最大的人類基因組序列,而且該公司正在大力投資機器學(xué)習(xí)。

? ? ? ? 總的來說,在未來的幾年里,人工智能將幫助醫(yī)學(xué)的許多領(lǐng)域產(chǎn)生巨大的進(jìn)步。我們有機會從圖像或醫(yī)療記錄中挖掘出更多不同種類的醫(yī)療數(shù)據(jù),比如,預(yù)測人類醫(yī)生可能會錯過的疾病。