2021-11-05

Nature | AI工具Eve預(yù)測基因變的與3219種疾病的相關(guān)性

原創(chuàng)?圖靈基因?圖靈基因?今天

收錄于話題#前沿分子生物學(xué)技術(shù)

了解人類基因組中豐富的基因變異對疾病的影響有可能會改變醫(yī)療保健,但盡管我們可能知道一些特定基因突變的后果,但我們解釋通過基因組測序確定的數(shù)百萬基因變異含義的能力仍然是一個挑戰(zhàn)。


哈佛醫(yī)學(xué)院和牛津大學(xué)的研究人員現(xiàn)在開發(fā)了一種稱為EVE(變異效應(yīng)的進(jìn)化模型)的人工智能(AI)工具,它使用一種復(fù)雜的機(jī)器學(xué)習(xí)來檢測數(shù)十萬非人類物種的遺傳變異模式,然后用它們來預(yù)測人類基因變異的意義。


在《Nature》雜志上發(fā)表的一項研究中,研究小組利用EVE評估了多個物種的3600萬個蛋白質(zhì)序列和3219個疾病相關(guān)基因。他們的研究結(jié)果表明,事實上,256000個先前確定的、目前意義未知的人類基因變異應(yīng)該重新歸類為良性或致病性。雖然研究人員強(qiáng)調(diào)EVE不是一種診斷測試,但他們表示EVE可以增強(qiáng)遺傳學(xué)家和其他內(nèi)科醫(yī)生目前用于診斷、預(yù)測疾病進(jìn)展、甚至根據(jù)某些致病基因突變的存在選擇治療的臨床工具?!霸絹碓蕉嗟娜丝梢詫ζ浠蚪M進(jìn)行測序,但理解數(shù)據(jù)并不總是那么簡單?!痹撗芯康馁Y深作者、HMS Blavatnik研究所系統(tǒng)生物學(xué)副教授Debora Marks博士說,“關(guān)于它對疾病或疾病進(jìn)展的可能性意味著什么的信息非常少……我們相信我們的方法可以作為當(dāng)前臨床評估的補(bǔ)充工具,并提供一種強(qiáng)大的新方法來減少不確定性和明確決策,特別是在臨床環(huán)境中?!?/p>


Marks與牛津大學(xué)的同事Yarin Gal博士,共同第一作者Jonathan Frazer博士,哈佛醫(yī)學(xué)院的Mafalda Dias博士,以及牛津大學(xué)的Pascal Notin共同領(lǐng)導(dǎo)了這項報告的研究。在題為“Disease variant prediction with deep generative models of evolutionary data”的科學(xué)家們的報告中,他們總結(jié)道,“我們的工作表明,進(jìn)化信息模型可以為變異解釋提供有價值的獨立證據(jù),這將在研究和臨床環(huán)境中大有裨益?!?/p>



沒有兩個人是完全相同的,這是編碼在每個人DNA獨特排列中的生物奇點。但盡管這種基因變異是推動多樣性的生物學(xué)基本特征,是進(jìn)化的引擎,但它也有陰暗的一面。



DNA序列和由此產(chǎn)生的構(gòu)建細(xì)胞的蛋白質(zhì)的改變有時會導(dǎo)致生理功能的嚴(yán)重破壞并導(dǎo)致疾病。但了解哪些變異對疾病產(chǎn)生影響是一個巨大的挑戰(zhàn),將人類基因組中的特定變化與疾病聯(lián)系起來仍然困擾著臨床遺傳學(xué)領(lǐng)域,因為人類群體中變異的數(shù)量使科學(xué)家能夠調(diào)查的數(shù)量相形見絀。



盡管只對一小部分人進(jìn)行了測序,但研究人員已經(jīng)發(fā)現(xiàn)了數(shù)百萬個意義尚不清楚的變異。在這些變異中,只有2%被歸類為良性、中性或致病性。其余98%的已鑒定基因變異目前被認(rèn)為具有“未知的意義”?!叭祟惢蚪M測序的指數(shù)級增長突顯了人類群體中的大量基因變異……量化人類疾病相關(guān)基因中蛋白質(zhì)變異的致病性將對臨床決策產(chǎn)生顯著影響,但這些變異中的絕大多數(shù)(超過98%)仍然有未知的后果……將基因組中的特定變化與疾病表型聯(lián)系起來仍然是一個公開的挑戰(zhàn),因為人類群體中的變異數(shù)量超過了我們能夠調(diào)查的數(shù)量?!?/p>



準(zhǔn)確解釋基因變異意義的風(fēng)險是巨大的。將良性變異解讀為致病因素可能會導(dǎo)致錯誤診斷,從而引發(fā)一系列進(jìn)一步的檢測和可能不必要的醫(yī)療干預(yù)。相反,當(dāng)觀察、進(jìn)一步檢測或預(yù)防措施可能被強(qiáng)制執(zhí)行時,將促進(jìn)疾病的DNA變異誤解為良性可能會提供錯誤的保證。



研究小組指出,在人類基因組中,僅蛋白質(zhì)編碼區(qū)域就包含了人與人之間的巨大差異,迄今為止,已觀察到650萬個錯義變異。這些所謂的錯義突變可能對蛋白質(zhì)的功能沒有影響,或者可能引起蛋白質(zhì)功能失調(diào),導(dǎo)致疾病。事實上,研究人員估計,除了居住在地球上的80億人的基因組中致命的蛋白質(zhì)位置外,每個蛋白質(zhì)位置都可能存在變異。



研究人員說:“在很多方面,一個人不僅僅擁有一個基因組。一個基因的一個拷貝上可能有不同的變體,隨著年齡的增長,會發(fā)生各種各樣的體細(xì)胞變異——不僅與癌癥的發(fā)展有關(guān),而且與神經(jīng)退行性變有關(guān),這兩者都是由突變驅(qū)動的與年齡相關(guān)的過程。”



研究人員已經(jīng)確定了許多與疾病相關(guān)的基因,這些基因的突變具有臨床疾病的高風(fēng)險。其中包括用于乳腺癌和卵巢癌的BRCA1和BRCA2,以及用于一系列癌癥的腫瘤抑制基因p53。但即使是這些基因也顯示出其他未經(jīng)研究的突變,其意義尚不清楚。研究人員說,所有這些都迫切需要澄清人類基因變異的重要性,在這個過程中,計算將在提供答案方面發(fā)揮越來越重要的作用。


神經(jīng)網(wǎng)絡(luò)的一個決定性特征是,它們能夠在新數(shù)據(jù)可用時不斷重新評估和更新假設(shè)的概率。這意味著神經(jīng)網(wǎng)絡(luò)可以使用新的知識重新評估證據(jù),因此可以檢測傳統(tǒng)方法遺漏的模式和意義。


在當(dāng)前的研究中,研究人員使用了一種稱為無監(jiān)督機(jī)器學(xué)習(xí)(unsupervised machine learning)的復(fù)雜分析方法,這是一種人工智能形式,它不基于預(yù)定義的參數(shù)和規(guī)則,而是涉及自適應(yīng)學(xué)習(xí)。這意味著,當(dāng)呈現(xiàn)新數(shù)據(jù)時,機(jī)器學(xué)習(xí)算法將隨著時間的推移更好地識別模式。相比之下,在有監(jiān)督的機(jī)器學(xué)習(xí)中,算法學(xué)習(xí)從預(yù)先標(biāo)記的數(shù)據(jù)中檢測模式——它的訓(xùn)練是有監(jiān)督的。


在信息學(xué)家給出的一個經(jīng)典示例中,該算法使用貓和狗的圖像,并在識別未標(biāo)記的貓和狗圖像之前告知哪些是哪些圖像。在無監(jiān)督機(jī)器學(xué)習(xí)中,該算法被給出一組貓和狗的圖像,而不告訴它們哪個是哪個。它必須自己識別模式。研究人員進(jìn)一步指出:“因為算法不需要事先知道哪些圖像是貓,哪些圖像是狗,它只需要一組貓和狗的圖像,所以無法使用它不應(yīng)該知道的信息?!?/p>


兩種類型的機(jī)器學(xué)習(xí)都為特定任務(wù)提供了優(yōu)勢。無監(jiān)督模型的一個優(yōu)點是,通過向他們提供預(yù)先標(biāo)記的數(shù)據(jù),不可能使他們的學(xué)習(xí)產(chǎn)生偏差。此外,它們還可以隨著數(shù)據(jù)的變化進(jìn)行調(diào)整,以執(zhí)行更復(fù)雜的分析。研究人員說,目前大多數(shù)用于評估基因變異重要性的計算方法都采用基于臨床標(biāo)簽的監(jiān)督訓(xùn)練,這可能會使這些工具產(chǎn)生偏差,并導(dǎo)致現(xiàn)實世界中預(yù)測的準(zhǔn)確性過高?!霸瓌t上,計算方法可以支持對遺傳變異的大規(guī)模解釋。然而,最先進(jìn)的方法依賴于對已知疾病標(biāo)簽的機(jī)器學(xué)習(xí)模型進(jìn)行訓(xùn)練。由于這些標(biāo)簽稀疏、有偏見且質(zhì)量參差不齊,因此產(chǎn)生的模型被認(rèn)為不夠可靠?!?/p>


正是無監(jiān)督機(jī)器學(xué)習(xí)從以前從未遇到過的數(shù)據(jù)中檢測新模式的能力,使得這種方法特別適合于分析非人類的基因序列。多年來,科學(xué)家們一直使用比較遺傳學(xué)來檢測DNA或蛋白質(zhì)序列中的相似區(qū)域,從而得出其意義。哈佛-牛津大學(xué)的研究小組使用神經(jīng)網(wǎng)絡(luò)在更大范圍內(nèi)實現(xiàn)了這一目標(biāo)。


在他們報告的研究中,研究人員重新審視了這個概念,即通過研究多個物種的遺傳變異,他們可能會收集到關(guān)于人類變異重要性的線索。“根據(jù)無監(jiān)督生成模型的最新發(fā)展,我們重新審視了進(jìn)化信息的臨床價值?!彼麄冎赋觥_M(jìn)化傾向于保留對物種的功能和生存至關(guān)重要或至少重要的特征。因此,跨物種重復(fù)出現(xiàn)的氨基酸排列是生物學(xué)重要性的標(biāo)志,,表明它們對生物體的功能及其進(jìn)化適應(yīng)性很重要。因此,改變這種高度保守的序列可能會帶來麻煩,并與致病性有關(guān)。


該計算方法分析了14萬個物種的數(shù)據(jù),包括瀕危和滅絕的生物,并有效地尋找進(jìn)化上保守的模式以得出結(jié)論。“我們的方法——EVE——從物種間序列變異的分布中了解人類錯義變異的致病傾向。”該團(tuán)隊寫道?!皬倪M(jìn)化角度講,這些物種離我們還有很長的路要走,并且存在許多遺傳差異,但綜合起來,它們?yōu)槲覀兲峁┝诵畔??!毖芯咳藛T說,“這就是為什么該模型在與人類和人類變異相關(guān)的模式方面如此強(qiáng)大。”


在對2.5億個蛋白質(zhì)序列進(jìn)行訓(xùn)練后,EVE估計了每個單一氨基酸變異是良性還是致病性的可能性。為了確定EVE是否做出了準(zhǔn)確的預(yù)測,研究人員將其分?jǐn)?shù)與已知意義的已確定的人類突變進(jìn)行了比較。研究小組發(fā)現(xiàn),該工具的結(jié)果與臨床數(shù)據(jù)非常一致。


接下來,研究人員將EVE應(yīng)用于一組3219個與疾病相關(guān)的人類基因。研究人員說,EVE對所有基因的突變是致病性的還是良性的做出了正確的判斷,包括60個“臨床上可行”的基因。當(dāng)研究人員將EVE的表現(xiàn)與其他有監(jiān)督和無監(jiān)督工具進(jìn)行比較時,它顯示出明顯更高的預(yù)測準(zhǔn)確性。事實上,分析表明,EVE在預(yù)測臨床效果方面優(yōu)于其他計算預(yù)測模型,并且得分與目前測試突變對生物功能影響的金標(biāo)準(zhǔn)高通量實驗一樣高或更好。“EVE在預(yù)測已知的臨床標(biāo)簽方面優(yōu)于所有有監(jiān)督和無監(jiān)督的方法。”該團(tuán)隊表示。


但是,與評估基因突變?nèi)绾斡绊懮砉δ艿慕饦?biāo)準(zhǔn)——實際臨床實驗的結(jié)果相比,EVE的預(yù)測結(jié)果如何?為了回答這個問題,研究小組將EVE的分?jǐn)?shù)與臨床實驗的結(jié)果進(jìn)行了比較,這些實驗涉及五種基因的突變,其中包括與各種癌癥、幾種癌癥綜合征和心律失常相關(guān)的基因。EVE的預(yù)測與實驗數(shù)據(jù)中的當(dāng)前標(biāo)簽重疊?!拔覀兊哪P虴VE…不僅優(yōu)于依賴標(biāo)記數(shù)據(jù)的計算方法,而且與高通量實驗的預(yù)測相當(dāng),甚至更好,它被越來越多地用作變異分類的證據(jù)……我們的方法優(yōu)于實驗方法的主要優(yōu)勢是,以可忽略不計的成本在范圍內(nèi)獲得了顯著的收益?!?/p>


“我們的結(jié)果比預(yù)期的要好得多。似乎通過簡單地訓(xùn)練一個模型來擬合整個進(jìn)化過程中序列的分布,我們就能提取信息,從而使我們能夠?qū)o定基因變異引起的疾病風(fēng)險做出出乎意料的精確預(yù)測?!毖芯咳藛T說。


EVE與現(xiàn)有方法相比的一個顯著優(yōu)勢是,EVE與現(xiàn)有方法相比的一個顯著優(yōu)勢是,它分配的是連續(xù)分?jǐn)?shù),而不是二進(jìn)制分?jǐn)?shù)。這是因為,即使基因變異被標(biāo)記為良性或致病性,突變在生理上的表現(xiàn)方式也更為微妙。


“有一個完整的致病性連續(xù)體?!毖芯咳藛T說,“連續(xù)評分對于預(yù)測致病性水平非常重要。突變是意味著我的小腳趾會痛,還是明天就會死了?”


該工具的另一個重要方面是,它在逐個基因的基礎(chǔ)上分配預(yù)測分?jǐn)?shù)的置信度。這可以幫助臨床醫(yī)生對任何預(yù)測的確定程度進(jìn)行相關(guān)分析。換句話說,對于每一種基因變異,EVE都會告訴專家他們可以相信它的判斷。研究人員說,這是一個可信度和對模型的信心問題。


“我們希望這種方法能夠產(chǎn)生強(qiáng)大的數(shù)據(jù),使一線臨床醫(yī)生能夠做出正確的診斷、預(yù)后和治療決策。”研究人員說,“我們不僅為臨床醫(yī)生提供了一個數(shù)字,還為他們提供了隨之而來的不確定性程度。這是專家在決策過程中可以采取和使用的東西。該工具可以說,‘我認(rèn)為那個變異屬于那一堆,但我以前從未見過任何類似的變異,所以請謹(jǐn)慎對待?!蛘咴摴ぞ咭部梢哉f,‘我認(rèn)為其他變異屬于這一堆,我見過與過去非常相似的變體,我看到它們屬于這一堆,因此我將非常自信地將它分配到這一堆?!诠ぞ吆蛯<抑g建立信任是這項工作的一個重要方面。”


研究人員說,這種類型的建模仍處于起步階段,很明顯,進(jìn)化和基因變異仍然可以教會我們很多關(guān)于疾病的知識,他們還計劃將這項工作擴(kuò)展到蛋白質(zhì)編碼區(qū)以外的基因組其他部分。然而,他們總結(jié)道,“一個吸引人的前景是,我們的方法可能有助于指導(dǎo)未來的實驗工作,基本上可以作為一種確定哪些變異和哪些基因最能提供信息的手段?!?/p>


近期的一項緊迫任務(wù)是將我們確實了解的遺傳變異進(jìn)行臨床應(yīng)用。為此,研究人員已經(jīng)與一家基因組測序公司合作,并通過Chan ZuckerbergInitiative與各個團(tuán)體合作。


該團(tuán)隊還參與了變異效應(yīng)圖譜聯(lián)盟(Atlas of Variant Effects Alliance),這是一項全球研究工作,任務(wù)是繪制整個基因組的變異效應(yīng)圖,并創(chuàng)建所有可能的人類基因變異及其對蛋白質(zhì)功能和生理學(xué)影響的綜合圖譜。這項工作的最終目標(biāo)是改善人類疾病的診斷、預(yù)后和治療。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容