
關(guān)鍵詞:多組學(xué);蛋白質(zhì);錯(cuò)誤標(biāo)記;
引言
在日常生活中,會(huì)經(jīng)常遇到物品與標(biāo)簽錯(cuò)誤的問題,比如超市商品標(biāo)價(jià)錯(cuò)誤、圖書館書籍分類錯(cuò)誤等。都會(huì)造成一些后果。在生物醫(yī)學(xué)研究領(lǐng)域中,蛋白質(zhì)樣本標(biāo)記錯(cuò)誤同樣是一個(gè)普遍存在的問題。特別是在現(xiàn)代高通量組學(xué)研究中,由于實(shí)驗(yàn)流程復(fù)雜、樣本數(shù)量龐大,標(biāo)記錯(cuò)誤的情況更為常見。這些錯(cuò)誤不僅會(huì)浪費(fèi)昂貴的實(shí)驗(yàn)資源,更可能導(dǎo)致研究結(jié)論的錯(cuò)誤,影響后續(xù)的臨床決策。
以下的文章,主要為大家介紹一個(gè)樣本錯(cuò)誤標(biāo)記自動(dòng)檢測(cè)與糾正工具COSMO,以及它在多組學(xué)研究中的應(yīng)用價(jià)值。
文獻(xiàn)介紹
標(biāo)題(英文):A community effort to identify and correct mislabeled samples in proteogenomic studies
標(biāo)題(中文):社區(qū)努力識(shí)別和糾正蛋白質(zhì)基因組研究中標(biāo)簽錯(cuò)誤的樣本
發(fā)表期刊:Patterns
作者單位:西奈山伊坎醫(yī)學(xué)院、Sentieon 公司等
發(fā)表年份:2021
文章地址:https://doi.org/10.1016/j.patter.2021.100245

隨著TCGA和CPTAC等大型項(xiàng)目推動(dòng)多組學(xué)研究的深入開展,數(shù)據(jù)量和復(fù)雜度顯著提升,但人為錯(cuò)誤導(dǎo)致的樣本標(biāo)記問題也隨之凸顯。雖然在遺傳和基因組數(shù)據(jù)方面已有多種檢測(cè)方法,但這些方法難以直接應(yīng)用于特性不同的蛋白質(zhì)組數(shù)據(jù)。
為解決這一問題,precisionFDA和NCI-CPTAC發(fā)起了"多組學(xué)樣本錯(cuò)誤標(biāo)記糾正挑戰(zhàn)賽",旨在開發(fā)自動(dòng)化工具來檢測(cè)和糾正蛋白質(zhì)基因組數(shù)據(jù)集中的錯(cuò)誤標(biāo)記。
本次挑戰(zhàn)賽基于181個(gè)結(jié)直腸癌腫瘤樣本的RNA測(cè)序、蛋白質(zhì)組學(xué)和臨床數(shù)據(jù)展開。通過隨機(jī)抽樣創(chuàng)建訓(xùn)練和測(cè)試數(shù)據(jù)集,并在數(shù)據(jù)集中故意引入錯(cuò)誤標(biāo)記,用于測(cè)試參與者的檢測(cè)和糾正能力。
挑戰(zhàn)賽分為兩個(gè)子挑戰(zhàn):第一個(gè)子挑戰(zhàn)要求參與者基于臨床和蛋白質(zhì)組數(shù)據(jù)檢測(cè)不匹配樣本;第二個(gè)子挑戰(zhàn)增加RNA-seq數(shù)據(jù),要求參與者檢測(cè)問題樣本、識(shí)別錯(cuò)誤數(shù)據(jù)類型并進(jìn)行糾正。
測(cè)序流程
來自15個(gè)國(guó)家的52個(gè)團(tuán)隊(duì)參與比賽。結(jié)果顯示,處理蛋白質(zhì)組數(shù)據(jù)的缺失值時(shí),使用0替換的策略表現(xiàn)最佳。在模型構(gòu)建方面,子挑戰(zhàn)1表現(xiàn)較好的團(tuán)隊(duì)都結(jié)合了邏輯回歸(LR)、隨機(jī)森林(RF)和KNN等方法。
子挑戰(zhàn)2的結(jié)果證明,多組學(xué)數(shù)據(jù)整合能提供更準(zhǔn)確的錯(cuò)誤檢測(cè)。前三名團(tuán)隊(duì)均采用基于Pearson或Spearman的相關(guān)性分析進(jìn)行數(shù)據(jù)匹配,并使用熱圖可視化輔助標(biāo)簽糾正。其中,來自隆德大學(xué)、萊特州立大學(xué)和Sentieon公司的團(tuán)隊(duì)表現(xiàn)最佳。

挑戰(zhàn)賽結(jié)束后,表現(xiàn)最佳的三個(gè)團(tuán)隊(duì)進(jìn)行后續(xù)合作。通過對(duì)原始50個(gè)訓(xùn)練/測(cè)試數(shù)據(jù)集的評(píng)估,萊特州立大學(xué)和Sentieon公司展現(xiàn)出優(yōu)異的表現(xiàn),平均F1分?jǐn)?shù)為0.9,明顯優(yōu)于基線方法的0.68。而隆德大學(xué)團(tuán)隊(duì)由于難以將人工檢查轉(zhuǎn)化為自動(dòng)流程,整體表現(xiàn)相對(duì)較弱。
為模擬真實(shí)場(chǎng)景,研究人員基于結(jié)腸數(shù)據(jù)創(chuàng)建了50個(gè)具有不同錯(cuò)誤標(biāo)記率和模式的新數(shù)據(jù)集。只有萊特州立大學(xué)的方法成功適應(yīng),F(xiàn)1分?jǐn)?shù)為0.92。通過整合萊特州立大學(xué)和Sentieon公司的方法,檢測(cè)和糾正錯(cuò)誤的準(zhǔn)確性得到進(jìn)一步提升。

基于這些發(fā)現(xiàn),研究團(tuán)隊(duì)開發(fā)了自動(dòng)化工具COSMO,結(jié)合了萊特州立大學(xué)的整體流程和Sentieon公司的臨床屬性預(yù)測(cè)算法,COSMO在腎癌研究數(shù)據(jù)集的驗(yàn)證中展現(xiàn)出極高的準(zhǔn)確性,F(xiàn)1分?jǐn)?shù)中位數(shù)達(dá)0.99。即使錯(cuò)誤率>20%的情況下仍能保持出色表現(xiàn),F(xiàn)1分?jǐn)?shù)大于0.9。
COSMO在六個(gè)獨(dú)立的多組學(xué)數(shù)據(jù)集中進(jìn)行了實(shí)際應(yīng)用驗(yàn)證。在已知存在錯(cuò)誤標(biāo)記的三個(gè)人類腫瘤數(shù)據(jù)集中,COSMO成功識(shí)別出CPTAC肺癌數(shù)據(jù)集(preQC CPTAC LUAD)中四對(duì)互換樣本、CPTAC腎癌數(shù)據(jù)集(preQC CPTAC CCRCC)中三個(gè)錯(cuò)誤標(biāo)記樣本,以及TCGA乳腺癌數(shù)據(jù)集(TCGA BRCA)中八對(duì)互換樣本。
在此前未報(bào)告錯(cuò)誤的三個(gè)數(shù)據(jù)集中,COSMO的應(yīng)用也取得了重要發(fā)現(xiàn)。雖然CCLE細(xì)胞系數(shù)據(jù)顯示完全對(duì)齊,但在人類淋巴母細(xì)胞系研究中發(fā)現(xiàn)了RNA-seq數(shù)據(jù)的兩個(gè)樣本互換和蛋白質(zhì)組的一個(gè)重復(fù)樣本。在外繁小鼠肝臟研究中,COSMO檢測(cè)到了九對(duì)互換樣本。

研究表明樣本錯(cuò)誤標(biāo)記的糾正對(duì)生物學(xué)結(jié)論有重要影響。以CPTAC肺癌研究為例,糾正樣本標(biāo)記后,差異表達(dá)蛋白的數(shù)量從160個(gè)增加到584個(gè)。并提高了檢測(cè)性別相關(guān)通路的能力。
在免疫熱/冷腫瘤分析中,錯(cuò)誤糾正后不僅識(shí)別出比糾錯(cuò)前多20%的差異表達(dá)蛋白,還揭示了其他與免疫反應(yīng)相關(guān)的重要通路。

在多組學(xué)分析方面,COSMO的糾正同樣帶來顯著的改善效果。在CPTAC肺癌研究中,修復(fù)了7.5%的錯(cuò)誤標(biāo)記就使85%基因的mRNA-蛋白質(zhì)相關(guān)性得到提升,還發(fā)現(xiàn)267個(gè)新增的顯著相關(guān)基因,包括多個(gè)重要的癌癥相關(guān)基因。即使在錯(cuò)誤率為3.5%的CPTAC腎癌數(shù)據(jù)集中,糾正后也觀察到了62%基因的相關(guān)性提升。
在外繁小鼠研究中,基于COSMO糾正后的數(shù)據(jù)重新進(jìn)行pQTL分析,發(fā)現(xiàn)遺傳變異對(duì)蛋白質(zhì)組的影響更強(qiáng)烈,新分析多識(shí)別出了497個(gè)局部pQTL。

Sentieon 軟件團(tuán)隊(duì)擁有豐富的軟件開發(fā)及算法優(yōu)化工程經(jīng)驗(yàn),致力于解決生物數(shù)據(jù)分析中的速度與準(zhǔn)確度瓶頸,為來自于分子診斷、藥物研發(fā)、臨床醫(yī)療、人群隊(duì)列、動(dòng)植物等多個(gè)領(lǐng)域的合作伙伴提供高效精準(zhǔn)的軟件解決方案,共同推動(dòng)基因技術(shù)的發(fā)展。截至 2023 年 3 月份,Sentieon 已經(jīng)在全球范圍內(nèi)為 1300+用戶提供服務(wù),被世界一級(jí)影響因子刊物如 NEJM、Cell、Nature 等廣泛引用,引用次數(shù)超過 700 篇。此外,Sentieon 連續(xù)數(shù)年摘得了 Precision FDA、Dream Challenges 等多個(gè)權(quán)威評(píng)比的桂冠,在業(yè)內(nèi)獲得廣泛認(rèn)可。
總結(jié)
雖然研究仍存在著一些局限性,如:訓(xùn)練集和測(cè)試集不是完全獨(dú)立的,因此不能保證獲勝解決方案的泛化能力。使用單一的數(shù)據(jù)集來進(jìn)行性能驗(yàn)證限制了評(píng)估結(jié)果的穩(wěn)定性等。
但研究展示了COSMO在處理不同類型組學(xué)平臺(tái)、不同生物體以及各類研究中的通用性和可靠性,證明了COSMO作為自動(dòng)化解決方案的價(jià)值。也凸顯了樣本錯(cuò)誤標(biāo)記糾正對(duì)提高組學(xué)研究準(zhǔn)確性的重要性。