Sentieon 項(xiàng)目文獻(xiàn)-社區(qū)努力識(shí)別和糾正蛋白質(zhì)基因組研究中標(biāo)簽錯(cuò)誤的樣本

關(guān)鍵詞:多組學(xué);蛋白質(zhì);錯(cuò)誤標(biāo)記;


引言

在日常生活中,會(huì)經(jīng)常遇到物品與標(biāo)簽錯(cuò)誤的問題,比如超市商品標(biāo)價(jià)錯(cuò)誤、圖書館書籍分類錯(cuò)誤等。都會(huì)造成一些后果。在生物醫(yī)學(xué)研究領(lǐng)域中,蛋白質(zhì)樣本標(biāo)記錯(cuò)誤同樣是一個(gè)普遍存在的問題。特別是在現(xiàn)代高通量組學(xué)研究中,由于實(shí)驗(yàn)流程復(fù)雜、樣本數(shù)量龐大,標(biāo)記錯(cuò)誤的情況更為常見。這些錯(cuò)誤不僅會(huì)浪費(fèi)昂貴的實(shí)驗(yàn)資源,更可能導(dǎo)致研究結(jié)論的錯(cuò)誤,影響后續(xù)的臨床決策。

以下的文章,主要為大家介紹一個(gè)樣本錯(cuò)誤標(biāo)記自動(dòng)檢測(cè)與糾正工具COSMO,以及它在多組學(xué)研究中的應(yīng)用價(jià)值。


文獻(xiàn)介紹

標(biāo)題(英文):A community effort to identify and correct mislabeled samples in proteogenomic studies

標(biāo)題(中文):社區(qū)努力識(shí)別和糾正蛋白質(zhì)基因組研究中標(biāo)簽錯(cuò)誤的樣本

發(fā)表期刊:Patterns

作者單位:西奈山伊坎醫(yī)學(xué)院、Sentieon 公司等

發(fā)表年份:2021

文章地址:https://doi.org/10.1016/j.patter.2021.100245

圖1 文獻(xiàn)介紹

隨著TCGA和CPTAC等大型項(xiàng)目推動(dòng)多組學(xué)研究的深入開展,數(shù)據(jù)量和復(fù)雜度顯著提升,但人為錯(cuò)誤導(dǎo)致的樣本標(biāo)記問題也隨之凸顯。雖然在遺傳和基因組數(shù)據(jù)方面已有多種檢測(cè)方法,但這些方法難以直接應(yīng)用于特性不同的蛋白質(zhì)組數(shù)據(jù)。

為解決這一問題,precisionFDA和NCI-CPTAC發(fā)起了"多組學(xué)樣本錯(cuò)誤標(biāo)記糾正挑戰(zhàn)賽",旨在開發(fā)自動(dòng)化工具來檢測(cè)和糾正蛋白質(zhì)基因組數(shù)據(jù)集中的錯(cuò)誤標(biāo)記。

本次挑戰(zhàn)賽基于181個(gè)結(jié)直腸癌腫瘤樣本的RNA測(cè)序、蛋白質(zhì)組學(xué)和臨床數(shù)據(jù)展開。通過隨機(jī)抽樣創(chuàng)建訓(xùn)練和測(cè)試數(shù)據(jù)集,并在數(shù)據(jù)集中故意引入錯(cuò)誤標(biāo)記,用于測(cè)試參與者的檢測(cè)和糾正能力。

挑戰(zhàn)賽分為兩個(gè)子挑戰(zhàn):第一個(gè)子挑戰(zhàn)要求參與者基于臨床和蛋白質(zhì)組數(shù)據(jù)檢測(cè)不匹配樣本;第二個(gè)子挑戰(zhàn)增加RNA-seq數(shù)據(jù),要求參與者檢測(cè)問題樣本、識(shí)別錯(cuò)誤數(shù)據(jù)類型并進(jìn)行糾正。


測(cè)序流程

來自15個(gè)國(guó)家的52個(gè)團(tuán)隊(duì)參與比賽。結(jié)果顯示,處理蛋白質(zhì)組數(shù)據(jù)的缺失值時(shí),使用0替換的策略表現(xiàn)最佳。在模型構(gòu)建方面,子挑戰(zhàn)1表現(xiàn)較好的團(tuán)隊(duì)都結(jié)合了邏輯回歸(LR)、隨機(jī)森林(RF)和KNN等方法。

子挑戰(zhàn)2的結(jié)果證明,多組學(xué)數(shù)據(jù)整合能提供更準(zhǔn)確的錯(cuò)誤檢測(cè)。前三名團(tuán)隊(duì)均采用基于Pearson或Spearman的相關(guān)性分析進(jìn)行數(shù)據(jù)匹配,并使用熱圖可視化輔助標(biāo)簽糾正。其中,來自隆德大學(xué)、萊特州立大學(xué)和Sentieon公司的團(tuán)隊(duì)表現(xiàn)最佳。

圖2 挑戰(zhàn)賽結(jié)果總結(jié) (A) 全球參與者情況顯示對(duì)挑戰(zhàn)問題的高度關(guān)注。 (B) 對(duì)子挑戰(zhàn)1中52個(gè)獨(dú)特提交者的149份提交作品進(jìn)行性能評(píng)估。對(duì)每份提交作品評(píng)估了具有95%置信區(qū)間的F1分?jǐn)?shù),并對(duì)獨(dú)特提交者取平均值。 (C) 子挑戰(zhàn)2的評(píng)估。共評(píng)估了31個(gè)獨(dú)特提交者的57份提交作品的平均F1分?jǐn)?shù)。觀察到兩個(gè)子挑戰(zhàn)的提交性能都呈現(xiàn)廣泛分布。即使在同一團(tuán)隊(duì)內(nèi),性能也有很大差異,表明標(biāo)準(zhǔn)化方法的重要性。 (D和E) 團(tuán)隊(duì)在子挑戰(zhàn)1中的表現(xiàn)與缺失數(shù)據(jù)插補(bǔ)方法(C)和特征選擇方法(D)之間的關(guān)聯(lián)。使用平均百分位排名作為度量標(biāo)準(zhǔn)。 (F) 使用50個(gè)結(jié)腸癌模擬數(shù)據(jù)集(具有固定類型和錯(cuò)誤數(shù)量)評(píng)估子挑戰(zhàn)2中前三名方法的穩(wěn)健性。P值使用雙側(cè)配對(duì)Student's t檢驗(yàn)計(jì)算。

挑戰(zhàn)賽結(jié)束后,表現(xiàn)最佳的三個(gè)團(tuán)隊(duì)進(jìn)行后續(xù)合作。通過對(duì)原始50個(gè)訓(xùn)練/測(cè)試數(shù)據(jù)集的評(píng)估,萊特州立大學(xué)和Sentieon公司展現(xiàn)出優(yōu)異的表現(xiàn),平均F1分?jǐn)?shù)為0.9,明顯優(yōu)于基線方法的0.68。而隆德大學(xué)團(tuán)隊(duì)由于難以將人工檢查轉(zhuǎn)化為自動(dòng)流程,整體表現(xiàn)相對(duì)較弱。

為模擬真實(shí)場(chǎng)景,研究人員基于結(jié)腸數(shù)據(jù)創(chuàng)建了50個(gè)具有不同錯(cuò)誤標(biāo)記率和模式的新數(shù)據(jù)集。只有萊特州立大學(xué)的方法成功適應(yīng),F(xiàn)1分?jǐn)?shù)為0.92。通過整合萊特州立大學(xué)和Sentieon公司的方法,檢測(cè)和糾正錯(cuò)誤的準(zhǔn)確性得到進(jìn)一步提升。

圖3 COSMO及其在獨(dú)立測(cè)試數(shù)據(jù)集上的表現(xiàn) (A) 通過從結(jié)腸癌數(shù)據(jù)集生成具有不同類型和數(shù)量的樣本標(biāo)記錯(cuò)誤的模擬數(shù)據(jù)集來模擬樣本錯(cuò)誤標(biāo)記的真實(shí)情況。 (B) 不同臨床屬性預(yù)測(cè)來源的性能。P值使用雙側(cè)配對(duì)Student's t檢驗(yàn)計(jì)算。 (C) COSMO檢測(cè)和糾正臨床或組學(xué)數(shù)據(jù)中錯(cuò)誤標(biāo)記樣本的整體示意圖。 (D) 使用CPTAC腎癌數(shù)據(jù)集生成具有不同類型和數(shù)量的樣本標(biāo)記錯(cuò)誤的模擬數(shù)據(jù)集來模擬樣本錯(cuò)誤標(biāo)記的真實(shí)情況。 (E) COSMO在(D)中50個(gè)模擬數(shù)據(jù)集上的性能。

基于這些發(fā)現(xiàn),研究團(tuán)隊(duì)開發(fā)了自動(dòng)化工具COSMO,結(jié)合了萊特州立大學(xué)的整體流程和Sentieon公司的臨床屬性預(yù)測(cè)算法,COSMO在腎癌研究數(shù)據(jù)集的驗(yàn)證中展現(xiàn)出極高的準(zhǔn)確性,F(xiàn)1分?jǐn)?shù)中位數(shù)達(dá)0.99。即使錯(cuò)誤率>20%的情況下仍能保持出色表現(xiàn),F(xiàn)1分?jǐn)?shù)大于0.9。

COSMO在六個(gè)獨(dú)立的多組學(xué)數(shù)據(jù)集中進(jìn)行了實(shí)際應(yīng)用驗(yàn)證。在已知存在錯(cuò)誤標(biāo)記的三個(gè)人類腫瘤數(shù)據(jù)集中,COSMO成功識(shí)別出CPTAC肺癌數(shù)據(jù)集(preQC CPTAC LUAD)中四對(duì)互換樣本、CPTAC腎癌數(shù)據(jù)集(preQC CPTAC CCRCC)中三個(gè)錯(cuò)誤標(biāo)記樣本,以及TCGA乳腺癌數(shù)據(jù)集(TCGA BRCA)中八對(duì)互換樣本。

在此前未報(bào)告錯(cuò)誤的三個(gè)數(shù)據(jù)集中,COSMO的應(yīng)用也取得了重要發(fā)現(xiàn)。雖然CCLE細(xì)胞系數(shù)據(jù)顯示完全對(duì)齊,但在人類淋巴母細(xì)胞系研究中發(fā)現(xiàn)了RNA-seq數(shù)據(jù)的兩個(gè)樣本互換和蛋白質(zhì)組的一個(gè)重復(fù)樣本。在外繁小鼠肝臟研究中,COSMO檢測(cè)到了九對(duì)互換樣本。

圖4 COSMO在真實(shí)數(shù)據(jù)集中的應(yīng)用 (A) CPTAC LUAD:四對(duì)蛋白質(zhì)組學(xué)樣本在RNA-seq-蛋白質(zhì)組學(xué)和蛋白質(zhì)組學(xué)-CNV之間相互匹配,但在RNA-seq-CNV中未觀察到標(biāo)記交換。 (B) CPTAC CCRCC:蛋白質(zhì)組學(xué)中的三個(gè)樣本在RNA-seq-蛋白質(zhì)組學(xué)和蛋白質(zhì)組學(xué)-CNV匹配中發(fā)生偏移,而RNA-seq和CNV之間的樣本匹配良好。 (C) TCGA BRCA:八對(duì)微陣列樣本在RNA-seq-微陣列和微陣列-CNV匹配中發(fā)生交換。 (D) Battle等人的研究:基于RNA-seq、蛋白質(zhì)組學(xué)和Riboseq數(shù)據(jù)的比對(duì),發(fā)現(xiàn)兩個(gè)RNA-seq樣本發(fā)生交換。觀察到潛在的重復(fù)蛋白質(zhì)樣本。 (E) Chick等人的研究:RNA-seq和蛋白質(zhì)數(shù)據(jù)之間有九對(duì)樣本發(fā)生交換。與樣本性別的臨床注釋合并表明蛋白質(zhì)組學(xué)數(shù)據(jù)中存在交換。

研究表明樣本錯(cuò)誤標(biāo)記的糾正對(duì)生物學(xué)結(jié)論有重要影響。以CPTAC肺癌研究為例,糾正樣本標(biāo)記后,差異表達(dá)蛋白的數(shù)量從160個(gè)增加到584個(gè)。并提高了檢測(cè)性別相關(guān)通路的能力。

在免疫熱/冷腫瘤分析中,錯(cuò)誤糾正后不僅識(shí)別出比糾錯(cuò)前多20%的差異表達(dá)蛋白,還揭示了其他與免疫反應(yīng)相關(guān)的重要通路。

圖5 COSMO錯(cuò)誤糾正在CPTAC LUAD數(shù)據(jù)集中的生物學(xué)影響 (A) 錯(cuò)誤糾正前后男性和女性腫瘤之間DEPs的數(shù)量。 (B) 比較8,528個(gè)蛋白質(zhì)在男性和女性腫瘤之間的t檢驗(yàn)FDR(-log10)。 (C) 錯(cuò)誤糾正前后與性別DEPs顯著相關(guān)的HALLMARK通路(FET FDR < 0.05)。COSMO后的獨(dú)特DEPs也用于功能富集測(cè)試。 (D) 免疫熱和免疫冷腫瘤中DEPs的數(shù)量。 (E) 比較8,528個(gè)蛋白質(zhì)在免疫熱和免疫冷腫瘤之間的t檢驗(yàn)FDR。 (F) 與免疫熱亞型腫瘤中上調(diào)蛋白質(zhì)顯著相關(guān)的HALLMARK通路。 (G) 糾正前后8,366個(gè)基因-蛋白質(zhì)對(duì)的相關(guān)強(qiáng)度。Pearson相關(guān)p值經(jīng)Benjamini-Hochberg調(diào)整為FDR,然后進(jìn)行-log10轉(zhuǎn)換。 (H) 僅在錯(cuò)誤糾正后顯著的269個(gè)基因-蛋白質(zhì)對(duì)的相關(guān)強(qiáng)度差異。

在多組學(xué)分析方面,COSMO的糾正同樣帶來顯著的改善效果。在CPTAC肺癌研究中,修復(fù)了7.5%的錯(cuò)誤標(biāo)記就使85%基因的mRNA-蛋白質(zhì)相關(guān)性得到提升,還發(fā)現(xiàn)267個(gè)新增的顯著相關(guān)基因,包括多個(gè)重要的癌癥相關(guān)基因。即使在錯(cuò)誤率為3.5%的CPTAC腎癌數(shù)據(jù)集中,糾正后也觀察到了62%基因的相關(guān)性提升。

在外繁小鼠研究中,基于COSMO糾正后的數(shù)據(jù)重新進(jìn)行pQTL分析,發(fā)現(xiàn)遺傳變異對(duì)蛋白質(zhì)組的影響更強(qiáng)烈,新分析多識(shí)別出了497個(gè)局部pQTL。

圖6 錯(cuò)誤糾正影響的pQTL分析 OMA1局部pQTL的對(duì)數(shù)優(yōu)勢(shì)比(LOD)得分在錯(cuò)誤糾正后從24(左)增加到31(右)。

Sentieon 軟件團(tuán)隊(duì)擁有豐富的軟件開發(fā)及算法優(yōu)化工程經(jīng)驗(yàn),致力于解決生物數(shù)據(jù)分析中的速度與準(zhǔn)確度瓶頸,為來自于分子診斷、藥物研發(fā)、臨床醫(yī)療、人群隊(duì)列、動(dòng)植物等多個(gè)領(lǐng)域的合作伙伴提供高效精準(zhǔn)的軟件解決方案,共同推動(dòng)基因技術(shù)的發(fā)展。截至 2023 年 3 月份,Sentieon 已經(jīng)在全球范圍內(nèi)為 1300+用戶提供服務(wù),被世界一級(jí)影響因子刊物如 NEJM、Cell、Nature 等廣泛引用,引用次數(shù)超過 700 篇。此外,Sentieon 連續(xù)數(shù)年摘得了 Precision FDA、Dream Challenges 等多個(gè)權(quán)威評(píng)比的桂冠,在業(yè)內(nèi)獲得廣泛認(rèn)可。


總結(jié)

雖然研究仍存在著一些局限性,如:訓(xùn)練集和測(cè)試集不是完全獨(dú)立的,因此不能保證獲勝解決方案的泛化能力。使用單一的數(shù)據(jù)集來進(jìn)行性能驗(yàn)證限制了評(píng)估結(jié)果的穩(wěn)定性等。

但研究展示了COSMO在處理不同類型組學(xué)平臺(tái)、不同生物體以及各類研究中的通用性和可靠性,證明了COSMO作為自動(dòng)化解決方案的價(jià)值。也凸顯了樣本錯(cuò)誤標(biāo)記糾正對(duì)提高組學(xué)研究準(zhǔn)確性的重要性。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容