CroCoDeEL:無(wú)對(duì)照準(zhǔn)確檢測(cè)宏基因組數(shù)據(jù)中交叉樣本污染

小編導(dǎo)讀

從上圖的這篇嬰兒間的菌株傳播塑造了正在發(fā)育的腸道微生物群的文章中看到利用了這個(gè)去污染的方法,比較好奇,分享學(xué)習(xí)一下!雖然暫時(shí)還是預(yù)計(jì)印的狀態(tài),相信不久就會(huì)發(fā)表在給力的雜志上。
宏基因組測(cè)序在微生物組研究中應(yīng)用廣泛,但樣本間交叉污染這個(gè)技術(shù)問(wèn)題一直被嚴(yán)重低估。這種污染通常發(fā)生在96孔板中相鄰樣本之間,會(huì)導(dǎo)致物種豐度失真、假陽(yáng)性發(fā)現(xiàn),甚至影響研究結(jié)論的可靠性。現(xiàn)有檢測(cè)方法要么依賴陰性對(duì)照(成本高且不夠全面),要么基于菌株水平分析(計(jì)算量大且無(wú)法區(qū)分自然菌株共享)。研究開發(fā)的CroCoDeEL工具另辟蹊徑,僅需物種豐度表就能準(zhǔn)確識(shí)別污染樣本及其污染源,還能估算污染比例。更重要的是,研究團(tuán)隊(duì)在多個(gè)高引用率研究中發(fā)現(xiàn)了嚴(yán)重的未報(bào)告污染問(wèn)題,提示這可能是宏基因組領(lǐng)域普遍存在卻被忽視的質(zhì)控盲區(qū)。


摘要

背景 宏基因組測(cè)序能深入解析微生物群落,但常受技術(shù)偏倚影響,其中交叉樣本污染尤為突出。這種污染源于實(shí)驗(yàn)室處理過(guò)程中樣本間的物質(zhì)交換,會(huì)扭曲微生物譜并影響下游分析的可靠性?,F(xiàn)有檢測(cè)方法依賴陰性對(duì)照,既不方便也無(wú)法檢測(cè)真實(shí)樣本內(nèi)部的污染。而菌株水平的生信分析方法既無(wú)法區(qū)分污染與自然菌株共享,靈敏度也不足。

結(jié)果 研究團(tuán)隊(duì)開發(fā)了CroCoDeEL,這是一個(gè)無(wú)需對(duì)照的交叉樣本污染檢測(cè)和定量工具。該工具通過(guò)線性建模和預(yù)訓(xùn)練的監(jiān)督學(xué)習(xí)模型,識(shí)別物種豐度譜中的特異性污染模式。在三個(gè)公開數(shù)據(jù)集的基準(zhǔn)測(cè)試中,CroCoDeEL準(zhǔn)確檢測(cè)出污染樣本并識(shí)別污染源,即使在低污染率(小于0.1%)情況下也能有效工作,前提是測(cè)序深度足夠。值得注意的是,研究團(tuán)隊(duì)在多個(gè)高引用率研究中發(fā)現(xiàn)了嚴(yán)重污染案例,這些污染可能影響了原研究的部分結(jié)論。

結(jié)論 交叉樣本污染是宏基因組學(xué)中普遍存在但研究不足的問(wèn)題。研究結(jié)果強(qiáng)調(diào)了將污染檢測(cè)系統(tǒng)性整合到測(cè)序質(zhì)控流程中的必要性。

方法

研究的核心算法基于一個(gè)關(guān)鍵發(fā)現(xiàn):當(dāng)樣本發(fā)生交叉污染時(shí),污染特異性物種(即僅存在于污染源而不存在于被污染樣本的物種)在兩個(gè)樣本間的相對(duì)豐度呈正比關(guān)系,比例系數(shù)等于污染率。在對(duì)數(shù)轉(zhuǎn)換的散點(diǎn)圖上,這些物種會(huì)形成一條特征性的"污染線"。

算法分四步運(yùn)行。第一步是候選物種篩選,選出那些在兩樣本中都存在但在疑似污染源中豐度更高的物種,并過(guò)濾掉左上象限有較多其他物種的點(diǎn)。第二步使用RANSAC回歸器檢測(cè)潛在污染線,該算法能擬合y=x+b形式的線性模型,其中參數(shù)b是線偏移量,用于區(qū)分內(nèi)點(diǎn)(inliers)和外點(diǎn)(outliers)。如果內(nèi)點(diǎn)少于5個(gè),直接判定為非污染。第三步提取十個(gè)特征來(lái)描述污染線特征,包括構(gòu)成污染線的物種數(shù)量、線的緊密度和離散度、Spearman相關(guān)系數(shù)、線性回歸殘差等。這些特征是通過(guò)人工標(biāo)注和遞歸特征消除法(RFECV)篩選出來(lái)的。第四步將提取的特征輸入預(yù)訓(xùn)練的隨機(jī)森林模型(1000棵樹)進(jìn)行分類,如果預(yù)測(cè)概率≥0.5則判定為污染,并根據(jù)線偏移量b計(jì)算污染率r=10^(-b)。

訓(xùn)練數(shù)據(jù)集構(gòu)建很有講究。研究者從11個(gè)獨(dú)立隊(duì)列的15203個(gè)樣本中生成了15000個(gè)樣本對(duì)的半模擬數(shù)據(jù)集。其中7500對(duì)模擬了污染情況,通過(guò)混合基因計(jì)數(shù)矩陣(而非簡(jiǎn)單的豐度線性組合)來(lái)實(shí)現(xiàn),污染率在0-100%范圍均勻采樣,其中2000對(duì)專門聚焦在0-5%的低污染區(qū)間。測(cè)序深度也在1-20M reads間變化。所有數(shù)據(jù)都用Meteor2進(jìn)行分類學(xué)定量,生成物種豐度表后由人工專家(L.G.和G.G.)逐一檢查散點(diǎn)圖,剔除因測(cè)序深度不足或污染率過(guò)低而看不到污染線的樣本對(duì),最終得到7480對(duì)非污染和5850對(duì)污染的標(biāo)注數(shù)據(jù)。

物種豐度定量默認(rèn)使用Meteor2流程。質(zhì)控步驟包括用fastp去接頭、修剪低質(zhì)量reads、丟棄短于60bp的reads(Ion Torrent數(shù)據(jù)用AlienTrimmer),然后用Bowtie2比對(duì)人類基因組T2T CHM13v2.0并去除人源reads。干凈的微生物reads比對(duì)到更新的人類腸道微生物整合基因目錄IGC2(1040萬(wàn)個(gè)基因),核苷酸一致性低于95%的比對(duì)被丟棄?;蛴?jì)數(shù)采用兩步法處理多比對(duì)reads,然后按基因長(zhǎng)度標(biāo)準(zhǔn)化。IGC2被聚類成1990個(gè)宏基因組物種(MGS),每個(gè)MGS的豐度計(jì)算為其100個(gè)標(biāo)志基因的平均豐度,如果檢測(cè)到的標(biāo)志基因少于10%則豐度設(shè)為0。

為評(píng)估不同分類器的影響,研究還用Sylph(v0.6.0,基于GTDB r214)和MetaPhlAn4(v4.1.0,vJun23數(shù)據(jù)庫(kù))進(jìn)行了對(duì)比分析。

實(shí)驗(yàn)驗(yàn)證方面,研究者從兩個(gè)不相關(guān)個(gè)體采集糞便樣本MQB_068和MQB_095,提取DNA后按90:10比例混合制備了MQB_095_l2作為10%污染率的真實(shí)污染樣本,三個(gè)樣本都進(jìn)行了shotgun測(cè)序驗(yàn)證。

主要結(jié)果

污染線的發(fā)現(xiàn)與驗(yàn)證 在真實(shí)混合樣本實(shí)驗(yàn)中,MQB_095_l2(被MQB_068以約10%污染)的物種豐度散點(diǎn)圖清晰展現(xiàn)了污染線特征。所有MQB_068中豐度較高的物種都在MQB_095_l2中被檢測(cè)到(y軸上無(wú)點(diǎn)),且部分共有物種沿一條直線排列,表明這些是污染引入的特異性物種。相比之下,兩個(gè)未污染樣本MQB_095和MQB_068的對(duì)比圖中沒(méi)有這種模式。更重要的是,MQB_095的物種豐富度(194)顯著低于其污染版本MQB_095_l2(319),意味著39%的檢出物種實(shí)際是污染假象。

分類器性能 在三個(gè)真實(shí)人類糞便宏基因組測(cè)試集上(樣本量分別為110、128、237),CroCoDeEL表現(xiàn)一致。Matthews相關(guān)系數(shù)均在0.7左右,召回率平均95%,說(shuō)明能檢出人工專家標(biāo)注的絕大多數(shù)污染案例。精確度約50%,但這里的"假陽(yáng)性"值得商榷——這些案例多數(shù)污染率很低(平均0.26%),分類器給出的置信度也顯著低于真陽(yáng)性(概率0.73 vs 0.92,p<2.2×10^-16)。當(dāng)在跨數(shù)據(jù)集的140972個(gè)樣本對(duì)(理論上不可能污染)中測(cè)試時(shí),僅檢出5個(gè)假陽(yáng)性,證明了在污染確實(shí)不存在時(shí)工具的高特異性。

假陰性分兩類:一類是極低污染率且人工專家信心也不高的案例;另一類更棘手,是一些高污染但污染線模糊的情況,比如兩個(gè)樣本都被第三方污染導(dǎo)致的傳遞性相似,或者"級(jí)聯(lián)污染"(一個(gè)樣本污染另一個(gè)后自己又被污染)。

計(jì)算資源方面,在標(biāo)準(zhǔn)節(jié)點(diǎn)(雙Intel Xeon E5-2680,16核256GB內(nèi)存)上處理百個(gè)樣本僅需數(shù)分鐘,運(yùn)行時(shí)間與樣本對(duì)數(shù)呈線性關(guān)系,CPU并行效率約0.85,內(nèi)存消耗低且穩(wěn)定。

測(cè)序深度、污染率和分類器的影響 用25個(gè)半模擬樣本對(duì)系統(tǒng)評(píng)估了影響因素。測(cè)序深度和污染率都是關(guān)鍵因素(p<2×10^-16)。以Meteor2為例,20%污染率時(shí)即使1M reads也能全檢出,但2%污染率時(shí)需要10M reads才能達(dá)到92%召回率(1M reads僅40%)。

分類器選擇影響巨大。在10M reads、0.5%污染率條件下,Meteor2的召回率達(dá)76%,而Sylph僅4%,MetaPhlAn4完全檢測(cè)不到。原因在于Meteor2對(duì)亞優(yōu)勢(shì)物種的檢測(cè)靈敏度更高,定量也更準(zhǔn)確,能在污染線上產(chǎn)生更多物種且離散度更小。MetaPhlAn4系統(tǒng)性低估亞優(yōu)勢(shì)物種豐度,干擾了污染線檢測(cè),雖然過(guò)濾掉低豐度物種后有所改善,但Meteor2仍是低測(cè)序深度/低污染率場(chǎng)景的唯一有效選擇。

與菌株共享方法的對(duì)比 在Lou等人的嬰兒縱向隊(duì)列研究(P3板)中,菌株共享方法僅識(shí)別出2個(gè)污染樣本(陰性對(duì)照NC3和樣本63D9),且無(wú)法確定具體污染源。CroCoDeEL則檢出16個(gè)人工驗(yàn)證的污染事件,涉及12個(gè)污染樣本。CroCoDeEL不僅確認(rèn)了63D9被58D256和60D38污染(與這兩個(gè)樣本共享菌株數(shù)最多),還發(fā)現(xiàn)NC3被82D361、83D88和83D249污染而非82M。

更關(guān)鍵的是,CroCoDeEL檢出了菌株方法無(wú)能為力的場(chǎng)景:同一嬰兒不同時(shí)間點(diǎn)樣本間的污染(如63D9被其后期樣本63D250以70%污染)、雙胞胎樣本間污染(58D256污染60D38)、母嬰樣本污染(58M以63%污染58D7,后者物種豐富度達(dá)223遠(yuǎn)超同齡嬰兒)。這些都因自然菌株傳遞而被菌株方法排除,但CroCoDeEL利用嬰兒腸道菌群隨時(shí)間演化的特點(diǎn)成功識(shí)別。

未檢測(cè)污染導(dǎo)致的錯(cuò)誤結(jié)論 在Lou等人關(guān)于嬰兒腸道定植的另一項(xiàng)研究中,作者認(rèn)為P1、P2、P5板無(wú)污染,但CroCoDeEL在P2中發(fā)現(xiàn)8個(gè)污染事件,包括關(guān)鍵案例57D8被母親樣本57M以23%污染。原研究報(bào)道的"母親菌株在嬰兒出生時(shí)定植但未持續(xù)"很可能是污染假象而非真實(shí)定植。

在Ferretti等人的高引用率嬰兒研究中,182個(gè)樣本中有48個(gè)被污染(26%)。原文報(bào)道的56個(gè)"瞬時(shí)出現(xiàn)"微生物中,80%(45個(gè))實(shí)際來(lái)自5個(gè)被大量污染(污染率>10%)的新生兒糞便樣本。原研究觀察到嬰兒首次采樣(t1)的物種多樣性顯著高于后續(xù)時(shí)間點(diǎn)(t2: p=0.005, t3: p=0.003),但剔除高污染樣本后這種差異消失(t2: p=0.12, t3: p=0.56),說(shuō)明表觀多樣性增高只是污染假象。

在TwinsUK隊(duì)列的1004個(gè)成人糞便樣本中,CroCoDeEL檢出202個(gè)污染樣本,其中176個(gè)關(guān)聯(lián)到8個(gè)相同污染源。這8個(gè)源樣本彼此極相似(Spearman ρ>0.96)且物種豐富度異常高(782±8),疑似是多樣本混合物的重復(fù)。污染樣本間的Bray-Curtis距離(0.40)顯著小于非污染樣本(0.53, p<2×10^-16),物種豐富度也更高(425 vs 303, p<2×10^-16)。在至少出現(xiàn)于10個(gè)樣本的1382個(gè)物種中,32%(440個(gè))在污染樣本中流行率顯著更高(FDR≤0.01),凸顯了基于該隊(duì)列的眾多研究需要重新評(píng)估的緊迫性。

結(jié)論

研究證實(shí)交叉樣本污染會(huì)在物種豐度譜中產(chǎn)生特異性的"污染線"模式,這種模式在非污染樣本對(duì)中出現(xiàn)概率極低(少于萬(wàn)分之一)。CroCoDeEL通過(guò)自動(dòng)檢測(cè)這一模式,實(shí)現(xiàn)了無(wú)需陰性對(duì)照、不依賴樣本位置信息的污染識(shí)別,能同時(shí)確定污染源和被污染樣本,并估算污染率。工具在真實(shí)數(shù)據(jù)上達(dá)到約0.7的Matthews相關(guān)系數(shù)和95%的召回率,且計(jì)算效率高。

參考文獻(xiàn)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容