Sentieon | 泛基因組相比傳統(tǒng)變異檢測的優(yōu)勢

在常規(guī)的基因組學(xué)研究中,人們常常把“參照基因組”當(dāng)作某一物種遺傳信息的“規(guī)范模板”。但這猶如僅通過一份標(biāo)準(zhǔn)住宅設(shè)計圖去推斷所有家庭的住宅布局,不可避免地忽視了眾多個性化的特征。泛基因組(Pan-genome)概念的提出,完全超越了這一限制,為我們展現(xiàn)了一個更加宏大、精確且不斷變化的物種遺傳全貌。

本期將聚焦泛基因組在遺傳疾病相關(guān)研究中的優(yōu)勢。


一、突破“單一參考”的局限:從個體代表性到群體包容性

自2003年人類基因組計劃(HGP)完成以來,GRCh38等線性參考基因組雖為基因組學(xué)研究奠定了基石,但其本質(zhì)是一個拼接自少數(shù)個體(且以歐洲血統(tǒng)為主)的“共識”序列,無法反映人類群體內(nèi)部巨大的遺傳多態(tài)性。尤其在復(fù)雜區(qū)域——如著絲粒周邊(pericentromeric)、端粒附近(subtelomeric)、節(jié)段重復(fù)序列(segmental duplications, SDs)及rDNA陣列中——仍存在約150 Mb的缺口。即便2022年T2T-CHM13實(shí)現(xiàn)了首個端粒到端粒(T2T)無缺口單倍體組裝,它仍是單一單倍型,無法代表結(jié)構(gòu)變異(SVs)的群體多樣性。

HPRC(人類泛基因組參考聯(lián)盟)基于47個全球分布個體(94條單倍型)構(gòu)建的泛基因組,首次實(shí)現(xiàn)了對人類基因組“常見變異空間”的系統(tǒng)性覆蓋,從根本上解決了傳統(tǒng)參考中“參考偏向”(reference bias)問題——即非參考等位基因在比對中被系統(tǒng)性低估或誤判。

圖1 兩個泛基因組項目所采集樣本的地理來源

HPRC(人類泛基因組參考聯(lián)盟):47個個體,來自非洲、美洲、亞洲、歐洲四大洲;

CPC(中國泛基因組聯(lián)盟):58個核心樣本,覆蓋中國36個少數(shù)民族。

泛基因組的核心理念在于:用圖結(jié)構(gòu)(graph-based pangenome)替代線性序列,整合多個高質(zhì)量、單倍型分型(haplotype-phased)的個體基因組,構(gòu)建一個能容納多種等位基因、插入缺失、倒位、拷貝數(shù)變異等的“參考網(wǎng)絡(luò)”。

泛基因組圖譜能容納SNV、Indel、CNV、倒位等各類變異,能覆蓋節(jié)段重復(fù)序列(SDs)這一傳統(tǒng)“盲區(qū)。從機(jī)制上解釋了新生兒中高達(dá)1/800的羅伯遜易位(Robertsonian translocations, ROBs)發(fā)生率,證明泛基因組可解析染色體結(jié)構(gòu)病的起源。

相比GRCh38,新增119 Mb 常見多態(tài)序列,新增1,115 個新基因重復(fù)(novel gene duplications),其中約90 Mb 源于結(jié)構(gòu)變異(SVs)。


二、顯著提升變異檢出能力與準(zhǔn)確性

23年的一篇綜述[1]明確指出,以泛基因組替代GRCh38作為比對參考后,變異檢測性能獲得飛躍式提升:

1. 小變異(SNV/Indel)檢測錯誤率降低34%:因圖結(jié)構(gòu)可將 reads 更準(zhǔn)確地錨定至其真實(shí)來源的等位路徑,避免了在高度同源區(qū)域(如SDs)的錯配。

2. 每單倍型檢出的結(jié)構(gòu)變異數(shù)量增加104%:即翻倍!這意味著大量以往“不可見”的SVs(尤其是復(fù)雜SVs,如嵌套插入、倒位伴隨缺失)被系統(tǒng)性揭示。例如,HPRC泛基因組新增了119 Mb的常見多態(tài)序列和1,115個新基因重復(fù)——其中約90 Mb源于SVs。

具體來看,泛基因組的最大價值之一,在于它首次使得對高度重復(fù)、傳統(tǒng)上難以比對的區(qū)域進(jìn)行系統(tǒng)性群體遺傳學(xué)研究成為可能:

1. ?節(jié)段重復(fù)區(qū)(SDs)是SNV富集與基因轉(zhuǎn)換熱點(diǎn)

Vollger et al.(2023)利用HPRC泛基因組發(fā)現(xiàn):SDs中的SNV密度比非重復(fù)區(qū)高1.6倍,其中至少23%歸因于基因間基因轉(zhuǎn)換(Interlocus Gene Conversion, IGC)。不同于等位基因間的同源轉(zhuǎn)換,IGC發(fā)生在不同基因座之間,可導(dǎo)致功能基因(如F8凝血因子、HBG1胎兒血紅蛋白、C4B補(bǔ)體)的等位基因“橫向傳播”,既可能促進(jìn)有利突變擴(kuò)散(進(jìn)化意義),也可能造成致病突變蔓延(疾病風(fēng)險)。研究識別出800余個受IGC影響的蛋白編碼基因,其中38個為進(jìn)化上高度保守的“約束基因”(constrained genes),突變易致嚴(yán)重表型。

2. ?近端著絲粒染色體短臂(acrocentric p-arms)是異源重組溫床

Guarracino et al.(2023)通過泛基因組圖譜發(fā)現(xiàn):13、14、15、21、22號染色體的p-臂因富含rDNA陣列與偽同源區(qū)(PHRs),在減數(shù)分裂中易發(fā)生非同源染色體間的異源重組(heterologous recombination),直接導(dǎo)致羅伯遜易位(ROBs)——新生兒中發(fā)生率約1/800。泛基因組首次精準(zhǔn)定位ROBs斷點(diǎn)均位于PHRs,從機(jī)制上解釋了這類常見染色體病的起源。

這些區(qū)域曾是臨床基因組學(xué)的“禁區(qū)”,如今泛基因組正將其轉(zhuǎn)化為新的致病機(jī)制與生物標(biāo)志物發(fā)現(xiàn)源泉。


三、推動精準(zhǔn)醫(yī)學(xué)與人群特異性研究:以中國泛基因組(CPC)為例

HPRC泛基因組雖具開創(chuàng)性,但亞洲樣本僅占13%,存在顯著人群偏差。對此,中國泛基因組聯(lián)盟(CPC)率先響應(yīng),基于58個核心樣本(涵蓋36個少數(shù)民族),構(gòu)建了首個中國人群代表性泛基因組:

1. 新增189 Mb多態(tài)序列、1,367個重復(fù)蛋白編碼基因。

2. 發(fā)現(xiàn)78,072個SVs,其中34,223個為全新變異。

3. 鑒定出與角質(zhì)化、紫外線響應(yīng)、DNA修復(fù)、免疫及壽命調(diào)控相關(guān)的新基因/等位基因,部分源于古菌水平基因轉(zhuǎn)移。

尤為關(guān)鍵的是,CPC數(shù)據(jù)成功將558個ClinVar中列為“致病/可能致病/VUS”的變異重分類為“可能良性”——因其在東亞人群中頻率過高(而既往公共數(shù)據(jù)庫缺乏亞洲數(shù)據(jù))。這直接避免了臨床誤診,彰顯泛基因組在人群特異性變異解讀中的不可替代性:沒有足夠多樣化的泛基因組,罕見病診斷與遺傳咨詢將長期受制于“歐洲中心主義”偏見。

參考文獻(xiàn)

[1] Wang, B., Dang, N., Yang, X., Xu, S., & Ye, K. (2023). The human pangenome reference: the beginning of a new era for genomics. Science Bulletin, 68(14), 1484–1487.?


Sentieon軟件介紹

Sentieon為完整的純軟件基因變異檢測二級分析方案,其分析流程完全忠于BWA、GATK、MuTect2、STAR、Minimap2、Fgbio、picard等金標(biāo)準(zhǔn)的數(shù)學(xué)模型。在匹配開源流程分析結(jié)果的前提下,大幅提升WGS、WES、Panel、UMI、ctDNA、RNA等測序數(shù)據(jù)的分析效率和檢出精度,并匹配目前全部第二代、三代測序平臺。

Sentieon軟件團(tuán)隊擁有豐富的軟件開發(fā)及算法優(yōu)化工程經(jīng)驗,致力于解決生物數(shù)據(jù)分析中的速度與準(zhǔn)確度瓶頸,為來自于分子診斷、藥物研發(fā)、臨床醫(yī)療、人群隊列、動植物等多個領(lǐng)域的合作伙伴提供高效精準(zhǔn)的軟件解決方案,共同推動基因技術(shù)的發(fā)展。

截至2025年7月份,Sentieon已經(jīng)在全球范圍內(nèi)為1860+用戶提供服務(wù),用戶處理超過4980+PB數(shù)據(jù)量,被世界一級影響因子刊物如NEJM、Cell、Nature等廣泛引用,引用次數(shù)超過1500篇。此外,Sentieon連續(xù)數(shù)年摘得了Precision FDA、Dream Challenges等多個權(quán)威評比的桂冠,在業(yè)內(nèi)獲得廣泛認(rèn)可。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容