全外顯子組測(cè)序分析 - 背景

一、全外顯子組 vs 全基因組概念

1. 測(cè)序范圍

全外顯子測(cè)序(WES)

僅針對(duì)基因組中外顯子區(qū)域(約占全基因組的1-2%),即能夠編碼蛋白質(zhì)的部分進(jìn)行測(cè)序。
目標(biāo)區(qū)域約為30-50 Mb(百萬(wàn)堿基對(duì))。數(shù)據(jù)量較小,通常為5-10 Gb。
通常通過(guò)富集捕獲的方法選擇外顯子區(qū)域進(jìn)行測(cè)序。

全基因組測(cè)序(WGS)

涉及整個(gè)基因組的測(cè)序,包括編碼區(qū)(外顯子)、非編碼區(qū)(內(nèi)含子、調(diào)控區(qū)等)以及線粒體DNA。產(chǎn)生的數(shù)據(jù)量較大,通常為90-150 Gb。
覆蓋范圍約為3 Gb(十億堿基對(duì))。

2.測(cè)序深度及分析層次

WES

專注于外顯子區(qū)域,能有效檢測(cè)與疾病相關(guān)的編碼變異(如單核苷酸變異和小片段插入/缺失)。
對(duì)非編碼區(qū)變異無(wú)檢測(cè)能力,無(wú)法全面解析調(diào)控區(qū)變異或結(jié)構(gòu)變異。重點(diǎn)關(guān)注已知與疾病相關(guān)的基因區(qū)域。

WGS

提供全面的基因組變異信息,包括編碼區(qū)和非編碼區(qū)的變異、拷貝數(shù)變異(CNV)、結(jié)構(gòu)變異(如染色體易位、倒位)和重復(fù)序列變異。
適合于未知致病變異的全面探索,尤其是非編碼區(qū)變異的功能預(yù)測(cè)和臨床意義評(píng)估。

3.應(yīng)用場(chǎng)景

WES

疾病基因篩查: 適用于已知與編碼區(qū)相關(guān)的單基因病研究或遺傳病診斷。
快速診斷: 尤其適合明確的目標(biāo)區(qū)域(外顯子)的研究。
成本受限的項(xiàng)目: 在預(yù)算有限的情況下選擇WES較為合理。

WGS

全基因組探索: 特別適用于尋找未知致病突變或復(fù)雜病變的研究。
癌癥研究: 涵蓋腫瘤特有的結(jié)構(gòu)變異和非編碼區(qū)調(diào)控突變。
進(jìn)化研究: 提供全基因組范圍的遺傳信息,適合物種比較和群體遺傳學(xué)。

4.優(yōu)勢(shì)對(duì)比

5.總結(jié)

人類全外顯子組所占基因組比例不超過(guò)2%,但它包含了約85%與疾病相關(guān)的變異,因此在研究編碼基因變異層面,全外測(cè)序是比全基因組測(cè)序更為經(jīng)濟(jì)高效的替代方法。全外測(cè)序適用于孟德?tīng)柤膊?、腫瘤、復(fù)雜疾病等多個(gè)研究領(lǐng)域。對(duì)于表現(xiàn)出異質(zhì)性的疾病,或者患者表現(xiàn)出多個(gè)系統(tǒng)受累的復(fù)雜疾病癥狀時(shí),尤為適合使用全外測(cè)序。

二、全外顯子組測(cè)序(Whole Exome Sequencing, WES)

· 基因(gene)是DNA中含有特定遺傳信息的一段核苷酸序列的總稱,是具有遺傳效應(yīng)的DNA分子片段,是控制生物性狀的基本遺傳單位。人類基因區(qū)間的大小可從數(shù)百個(gè)bp至超過(guò)200萬(wàn)個(gè)bp不等。根據(jù)人類基因組計(jì)劃估計(jì),人類擁有20000-25000個(gè)蛋白編碼基因。
· 基因組(genome)指一個(gè)生物體所包含DNA的全部遺傳信息?;蚪M由基因區(qū)域和非編碼區(qū)域組成。人類的基因組大小約為30億個(gè)堿基對(duì)(bp)(3GB),其中非編碼區(qū)域占到絕大多數(shù),編碼蛋白質(zhì)的區(qū)域僅占約2%左右。
· 外顯子是基因組中能夠轉(zhuǎn)錄組出成熟RNA的部分。人類擁有約18萬(wàn)個(gè)外顯子,約占人類基因組的1%,即約3000萬(wàn)個(gè)bp(30MB)。
· 外顯子組(exome)是基因組中所有外顯子的集合。值得注意的是,通常所說(shuō)的全外顯子組測(cè)序,是指針對(duì)蛋白編碼基因的外顯子,很少涉及非編碼基因。
· 全外顯子組測(cè)序 (WES),也稱為外顯子組測(cè)序、全外顯子測(cè)序,全外測(cè)序等,即對(duì)外顯子組(基因組里的所有外顯子)進(jìn)行測(cè)序的方法。全外顯子測(cè)序(Whole Exome Sequencing,WES)是一種高通量測(cè)序技術(shù),用于對(duì)生物體的所有外顯子區(qū)域進(jìn)行測(cè)序。通過(guò)全外顯子測(cè)序,可以有效地檢測(cè)基因組中與疾病相關(guān)的變異,如突變、缺失、插入等。全外顯子測(cè)序數(shù)據(jù)分析涉及多個(gè)層面的內(nèi)容,如變異檢測(cè)和注釋: 分析外顯子測(cè)序數(shù)據(jù)的首要任務(wù)是檢測(cè)樣本中存在的基因組變異,包括單核苷酸變異(SNV)、插入缺失(Indel)等。這些變異可能與疾病相關(guān),需要進(jìn)行詳細(xì)的注釋,包括變異類型、位置、影響的基因、功能等信息。

關(guān)于外顯子,需要注意的一個(gè)特殊情況是非翻譯區(qū)(UTR)。在mRNA的兩側(cè)分別存在5'UTR(前導(dǎo)序列)和3'UTR(尾部序列),它們的作用分別是調(diào)控翻譯的啟動(dòng)和終止。它們由外顯子序列構(gòu)成,但不會(huì)被翻譯成氨基酸。 所以,并非所有外顯子序列都會(huì)被翻譯成氨基酸。

三、WES檢測(cè)流程及評(píng)估指標(biāo)

檢測(cè)流程

大體可以分為這3個(gè)部分:文庫(kù)制備,測(cè)序,生信分析。
· 文庫(kù)制備通常包含這些步驟:樣本處理,DNA提取,定量,建庫(kù),雜交捕獲,擴(kuò)增,質(zhì)控。
· 測(cè)序,目前的儀器包括國(guó)外Illumina公司測(cè)序平臺(tái),以及華大智造國(guó)產(chǎn)測(cè)序平臺(tái)等。
· 生信分析的流程通常包含這些步驟:質(zhì)控,拼接比對(duì),去重和重排,變異檢測(cè),降噪和過(guò)濾,注釋等。常用的軟件有FastQC,BWA,GATK,ANNOVAR等。
一個(gè)完整的全外顯子組測(cè)序,從樣本處理到完成測(cè)序數(shù)據(jù)下機(jī),測(cè)序公司通常需要1-2周左右時(shí)間。

評(píng)估指標(biāo)

1. 中靶率

中靶率(On-target rate)是一個(gè)百分?jǐn)?shù),用來(lái)表示測(cè)序數(shù)據(jù)中有多少能夠比對(duì)到目標(biāo)區(qū)域上。
在基因組上有許多與外顯子有同源性的部分(比如內(nèi)含子和基因間區(qū)),在實(shí)際工作中,這些并不屬于目標(biāo)(外顯子)的部分在雜交過(guò)程中也會(huì)被捕獲下來(lái)。這種探針捕獲到非目標(biāo)區(qū)域片段的情況稱為脫靶(off target)。脫靶的數(shù)據(jù)是無(wú)效的,不能用于后續(xù)分析。同等情況下,中靶率越高,由于脫靶產(chǎn)生的浪費(fèi)越少,這款探針越好。

2. 覆蓋度

覆蓋度(coverage)經(jīng)常是和深度一起出現(xiàn)的,比如“10X覆蓋度”、“30X覆蓋度”。“10X覆蓋度為90%”指測(cè)序數(shù)據(jù)比對(duì)到目標(biāo)區(qū)域后,有90%的區(qū)域被覆蓋了至少10次,或者說(shuō)有90%的區(qū)域有至少10條reads覆蓋。
如果覆蓋度沒(méi)有和深度一起出現(xiàn),則可以理解為“1X覆蓋度”。比如“覆蓋度為95%”,指95%的目標(biāo)區(qū)域有至少1條reads覆蓋到。換言之,有5%的目標(biāo)區(qū)域連1條覆蓋到的reads都沒(méi)有,它們?cè)谶@次測(cè)序中完全沒(méi)被測(cè)到,被漏掉了。同等情況下,覆蓋度越高,越少比例的目標(biāo)區(qū)域被漏掉,這款探針越好。

3. 均一性

目標(biāo)區(qū)域內(nèi)不同的位點(diǎn)被覆蓋的情況是不同的。比如一次WES測(cè)序的平均深度是60X,很有可能有的位點(diǎn)深度為10X,有的為40X,有的為90X這樣的情況。均一性(uniformity)越好,即這些位點(diǎn)各自的深度越接近平均深度。
在實(shí)際工作中,我們根據(jù)期望達(dá)到的目標(biāo)測(cè)序深度來(lái)分配數(shù)據(jù)量,即決定了這次測(cè)序的平均深度(平均深度=數(shù)據(jù)量/探針大小)。當(dāng)某個(gè)區(qū)域的實(shí)際測(cè)序深度高于目標(biāo)深度時(shí),造成數(shù)據(jù)的浪費(fèi);而當(dāng)某個(gè)區(qū)域的實(shí)際測(cè)序深度低于目標(biāo)深度時(shí),我們可能會(huì)認(rèn)為這部分?jǐn)?shù)據(jù)質(zhì)量不好而丟棄它,導(dǎo)致這一區(qū)域無(wú)測(cè)序數(shù)據(jù)。均一性優(yōu)良的探針可以幫助減少這兩種情況的發(fā)生。
Fold-80是用來(lái)評(píng)價(jià)均一性的指標(biāo)。它的定義是,為確保80%的目標(biāo)堿基達(dá)到平均深度所需的額外測(cè)序的倍數(shù)。Fold-80越低,捕獲效率越高,測(cè)序浪費(fèi)越少。理想情況下的Fold-80為1。Fold-80越低,均一性越好,越能節(jié)約測(cè)序成本,這款探針越好。

4. 重復(fù)率

重復(fù)率(Dup rate)指的是重復(fù)序列(Duplicate reads)在總測(cè)序序列中的占比。由于這些重復(fù)序列不能帶來(lái)額外信息,相反會(huì)影響變異檢測(cè)結(jié)果準(zhǔn)確性,因此需要在下游生信分析中去除這些重復(fù)序列。Dup rate越高,數(shù)據(jù)利用率越低,浪費(fèi)的測(cè)序成本也就越多。同等情況下,重復(fù)率越低,越能節(jié)省測(cè)序成本,這款探針越好。

參考帖子:
https://blog.csdn.net/Da_gan/article/details/143948917
https://zhuanlan.zhihu.com/p/637492874

歡迎大家評(píng)論交流!
(每帖分享:歲月給予的遠(yuǎn)比帶走的更多)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容