基因組的那些事兒--基礎(chǔ)

偶然間翻出來了18年學(xué)習(xí)jimmy的”直播我的基因組系列“所做的一些理解,文章寫于18.7.30,因?yàn)楫?dāng)時(shí)感覺工程浩大,所以遲遲沒有發(fā)出來,但現(xiàn)在我想,“攢著攢著就爛了”,好的內(nèi)容不能浪費(fèi),不踏出第一步,之前的努力就都白費(fèi)了。當(dāng)然自己可能還有一些理解不到位的地方,后續(xù)內(nèi)容會補(bǔ)充完整

關(guān)于基因組

正常人都是有22對常染色體加XY性染色體。基因組是指生物體所攜帶的一套完整的單倍體序列,也就是22條+X+Y。每個(gè)染色體包括全套基因和間隔序列。他們由A、T、C、G堿基組成,總共長度大約是30億個(gè)堿基。


關(guān)于基因檢測

隨著社會的發(fā)展,人們對于健康愈發(fā)重視,開始涌現(xiàn)了大量的基因檢測,它的個(gè)性化定制再加上后續(xù)的醫(yī)師指導(dǎo),更加準(zhǔn)確和便捷獲得自身健康信息,預(yù)計(jì)未來會代替?zhèn)鹘y(tǒng)體檢。

基因檢測是在分子水平上對人體遺傳密碼進(jìn)行破譯,通過單核苷酸多態(tài)性GWAS的分析對人體患病風(fēng)險(xiǎn)進(jìn)行預(yù)測,從而進(jìn)行預(yù)防干預(yù)及個(gè)體化治療。目前全基因組測序成本(30X)已經(jīng)不足一萬元,這種測序就是來檢測全部的30億個(gè)堿基對是如何排列的,得到從第一個(gè)到第30億個(gè)堿基的排列方式。

全基因組檢測幫助確診引起某個(gè)疾病的病因,尤其是癌癥病人;或者指導(dǎo)有家族性后發(fā)遺傳病的病人進(jìn)行有針對性的治療,比如安吉麗娜·朱莉接受預(yù)防性的雙側(cè)乳腺切除。

怎么測: 最常用illumina的二代測序,測序長度在150-250bp,取幾百萬的細(xì)胞破碎后,把所有的染色體隨機(jī)打斷成小片段,一個(gè)個(gè)進(jìn)行測序,會測得上億個(gè)片段

【還有一種是三代測序,不需要PCR過程,直接對每一條DNA分子進(jìn)行測序,長度1w-5w nt(因?yàn)闆]有經(jīng)過PCR,一直是單鏈狀態(tài)測,所以不存在堿基對bp,只能稱之為堿基nt),準(zhǔn)確度要低一些】

測哪里: 也就是測序的樣本從哪里獲得?

唾液?:唾液肯定可以提取出DNA,而且也最方便。但是會混在口腔微生物的DNA,即使后來通過比對人類參考基因組來去除污染,但最后大概三成數(shù)據(jù)是要被浪費(fèi)的。目前基于取唾液興起的基因檢測是測一部分高頻變異位點(diǎn),那不是做的全基因組測序,是利用基因芯片技術(shù)進(jìn)行,成本在三位數(shù)


23魔方

血液?除非提供者正患有菌血癥(外界的細(xì)菌經(jīng)由體表的入口或是感染的入口進(jìn)入血液系統(tǒng)后,在人體血液內(nèi)繁殖并隨血流在全身播散),一般血液是最純凈的。從血液里面分離白細(xì)胞然后提取DNA的技術(shù)也是非常成熟的。

測序報(bào)告:


處理流程

數(shù)據(jù)來源:

一般推薦:全基因組測序,覆蓋度30X,也就是90G的raw data,測序策略是PE150,采用illumina的HiSeq X,DNA小片段文庫(350bp)進(jìn)行建庫。

幾個(gè)名詞:

  • 覆蓋度30X:平均下來能把身體內(nèi)的30億個(gè)堿基每個(gè)都測到30次,因?yàn)闇y序是隨機(jī)的,必然有一些測序深度高一點(diǎn),有些低一點(diǎn)

    這個(gè)30的標(biāo)準(zhǔn)怎么定的?為什么不是20X或者更高的40、50X?
    有研究做過飽和度分析~看看5~60X的模擬梯度對尋找遺傳變異的能力差異大小,結(jié)果發(fā)現(xiàn)平均深度達(dá)到30X的時(shí)候,可以覆蓋基因組的95%;另外測序深度越高,價(jià)格越貴,30X的高性價(jià)比足夠挖掘到一定量的遺傳變異Sequencing depth and coverage: key considerations in genomic analyses - Nature Reviews (2014)

  • 90G raw data:測序深度30X,人類基因組大約30億堿基,而一億108 就等于1Gb的測序數(shù)據(jù);拿到的就是3Gb*30X=90Gb。【注意這里的Gb是測序字符的數(shù)量】

  • 測序策略PE150:也就是標(biāo)準(zhǔn)的雙端測序模式(Paired End),目前雙端比單端價(jià)格還要便宜,而且一條序列這邊測一次,另一邊測一次,更準(zhǔn)確。所以一般分析基本也沒有用單端的了。150就是這邊測150bp,那邊測150bp?!井?dāng)然打斷的片段一般是大于300bp的,所以每個(gè)reads中間會有一部分測不到,這就對了!畢竟reads是隨機(jī)打斷,也就是打斷的位置不同。雖然這一條reads的中間部分區(qū)域測不到,但是另外的reads就能測到。如果說,一條reads長度200卻采用雙端150bp,那么中間就會有重疊區(qū)域,被測了兩遍,這在高通量測序中是非常浪費(fèi)資源的,每次測都是要花錢的??!】

  • Hiseq :美國Illumina公司作為二代測序儀生產(chǎn)領(lǐng)先企業(yè),自2006年進(jìn)軍基因測序市場以來,陸續(xù)發(fā)布了HiSeq,MiSeq,NextSeq,NovaSeq等一系列測序儀器。

Hiseq系列~HiSeq 2000,HiSeq 2500,HiSeq 3000,HiSeq 4000
HiSeq系列測序儀問世以來,以通量高,產(chǎn)量大,生產(chǎn)規(guī)模著稱,能夠快速、經(jīng)濟(jì)的進(jìn)行大規(guī)模平行測序,在大型全基因組測序,全轉(zhuǎn)錄組,全外顯子組測序,靶向基因測序方面優(yōu)勢明顯。HiSeq 3000/4000系統(tǒng)基于成熟的HiSeq 2500系統(tǒng),采用創(chuàng)新的有序流動槽技術(shù)最大限度提高效率,3.5天內(nèi)可完成12個(gè)基因組、100個(gè)轉(zhuǎn)錄組或180個(gè)外顯子組測序

HiSeq X系列——HiSeq X Five,HiSeq X Ten
HiSeq X Ten系統(tǒng)的問世完成了人類歷史上一大里程碑事件——千元基因組時(shí)代的到來。HiSeq X Ten系統(tǒng)是由一套共10臺超高通量的HiSeq X儀器組成,其中每臺儀器可在3天內(nèi)產(chǎn)生高達(dá)1.8 Tb測序數(shù)據(jù),即每天高達(dá)600 Gb。10臺聯(lián)合工作,每年能帶來超過18,000個(gè)人類基因組,而每個(gè)基因組的價(jià)格約為1000美元,讓癌癥和復(fù)雜疾病的研究達(dá)到新的水平

至于NovaSeq嘛,應(yīng)該是17年開始交付使用,被稱為“史上最貴洗衣機(jī)”的NovaSeq6000,以其酷炫的外形和美麗的價(jià)格(100w美金)成為了高端測序領(lǐng)導(dǎo)者,旨在沖刺“100美元基因組測序”。它的通量更高,運(yùn)行周期48小時(shí),2個(gè)flowcell每次產(chǎn)生大于2Tb的數(shù)據(jù)。另外還有它兄弟Novaseq 5000,差異就是他們的流動槽,5000可以運(yùn)行S1、S2兩種,6000可以運(yùn)行S1、S2、S3、S4四種,一個(gè)S4流動槽每次運(yùn)行可達(dá)到80-100億數(shù)量的reads / clusters。雙S4流動槽運(yùn)行可以不到兩天內(nèi)解碼48個(gè)人類基因組(6萬億鹼基通量),比雙S2流動槽通量翻三倍

  • DNA小片段(350bp)建庫:根據(jù)公司不同,將DNA用超聲波隨機(jī)打斷成一定長度(如350bp),加接頭,作為測序前的準(zhǔn)備工作,

  • Gb與GB你混了嗎:

    Gb是測序中的數(shù)據(jù)量,1 Gigabase= 十億堿基。人類全基因組測序得到了90G的原始數(shù)據(jù),也就是900億堿基。原始數(shù)據(jù)是fastq格式,而fastq格式是這樣的:第二行中一個(gè)堿基對應(yīng)第四行中的一個(gè)測序質(zhì)量

    得到的900億堿基,也對應(yīng)900億個(gè)質(zhì)量值,加起來就是1800億個(gè)字符
    第一行是測序說明,一般是45個(gè)字符,也就是說,每一條測序reads中第一行就有大概45個(gè)字符。

    那么多少條reads呢?根據(jù)PE150計(jì)算:測序策略是一條reads包括150bp,現(xiàn)在900億堿基,就對應(yīng)900億/150=60億條reads 。因此第一行總字符是:60億*45=270億個(gè)字符。
    注意到fastq文件共四行,其中1、2、4行的總數(shù)量分別為270億、900億、900億,第三行就是一個(gè)+,基本可以忽略不計(jì)。加起來總共2070億字符。計(jì)算機(jī)中,根據(jù)編碼規(guī)則不同,字符與字節(jié)對換關(guān)系不同。

    Fastq文件是ASCII編碼文件,其中每一個(gè)字符就對應(yīng)一個(gè)ASCII碼,也就等于一個(gè)字節(jié)。計(jì)算機(jī)的1 GB(Gigabytes) 是10243 個(gè)字節(jié)
    因此,二者對換關(guān)系就是:全基因組測序的90Gb對應(yīng)(2070*108 /10243 )=

    193GB計(jì)算機(jī)存儲空間。

    或者更快的計(jì)算: 測序報(bào)告會給出reads數(shù),如果測序策略是PE150,那么占用硬盤空間大小就是n(reads)(150+150+45)/10243*

    另外,測序儀下機(jī)后的數(shù)據(jù)都是用gz壓縮后的文件.fastq.gz,能壓縮2.7倍,大概71G左右。


歡迎關(guān)注我們的公眾號~_~  
我們是兩個(gè)農(nóng)轉(zhuǎn)生信的小碩,打造生信星球,想讓它成為一個(gè)不拽術(shù)語、通俗易懂的生信知識平臺。需要幫助或提出意見請后臺留言或發(fā)送郵件到jieandze1314@gmail.com

Welcome to our bioinfoplanet!

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容