二代測(cè)序那些事

illumina 二代測(cè)序: 官方文檔介紹不同的測(cè)序方案

1.雙端測(cè)序過(guò)程(雙index 標(biāo)簽策略)

聊一聊最常用的二代測(cè)序那些事: 轉(zhuǎn)錄組分析進(jìn)階 20170319-第01期-Illumina測(cè)序原理

在illumina測(cè)序過(guò)程中關(guān)鍵一步是將文庫(kù)片段固定在flowcell上,然后通過(guò)橋式PCR將片段擴(kuò)增,在被打斷成300~500bp的長(zhǎng)度的片段末端被補(bǔ)平后adaptor將被添加到片段兩端,一方面用于將片段固定在flowcell上,同時(shí)adaptor中還包含橋式PCR所需要的引物 

主要是看一下 : 備注:黑色區(qū)域?yàn)镻7;紅色區(qū)域?yàn)镻5;假設(shè)P5->P7 為正向

  • Step1.首先結(jié)合Read1 Primer ,測(cè)DNA insert 序列

    測(cè)序結(jié)果為DNA 一端的互補(bǔ)序列,方向:P5->P7

  • Step2.洗脫掉,結(jié)合i7 index Primer ,測(cè)標(biāo)簽i7 的index 序列

    測(cè)序結(jié)果為i7 標(biāo)簽index 的互補(bǔ)序列,方向:P5->P7

  • Step3.橋式PCR ,利用Grafted P5 Oligo 作為Primer,測(cè)標(biāo)簽i5 的index序列

    測(cè)序結(jié)果為i5標(biāo)簽的index 的互補(bǔ)序列,方向:P5->P7

  • Step4.延伸完成,再結(jié)合Read2 Primer 進(jìn)行反向測(cè)序

    測(cè)序結(jié)果為DNA另一端序列,方向:P7->P5

2020年3月22日00:57:21

圖示如下:

  • Read1+i7

  • i5 + Read2

2020年3月22日01:27:10

【NGS原創(chuàng)系列二】DNA建庫(kù)那些事兒

image

2.接頭污染通常在哪? BBQ1-5答案

  • adapter 與 primer 區(qū)別:

? adapter在中文是適配器或者接口的意思,在前面的內(nèi)容中已經(jīng)提到將測(cè)序序列打碎成片斷后要將末端補(bǔ)平然后添加adapter,用于與flowcell上的oligo匹配固定并為后續(xù)橋式PCR做準(zhǔn)備,而前面提到的Index與adapter之間的位置關(guān)系一般為adapter1-Index-fragment-adapter2,adapter2通過(guò)與oligo互補(bǔ)連接在flowcell上,在進(jìn)行完橋式PCR之后進(jìn)行測(cè)序時(shí),添加primer,這一段primer的序列是與Index互補(bǔ)的而非adapter1,所以最終拿到的測(cè)序結(jié)果應(yīng)該是Index+fragment+adapter2或者Index+部分fragment :

  • 接頭adapter可能出現(xiàn)在那段?

    從下圖就可以清楚知道。以Read1 為例。當(dāng)① 測(cè)的序列過(guò)長(zhǎng),就會(huì)測(cè)到i7 index Primer 等等,所以通常在3端。

    2020年3月22日02:06:58

?

3.單index 和雙index : INDEX 作用

? 我們知道samplp index (單端index):一條lane能測(cè)得的數(shù)據(jù)量在30G左右,而一個(gè)樣品的測(cè)序量一般不會(huì)這么大,所以在建庫(kù)的時(shí)候?qū)γ恳环N樣品的接頭加上不同的標(biāo)簽序列,這個(gè)標(biāo)簽就叫做Index,有了index就可以同時(shí)在一個(gè)lane中測(cè)多種數(shù)據(jù)了,后期可以根據(jù)index將數(shù)據(jù)分開(kāi) .

一個(gè)fastq 第一行內(nèi)容: 可以看到index 信息

image.png

? 某些時(shí)候我們也需要組合的雙端標(biāo)記 :對(duì)low_input signal cell sequencing(如signal cell ChIP-seq 建庫(kù))過(guò)程中需要雙端index (CDI 組合方法/UDI )進(jìn)行標(biāo)記,進(jìn)行區(qū)分不同細(xì)胞;對(duì)于droplet 技術(shù),通過(guò)Barcode 進(jìn)行區(qū)分就好。

? 如下圖:DNA insert 兩側(cè)添加了i7/i5 接頭,所以read 上會(huì)有index信息。

UDI 示意圖

如CoBATCH 實(shí)驗(yàn)流程:由于Tn5 一般為8bp 序列,但做T5/T7 的barcode 只有1-2百種,不是2**8(需要滿足一定條件的堿基,才可以單作barcode),需要采用的i5 /i7 的排列組合進(jìn)行標(biāo)記細(xì)胞。

2020年3月22日15:54:09

4. 單端和雙端

? 目前有各種各樣的seq技術(shù),大多是建庫(kù)方法不一樣,測(cè)序過(guò)程絕大多數(shù)對(duì)DNA測(cè)序,單端及其雙端兩種。目前來(lái)看單端數(shù)據(jù)比雙端價(jià)格便宜,盡量的選擇雙端測(cè)序,想想測(cè)序就是為了進(jìn)行比對(duì),單雙端比對(duì)差異可以理解成:

  • 雙端:一個(gè)fragment 分成前后兩段,分別進(jìn)行比對(duì),再1判斷兩段比對(duì)位置間距是不是在合理的范圍。

  • 單端:直接進(jìn)行搜索最可能的位置,這樣正確性是不是沒(méi)有雙端高吧。

RNA-seq幾乎都是雙端測(cè)序,去除小RNA(數(shù)據(jù)長(zhǎng)度比較短,單端就可以測(cè)通);ChIP-seq 對(duì)DNA 進(jìn)行比對(duì),不存在可變剪切問(wèn)題,單端數(shù)據(jù)應(yīng)該是可以的,一般來(lái)說(shuō)序列長(zhǎng)度大于30bp 就可以比較精確度定位到human 基因組了。

5.測(cè)序建庫(kù)中Tn5 是什么? rTn5轉(zhuǎn)座酶

? rTn5轉(zhuǎn)座酶是野生型Tn5轉(zhuǎn)座酶的高活性突變體,可以高效的將Tn5轉(zhuǎn)座子插入到目標(biāo)序列。Tn5轉(zhuǎn)座酶識(shí)別Tn5轉(zhuǎn)座子酶序列的內(nèi)端(insideend,IE)、外端(outsideend,OE)和嵌合端(mosaicend,ME)序列,含有ME序列片段的體外轉(zhuǎn)座效率最高。rTn5轉(zhuǎn)座酶的插入位點(diǎn)具有很高的隨機(jī)性,因此被廣泛的用于體外轉(zhuǎn)基因(外源基因整合到宿主細(xì)胞)和二代測(cè)序建庫(kù)等領(lǐng)域。

image.png
  • 體外轉(zhuǎn)基因操作

? rTn5轉(zhuǎn)座酶可以將含有成對(duì)識(shí)別序列的雙鏈DNA片段(如下圖所示)隨機(jī)整合到宿主細(xì)胞的基因組中。整合的過(guò)程分為兩步:首先,rTn5轉(zhuǎn)座酶同含有選擇標(biāo)記和識(shí)別序列的目標(biāo)基因片段結(jié)合,形成轉(zhuǎn)座體(Transposome);之后,通過(guò)轉(zhuǎn)化的方式將轉(zhuǎn)座體導(dǎo)入宿主細(xì)胞,利用選擇標(biāo)記篩選成功整合目標(biāo)基因的宿主細(xì)胞。

image.png
    當(dāng)識(shí)別序列為ME接頭時(shí):5 ?-CTGTCTCTTATACACATCT-選擇標(biāo)記-目標(biāo)基因-AGATGTGTATAAGAGACAG-3 ?,要求該序列為雙鏈片段(可以通過(guò)PCR等方法獲得)。 
  • 二代建庫(kù)測(cè)序 Illumina 平臺(tái)二代測(cè)序文庫(kù)構(gòu)建原理簡(jiǎn)介

    En-Tz5轉(zhuǎn)座酶在體內(nèi)或體外,通過(guò)在靶DNA上產(chǎn)生一個(gè)9個(gè)堿基的序列的缺口,然后將轉(zhuǎn)座子DNA的5′-末端連接到缺口DNA的3′-末端來(lái)起始插入過(guò)程。9個(gè)堿基的缺口隨后被宿主細(xì)胞的DNA聚合酶(或Klenow片段)補(bǔ)平,從而在插入位點(diǎn)兩端形成9個(gè)堿基的正向重復(fù)。這種插入是高度穩(wěn)定的,通常不能用轉(zhuǎn)座酶直接反轉(zhuǎn)。

    “mosaic” end‐recognition sequence (ME序列)是需要插入的序列.P5->P7 方向~

    • Tn5 建庫(kù)流程:

      Tn5 轉(zhuǎn)座酶和19bp的ME序列(含有測(cè)序的adapter) 組成轉(zhuǎn)座酶復(fù)合物.

2020年3月22日13:39:18
  • 從序列的角度部分:

    使用Nextera XT樣品制備試劑盒進(jìn)行cDNA的片段化和標(biāo)簽標(biāo)記,試劑盒的標(biāo)記反應(yīng)利用Tn5的特性把cDNA打斷的同時(shí),把s5 s7整合到打斷后的cDNA片段上

image.png

? 當(dāng) s5 s7在片段的兩端,在后續(xù)步驟能夠被有效擴(kuò)增 .

image.png

兩個(gè)具體的測(cè)序運(yùn)用

1.單細(xì)胞RNA-seq測(cè)序

samrt-seq2 與10 x 建庫(kù)測(cè)序差別

當(dāng)下應(yīng)用最火熱的是10X Genomics公司的解決方案

  • 10x genomics 建庫(kù)測(cè)序:

    • gel beads: 凝膠微珠

    • 10x Barcode: 為了區(qū)分不同細(xì)胞的標(biāo)簽;400萬(wàn)barcode,16個(gè)堿基長(zhǎng)度

    • UMI:一個(gè)隨機(jī)序列,10個(gè)堿基,為了避免PCR擴(kuò)增偏差,通過(guò)UMI對(duì)每一個(gè)DNA 片段進(jìn)行標(biāo)記。

    • Poly(dT)N :當(dāng)擴(kuò)增引物,進(jìn)行擴(kuò)增。

    2020年3月21日22:02:21

    加上接頭P5,P7,進(jìn)行建庫(kù)測(cè)序.

    2020年3月21日22:09:50

10x genomes 有10萬(wàn)個(gè)barcode,一般一個(gè)細(xì)胞存在1個(gè)barcode.通過(guò)barcode 進(jìn)行拆封read,也存在一個(gè)barcode 對(duì)應(yīng)了多個(gè)細(xì)胞,最好少于1萬(wàn)個(gè)細(xì)胞。也可以進(jìn)行跨物種分析,查看collusion 比例。10X分析單細(xì)胞表達(dá)

一個(gè)細(xì)胞大約有40000-80000個(gè)UMI,平均一個(gè)基因有10個(gè)UMI,進(jìn)而進(jìn)行分析.

2020年3月21日21:17:36
  • smart-seq2建庫(kù): 解析單細(xì)胞RNA-Seq Nature文章 單細(xì)胞建庫(kù) 單細(xì)胞smart-seq2建庫(kù)原理

    意義:某些特殊或者少量細(xì)胞樣本的單細(xì)胞轉(zhuǎn)錄組研究中,Smart-seq2技術(shù)還是一項(xiàng)研究利器

    難點(diǎn):PCR 擴(kuò)增很多倍,如何均勻的擴(kuò)增;如何提取mRNA ,而不含有rRNA.

    要點(diǎn):PCR擴(kuò)增效率和引物序列有關(guān)系,smart-seq 采用相同的引物,保證擴(kuò)增效率,減少PCR偏差; 最新的方法,用的Tn5加接頭,不同I5、I7 Index組合使其能夠進(jìn)行多樣品混合測(cè)序 。

    步驟:

    • Oligo(dT) primer 含有特殊引物,剛好結(jié)合到ployA位置

    • 用MMLV逆轉(zhuǎn)錄酶,在DNA 3‘ 位置添加3個(gè)CCC.

    • 上有引物含有rnaGGG,可以與CCC 互補(bǔ)配對(duì),利用MMLV酶進(jìn)行擴(kuò)增

    • 得到雙鏈的cDNA 引物,并且兩端含有人工設(shè)計(jì)的PCR引物,進(jìn)行常規(guī)的PCR擴(kuò)增,就可以打斷建庫(kù)測(cè)序,上機(jī)。(現(xiàn)在改進(jìn)了方法,不需要進(jìn)行打斷,直接進(jìn)行Tn5加接頭,提高建庫(kù)效率)

image.png

分析測(cè)序接頭問(wèn)題:Tn5 需要了解的知識(shí)

  • 加入文庫(kù)PCR引物進(jìn)行文庫(kù)擴(kuò)增

    加入N/S5xx and N7xx index引物對(duì)上一步標(biāo)簽化的文庫(kù)進(jìn)行擴(kuò)增

image.png
image.png
  • 最終上機(jī)測(cè)序文庫(kù)組成
image.png

具體接頭和引物序列如下:

  • oligo-dTV

5'- AAGCAGTGGTATCAACGCAGAGTACTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTVN -3'

  • Template Switching Oligo (TSO)

5'- AAGCAGTGGTATCAACGCAGAGTACATrGrG+G -3'

  • ISPCR

5′- AAGCAGTGGTATCAACGCAGAGT -3′

  • Nextera Tn5 binding site (19-bp Mosaic End (ME))

5'- AGATGTGTATAAGAGACAG -3'

  • Nextera N/S5xx primer entry point (s5)

5'- <u>TCGTCGGCAGCGTC</u> -3'

  • Nextera N7xx primer entry point (s7)

5'- GTCTCGTGGGCTCGG -3'

  • Illumina P5 adapter

5'- AATGATACGGCGACCACCGAGATCTACAC -3'

  • Illumina P7 adapter

5'- *CAAGCAGAAGACGGCATACGAGAT* -3'

  • Nextera (XT) N/S5xx Index primer

5'- AATGATACGGCGACCACCGAGATCTACAC[8-bp i5 index]<u>TCGTCGGCAGCGTC</u> -3'

  • Nextera (XT) N7xx Index primer

5'- *CAAGCAGAAGACGGCATACGAGAT*[8-bp i7 index]GTCTCGTGGGCTCGG -3'

  • Read 1 sequencing primer

5'- <u>TCGTCGGCAGCGTC</u>AGATGTGTATAAGAGACAG -3'

  • Index 1 sequencing primer

5'- CTGTCTCTTATACACATCTCCGAGCCCACGAGAC -3'

  • Read 2 sequencing primer

5'- GTCTCGTGGGCTCGGAGATGTGTATAAGAGACAG -3'

8-bp i5 & i7 序列

N/S502 : CTCTCTAT
N/S503 : TATCCTCT
N/S505 : GTAAGGAG
N/S506 : ACTGCATA
N/S507 : AAGGAGTA
N/S508 : CTAAGCCT
N/S510 : CGTCTAAT
N/S511 : TCTCTCCG
N/S513 : TCGACTAG
N/S515 : TTCTAGCT
N/S516 : CCTAGAGT
N/S517 : GCGTAAGA
N/S518 : CTATTAAG
N/S520 : AAGGCTAT
N/S521 : GAGCCTTA
N/S522 : TTATGCGA

N701 : TCGCCTTA
N702 : CTAGTACG
N703 : TTCTGCCT
N704 : GCTCAGGA
N705 : AGGAGTCC
N706 : CATGCCTA
N707 : GTAGAGAG
N710 : CAGCCTCG
N711 : TGCCTCTT
N712 : TCCTCTAC
N714 : TCATGAGC
N715 : CCTGAGAT
N716 : TAGCGAGT
N718 : GTAGCTCC
N719 : TACTACGC
N720 : AGGCTCCG
N721 : GCAGCGTA
N722 : CTGCGCAT
N723 : GAGCGCTA
N724 : CGCTCAGT
N726 : GTCTTAGG
N727 : ACTGATCG
N728 : TAGCTGCA
N729 : GACGTCGA

總結(jié):從Read 1 sequencing primer 可以知道,測(cè)序的引物為s5+ME ,所以和普通的Truseq RNA-seq結(jié)果是一樣的,fastqc 去檢測(cè)接頭.trim接頭(Nextera接頭)

image.png

2.單細(xì)胞ChIP-seq測(cè)序(scit-ChIP文章 )

? scit-ChIP-Seq 建庫(kù)策略: Truseq library preparation method for low-input and single-cell itChIP.

  • 實(shí)驗(yàn)流程:T5,T7 進(jìn)行組合,對(duì)細(xì)胞進(jìn)行標(biāo)記
流程
  • 序列上變化:
2020年3月22日15:52:12

a, Overview of the design of mosaic Truseq library preparation for a sequencing using Illumina’s standard recipe. T5 and T7 barcodes are introduced during barcoded Tn5 tagmentation to distinguish between single cells. PCR indexes are introduced during the 2nd PCR to separate itChIP libraries. The resulting libraries are sequenced by PE150 on Novaseq 6000 or Hiseq X-Ten platforms (Illumina). nt, nucleotides

? 意思說(shuō):通過(guò)Tn5 進(jìn)行加入標(biāo)簽來(lái)區(qū)分不同細(xì)胞;再通過(guò)1st PCR 加入序列擴(kuò)增引物;再通過(guò)2st PCR 加入測(cè)序接頭: (有沒(méi)有發(fā)現(xiàn)和smart-seq2 P5/P7 接頭序列非常相似,可能illumia測(cè)序都用的這種測(cè)序接頭)

P5( 5'- AATGATACGGCGACCACCGAGATCT -3' )

P7( 5'- CAAGCAGAAGACGGCATACGAGAT -3' ),

PCR index(和普通的建庫(kù)index一樣可能,單index 用于標(biāo)記lane中多個(gè)文庫(kù);而不是用單index 區(qū)分細(xì)胞)

總結(jié):有圖示可以看出,測(cè)到的序列包括T5-barcode, DNA insert ,T7-barcode,后續(xù)分析需要去除barcode 進(jìn)行比對(duì)。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容