sequence assembly

1. DNA測序技術(shù)

第一代：sanger

第二代：高通量 illumina， 454測序，等

2.5代：lon torrent/proton 測序

第三代：pacbio

2.mate-pair（大長度）文庫的構(gòu)建

≥2k 片段→加接頭→環(huán)化→打斷→短片段→回收帶標(biāo)記的片段對較短的片段進行測序

3. 各測序平臺特性

Illumina

reads：49-300bp
錯誤率 1%左右，3‘端會高一點
pair-end文庫（170-40kb）

數(shù)據(jù)格式 4行：（fastq）

reads id，@開頭
序列信息，N代表不確定
質(zhì)量值的id，一般和 reads 的 id 相同
質(zhì)量值的信息（ASCII 碼-64 = 質(zhì)量值）

成對的 reads 對應(yīng)的行號是一樣的。

454

reads：700bp（peak），平均 500
error and indel 錯誤
pair-end 1kb-20kb

數(shù)據(jù)格式：

序列信息：fasta格式，> 開頭 id
質(zhì)量信息：存放于另一個文件中，> 號開頭，直接用數(shù)值表示

4. 組裝的基本思路

策略1：

分級組裝：人類基因組
缺點：實驗環(huán)節(jié)較慢，需要圖譜，消耗高
優(yōu)點：算法簡單，質(zhì)量高

策略2：

鳥槍法（whole-genome shotgun）：
優(yōu)點：實驗簡單，花費低
缺點：計算能力要求，質(zhì)量低

5. 基本概念

overlap：重合部分
contig：組裝的初級序列
pair-end：中間有未知的區(qū)域
scaffold：

6. 基因組大小的估計

流式細胞儀

Kmer 分析

根據(jù)近源物種估計，得到基礎(chǔ)值，得到一些測序數(shù)據(jù)，利用Kmer估計

1. 泊松分布 poisson distribution

測序深度：基因組中每個堿基被測序的頻率。一般情況下，個體測序：30 層

假設(shè)基因組大小為G，隨機測序，read 的長度為L，當(dāng)生成一個read 的時候，一個固定堿基被測到的概率是 L/G， reads 的總量為n_r.

L/G 非常小，而 n_r 非常大，每個堿基被測到的頻率的期望：
d_n = L/G * n_r
它服從泊松分布（n 很大而 p 很小的二項分布）。

Kmer：固定長度的核苷酸序列，奇數(shù)（避免正反鏈一致，中間的肯定不一樣）

假設(shè)基因組中 K 是獨一無二的，則 G 大小的基因組中的 Kmer 的數(shù)量也為G，reads 的長度為 L，則一個固定的 Kmer 被測到的概率為（L- K + 1）/G（因為L上可以有L-K+1個Kmer）。

L-K+1/G 很小，而 n_r 非常大，每個Kmer被測到的頻率的期望和總個數(shù)：
d_k = (L-K+1)/G * n_r
n_k = (L-K+1) * n_r
可推導(dǎo)出：
G = n_k/d_k
d_n/d_k = L/(L-K+1)

image.png

圖片為，reads為100時，Kmer長度為25，在d_n 為 40時， d_k 為30.4。
100/(100-25+1) * 40 = 30.4
基因組大小 G = n_k/d_k

7. Kmer 的其他應(yīng)用

下圖為一個比較簡單的基因組的Kmer分布

image.png

下面較復(fù)雜：

最前面：測序錯誤造成。
兩個峰值：一個峰高，一個峰低（高雜合基因組造成，深度正好差一倍）。
尾部：由于重復(fù)片段造成的。

image.png

下面：

同樣兩個峰，80處有個小峰，基因組帶有高重復(fù)率，但是雜合度不高。

image.png

Kmer在組裝上的應(yīng)用

組裝基于 Kmer 而非 reads

長度為17的Kmer，相鄰有16bp是相同的。

read 上的Kmer數(shù)： L-K+1

8. 基于二代測序結(jié)果的組裝

一些名詞：

image.png

Illumina

原理：根據(jù)Kmer（Kmer 圖）

軟件：SOAPdenovo（華大）、velvet ABySS、ALLPATH-LG

以SOAPdenovo為例：

構(gòu)建圖（De bruijn graph）

image.png

中間的數(shù)字顯示出現(xiàn)的次數(shù)

image.png
簡化圖，并獲得contigs
去掉低頻kmer鏈接（測序錯誤造成的）
利用各種方法去掉其他的錯誤
最終使 reads 連接成為 contigs
將 pair-end mapping 到 contigs 上
a. 將pair-end 定位到 contigs（完整的序列（長于Kmer），存在于reads和contig上）
b. 測序方向的問題。
c. 估計gap的大小，用 N 填充。
構(gòu)建 scaffolds
pair-end 中間 gap 的填充（延伸contig）
a. 利用pair-end 的數(shù)據(jù)
b. 長reads可以跨過洞

sanger/454測序

方法：overlap-layout-consensus

代表軟件：Newber、Celera、Phrap

高雜合基因組

fosmid 文庫 + 鳥槍法（牡蠣為例），花費高，周期長
BAC克隆（華大） + 鳥槍法，花費高，周期長
Ultra-Deep de novo，高深度測序（下一節(jié)），花費少，效果差，周期短

9. 高深度測序原理及方法

利用Kmer分布圖（峰），識別出 unique Kmer 和 repeat Kmer

image.png

10. 影響組裝的因素

1. 測序錯誤

N太多（超過 10%，5%，3%，視數(shù)據(jù)多少而定），去掉

測序質(zhì)量

接頭序列，reads和接頭比對

小的 insert size

去除 PCR duplication

測序錯誤引起的問題

Kmer 峰的前移

糾正
包含錯誤位點的Kmer出現(xiàn)的頻率低，識別出，一次替換為其他三個堿基，直至Kmer的出現(xiàn)頻率變高。

為了不人為改變造成錯誤，一般一個reads只改一個

先糾錯再進行 contigs 的組裝

2. 重復(fù)序列

N50和N90 推測影響

3. 雜合

N50和N90 推測影響

如果雜合度超過千分之5，就要考慮是否考慮高深度測序等。

11. 輔助組裝的技術(shù)

Fosmid-end/ BAC-end
遺傳圖譜和物理圖譜
optical mapping，酶切，獲得片段長度，輔助組裝
The Irys System (BioNano)，密度高
可以偵測 gap 的大小及錯誤的插入

盡量將組裝結(jié)果，連接到假染色體上。

12. 評價基因組

基于長度

N50：contigs從長到短排序，累加到總長50及以上是，那個conig的長度。
N90：同理

genome 的覆蓋度（80%以上）

基于準(zhǔn)確度

與EST 或轉(zhuǎn)錄組數(shù)據(jù) 比對
golden standard （比如 fosmid 等）
同源方法，與同源物種或模式生物比較基因模式

GC 深度和測序深度的分析

下圖，紅圈部分，可能是y染色體

image.png

下圖，紅圈部分，左右兩端的小圈區(qū)域，GC高的部分可能是細菌污染（可以過濾掉相關(guān)reads）

image.png

gap 可能的產(chǎn)生原因：repeat 造成的深度高

基因顛倒，證明是否正確

基因結(jié)構(gòu)預(yù)測，與近源物種比較

13 SOAPdenovo 組裝流程

1. 下機數(shù)據(jù)準(zhǔn)備

后有index，用于區(qū)分樣品

質(zhì)量值：Q = -10 log₁₀P，ASCII碼，減64
PE（pair-end） reads：成對的reads（paired-end reads 和 mate-pair reads）
SE（single-end） reads

2. 過濾，數(shù)據(jù)質(zhì)控

Q20，占全部堿基的80以上。

過濾 adaptor：fastq轉(zhuǎn)化為fasta，利用nucmer將接頭序列與reads相比較，過濾掉adaptor（SOAPfilter）

過濾低質(zhì)量的reads：

N 占太多的過濾掉（10%）

過濾掉 small insert 的 reads

兩端的堿基準(zhǔn)確率可能較低（兩個reads，A,T不相等），可以剪掉

3. 下機數(shù)據(jù)糾錯

KmerFraq_AR_ 軟件
-K 設(shè)置成17，可以估計出小于16G的基因組
關(guān)注最后一個文件，標(biāo)記各種kmer選項。

4. 基因組大小和雜合度的估計

需要軟件
命令：./KmerFreq_AR_v2.0 -k 17 -t 4 -p species fq.lst

5. SOAPdenovo

配制文件，格式在官網(wǎng)上有介紹

avg_ins：插入片段的長度

reverse_seq：是否環(huán)化，0 或 1

... ...

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

【基因組】組裝及原理

1. DNA測序技術(shù)

2.mate-pair（大長度） 文庫的構(gòu)建

3. 各測序平臺特性

Illumina

454

4. 組裝的基本思路

策略1：

策略2：

5. 基本概念

6. 基因組大小的估計

流式細胞儀

Kmer 分析

7. Kmer 的其他應(yīng)用

下圖為一個比較簡單的基因組的Kmer分布

下面較復(fù)雜：

下面：

Kmer在組裝上的應(yīng)用

8. 基于二代測序結(jié)果的組裝

Illumina

sanger/454測序

高雜合基因組

9. 高深度測序原理及方法

10. 影響組裝的因素

1. 測序錯誤

2. 重復(fù)序列

3. 雜合

11. 輔助組裝的技術(shù)

12. 評價基因組

基于長度

基于準(zhǔn)確度

GC 深度和 測序深度的分析

gap 可能的產(chǎn)生原因：repeat 造成的深度高

基因顛倒，證明是否正確

基因結(jié)構(gòu)預(yù)測，與近源物種比較

13 SOAPdenovo 組裝流程

1. 下機數(shù)據(jù)準(zhǔn)備

后有index，用于區(qū)分樣品

2. 過濾，數(shù)據(jù)質(zhì)控

3. 下機數(shù)據(jù)糾錯

4. 基因組大小和雜合度的估計

5. SOAPdenovo

6. SOAPaligner

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

2.mate-pair（大長度）文庫的構(gòu)建

GC 深度和測序深度的分析

基因顛倒，證明是否正確

基因結(jié)構(gòu)預(yù)測，與近源物種比較

2. 過濾，數(shù)據(jù)質(zhì)控