sequence assembly
1. DNA測序技術(shù)
第一代:sanger
第二代:高通量 illumina, 454測序,等
2.5代:lon torrent/proton 測序
第三代:pacbio
2.mate-pair(大長度) 文庫的構(gòu)建
≥2k 片段→加接頭→環(huán)化→打斷→短片段→回收帶標(biāo)記的片段對較短的片段進行測序
3. 各測序平臺特性
Illumina
reads:49-300bp
錯誤率 1%左右,3‘端會高一點
pair-end文庫(170-40kb)
數(shù)據(jù)格式 4行:(fastq)
- reads id,@開頭
- 序列信息,N代表不確定
- 質(zhì)量值的id,一般和 reads 的 id 相同
- 質(zhì)量值的信息(ASCII 碼-64 = 質(zhì)量值)
成對的 reads 對應(yīng)的行號是一樣的。
454
reads:700bp(peak),平均 500
error and indel 錯誤
pair-end 1kb-20kb
數(shù)據(jù)格式:
- 序列信息:fasta格式,> 開頭 id
- 質(zhì)量信息:存放于另一個文件中,> 號開頭,直接用數(shù)值表示
4. 組裝的基本思路
策略1:
分級組裝:人類基因組
缺點:實驗環(huán)節(jié)較慢,需要圖譜,消耗高
優(yōu)點:算法簡單,質(zhì)量高
策略2:
鳥槍法(whole-genome shotgun):
優(yōu)點:實驗簡單,花費低
缺點:計算能力要求,質(zhì)量低
5. 基本概念
overlap:重合部分
contig:組裝的初級序列
pair-end:中間有未知的區(qū)域
scaffold:
6. 基因組大小的估計
流式細胞儀
Kmer 分析
根據(jù)近源物種估計,得到基礎(chǔ)值,得到一些測序數(shù)據(jù),利用Kmer估計
1. 泊松分布 poisson distribution
測序深度:基因組中每個堿基被測序的頻率。一般情況下,個體測序:30 層
假設(shè)基因組大小為G,隨機測序,read 的長度為L,當(dāng)生成一個read 的時候,一個固定堿基被測到的概率是 L/G, reads 的總量為n_r.
L/G 非常小,而 n_r 非常大,每個堿基被測到的頻率的期望:
d_n = L/G * n_r
它服從泊松分布(n 很大而 p 很小的二項分布)。
Kmer:固定長度的核苷酸序列,奇數(shù)(避免正反鏈一致,中間的肯定不一樣)
假設(shè)基因組中 K 是獨一無二的,則 G 大小的基因組中的 Kmer 的數(shù)量也為G,reads 的長度為 L,則一個固定的 Kmer 被測到的概率為(L- K + 1)/G(因為L上可以有L-K+1個Kmer)。
L-K+1/G 很小,而 n_r 非常大,每個Kmer被測到的頻率的期望和總個數(shù):
d_k = (L-K+1)/G * n_r
n_k = (L-K+1) * n_r
可推導(dǎo)出:
G = n_k/d_k
d_n/d_k = L/(L-K+1)

圖片為,reads為100時,Kmer長度為25,在d_n 為 40時, d_k 為30.4。
100/(100-25+1) * 40 = 30.4
基因組大小 G = n_k/d_k
7. Kmer 的其他應(yīng)用
下圖為一個比較簡單的基因組的Kmer分布

下面較復(fù)雜:
最前面:測序錯誤造成。
兩個峰值:一個峰高,一個峰低(高雜合基因組造成,深度正好差一倍)。
尾部:由于重復(fù)片段造成的。

下面:
同樣兩個峰,80處有個小峰,基因組帶有高重復(fù)率,但是雜合度不高。

Kmer在組裝上的應(yīng)用
組裝基于 Kmer 而非 reads
長度為17的Kmer,相鄰有16bp是相同的。
read 上的Kmer數(shù): L-K+1
8. 基于二代測序結(jié)果的組裝
一些名詞:

Illumina
原理:根據(jù)Kmer(Kmer 圖)
軟件:SOAPdenovo(華大)、velvet ABySS、ALLPATH-LG
以SOAPdenovo為例:
-
構(gòu)建圖(De bruijn graph)
image.png
中間的數(shù)字顯示出現(xiàn)的次數(shù)
image.png - 簡化圖,并獲得contigs
去掉低頻kmer鏈接(測序錯誤造成的)
利用各種方法去掉其他的錯誤
最終使 reads 連接成為 contigs - 將 pair-end mapping 到 contigs 上
a. 將pair-end 定位到 contigs(完整的序列(長于Kmer),存在于reads和contig上)
b. 測序方向的問題。
c. 估計gap的大小,用 N 填充。 - 構(gòu)建 scaffolds
- pair-end 中間 gap 的填充(延伸contig)
a. 利用pair-end 的數(shù)據(jù)
b. 長reads可以跨過洞
sanger/454測序
方法:overlap-layout-consensus
代表軟件:Newber、Celera、Phrap
高雜合基因組
fosmid 文庫 + 鳥槍法(牡蠣為例),花費高,周期長
BAC克隆(華大) + 鳥槍法,花費高,周期長
Ultra-Deep de novo,高深度測序 (下一節(jié)),花費少,效果差,周期短
9. 高深度測序原理及方法
利用Kmer分布圖(峰),識別出 unique Kmer 和 repeat Kmer

10. 影響組裝的因素
1. 測序錯誤
N太多(超過 10%,5%,3%,視數(shù)據(jù)多少而定),去掉
測序質(zhì)量
接頭序列,reads和接頭比對
小的 insert size
去除 PCR duplication
測序錯誤引起的問題
Kmer 峰的前移
糾正
包含錯誤位點的Kmer出現(xiàn)的頻率低,識別出,一次替換為其他三個堿基,直至Kmer的出現(xiàn)頻率變高。
為了不人為改變造成錯誤,一般一個reads只改一個
先糾錯 再進行 contigs 的組裝
2. 重復(fù)序列
N50和N90 推測影響
3. 雜合
N50和N90 推測影響
如果雜合度超過千分之5,就要考慮是否考慮 高深度測序等。
11. 輔助組裝的技術(shù)
- Fosmid-end/ BAC-end
- 遺傳圖譜和物理圖譜
- optical mapping,酶切,獲得片段長度,輔助組裝
- The Irys System (BioNano),密度高
可以偵測 gap 的大小及錯誤的插入
盡量將組裝結(jié)果,連接到假染色體上。
12. 評價基因組
基于長度
N50:contigs從長到短排序,累加到總長50及以上是,那個conig的長度。
N90:同理
genome 的覆蓋度(80%以上)
基于準(zhǔn)確度
與EST 或 轉(zhuǎn)錄組數(shù)據(jù) 比對
golden standard (比如 fosmid 等)
同源方法,與同源物種或模式生物比較基因模式
GC 深度和 測序深度的分析
下圖,紅圈部分,可能是y染色體

下圖,紅圈部分,左右兩端的小圈區(qū)域,GC高的部分可能是細菌污染(可以過濾掉相關(guān)reads)


gap 可能的產(chǎn)生原因:repeat 造成的深度高
基因顛倒,證明是否正確
基因結(jié)構(gòu)預(yù)測,與近源物種比較
13 SOAPdenovo 組裝流程
1. 下機數(shù)據(jù)準(zhǔn)備
后有index,用于區(qū)分樣品
質(zhì)量值:Q = -10 log10P,ASCII碼,減64
PE(pair-end) reads:成對的reads(paired-end reads 和 mate-pair reads)
SE(single-end) reads
2. 過濾,數(shù)據(jù)質(zhì)控
Q20,占全部堿基的80以上。
過濾 adaptor:fastq轉(zhuǎn)化為fasta,利用nucmer將接頭序列與reads相比較,過濾掉adaptor(SOAPfilter)
過濾低質(zhì)量的reads:
N 占太多的 過濾掉(10%)
過濾掉 small insert 的 reads
兩端的堿基準(zhǔn)確率可能較低(兩個reads,A,T不相等),可以剪掉
3. 下機數(shù)據(jù)糾錯
KmerFraq_AR_ 軟件
-K 設(shè)置成17,可以估計出小于16G的基因組
關(guān)注最后一個文件,標(biāo)記各種kmer選項。
4. 基因組大小和雜合度的估計
需要軟件
命令:./KmerFreq_AR_v2.0 -k 17 -t 4 -p species fq.lst
5. SOAPdenovo
配制文件,格式在官網(wǎng)上有介紹
avg_ins: 插入片段的長度
reverse_seq:是否環(huán)化,0 或 1
... ...

