宏基因組分析教程
microPITA | 宏基因組測(cè)序前,你可以這樣篩選樣本
microPITA
加拿大安大略研究所建立的生物信息網(wǎng)
1. 什么是 組裝?
基因組測(cè)序時(shí)將測(cè)得的各短序列拼接成連續(xù)完整的序列
簡(jiǎn)單地說(shuō)就是從reads 到 Scaftig的過(guò)程。

2. 為什么要組裝?
因?yàn)槟壳岸鷾y(cè)序的序列讀長(zhǎng)比較短最長(zhǎng)只有300bp
- Assembly improves annotation accuracy

3. 怎樣組裝?
經(jīng)過(guò)預(yù)處理后得到 Clean Data,使用 SOAP denovo(腸道樣品用soapdenovo || soil,water用MEGAHIT)組裝軟件進(jìn)行組裝分析( Assembly Analysis )

如何選擇組裝軟件:↓↓↓
if (micro diversity is not a major issue&& the primary research goal is to bin && reconstruct representative bacterial genomes from a given environment){
metaSPAdes should clearly be the assembler of choice. # This assembler yields the best contig size statistics while capturing a high degree of community diversity, even at high complexity and low read coverage;
}elsif(mico diversity is however an issue || the degree of
captured diversity is far more important than contig
lengths){
then IDBA-UD or Megahit should be preferred. # The sensitivity of these assemblers, both for diversity as well as micro diversity, makes them optimal choices when trying to discover novel species in complex habitats. Whenever computational resources become limiting,
Megahit becomes the most attractive option, due to its good compromise between contig size statistics, captured diversity and required memory.
}
However, the bias of Megahit towards relatively low coverage genomes may provide a disadvantage for very large datasets, leading to a suboptimal assembly of high abundant community member genomes.
In such cases, Megahit may provide better results when assembling subsets of the sequencing data in a “divide and conquer” approach.
- Published: January 18, 2017 · plosone
宏基因組組裝有兩種常見(jiàn)策略:
- 1基于序列overlap關(guān)系進(jìn)行拼接,代表軟件有Omega;
- 2 基于de Bruijn圖進(jìn)行組裝
由于現(xiàn)階段的主流測(cè)序方法是二代短片段測(cè)序,序列短而且數(shù)目龐大,如果利用overlap關(guān)系直接進(jìn)行組裝,這要求每對(duì)reads之間都進(jìn)行一次序列比較,這會(huì)很耗費(fèi)時(shí)間,而且結(jié)果并不可靠。為迎合二代測(cè)序的特點(diǎn),一種基于k-mer的de Bruijn組裝策略則成為更有效的解決方法。

SOAPdenovo-63mer all -d 1 -M 3 -R -u -F -s KB1.soapdenovo.cfg -K 55 -o 55 1>ass.55.log 2>ass.55.err
-d <int> 去除kmers頻數(shù)不大于該值(kmerFreqCutoff)的k-mer,默認(rèn)值[0] ##最小化錯(cuò)誤測(cè)序帶來(lái)的影響
-M <int> 在contiging操作時(shí),合并相似序列的強(qiáng)度,默認(rèn)值為[1],最小值0,最大值3。#deal with heterozygosis
-R (optional) 移除repeats,使用pregraph步驟中產(chǎn)生的結(jié)果,如果參數(shù)-R在pregraph步驟中被設(shè)置的話(huà),默認(rèn)[NO]
-u (optional) 構(gòu)建scaffolding前不屏蔽高/低覆蓋度的contigs,這里高頻率覆蓋度指平均contig覆蓋深度的2倍。默認(rèn)[mask]屏蔽
-F (optional) 對(duì)scaffold內(nèi)部的gap進(jìn)行填充,這個(gè)參數(shù)現(xiàn)在似乎沒(méi)什么用,因?yàn)镾OAPdenovo附帶了一個(gè)Gapcloser工具,就是用于scaffold內(nèi)部填充的。
-s <string> solexa reads 的配置文件
-K <int> 輸入的K-mer值大小,默認(rèn)值[23],取值范圍 13-127 #K-mer值必須是奇數(shù);組裝雜合子基因組的K-mer值應(yīng)該小一點(diǎn);組裝含有高repeats基因組且要求其有高的測(cè)序深度和長(zhǎng)的reads,的K-mer應(yīng)該大一點(diǎn)。
-o <string> 圖形輸出的文件名前綴
k-mer 如何影響宏基因組組裝 ?
使用de Bruijn graph組裝基因組的時(shí)候,Kmer數(shù)為何必須是奇數(shù)呢

算法:SOAPdenovo的一個(gè)組裝過(guò)程
SOAPdenovo組裝軟件使用記錄

組裝結(jié)果評(píng)價(jià)
-
N50(N90)的定義
指基因組組裝結(jié)果中,一半的scaffolds/ contigs長(zhǎng)度都大于這個(gè)值。
N50
1、 序列一致性評(píng)估:
2、 序列完整性評(píng)估:
3、 準(zhǔn)確性評(píng)估:
4、 保守性基因評(píng)估:
基因組組裝效果評(píng)估
輕松get干貨—《基因組注釋與基因注釋原理及常用軟件使用方法》
混合組裝
什么是混合組裝
將各樣品未被利用上的 reads 放在一起進(jìn)行組裝
為什么要混合組裝
以期發(fā)現(xiàn)樣品中的低豐度物種信息
考慮到在宏基因組組裝中reads利用率很低,單樣品5Gb測(cè)序量情況下,環(huán)境樣品組裝reads利用率一般只有10%左右,腸道樣品或極端環(huán)境樣品組裝reads利用率一般能達(dá)到30%
怎樣進(jìn)行混合組裝
- Reads mapping
Reads_mapping 來(lái)找出上一步單樣本未被利用的reads
bowtie2-build --large-index B11.2.scaftigs.fa B11.2.scaftigs.fa 2> bwt.log
bowtie2 --end-to-end --sensitive -I 200 -X 400 --threads 8 -x KB2.scaftigs.fa -1 KB2_350.nohost.fq1.gz -2 KB2_350.nohost.fq2.gz -S KB2_350.bowtie.sam 2> bowtie.log
-x <bt2-idx> 由bowtie2-build所生成的索引文件的前綴。首先 在當(dāng)前目錄搜尋,然后在環(huán)境變量 BOWTIE2_INDEXES 中制定的文件夾中搜尋。
-1 <m1> 雙末端測(cè)尋對(duì)應(yīng)的文件1??梢詾槎鄠€(gè)文件,并用逗號(hào)分開(kāi);多個(gè)文件必須和 -2 <m2> 中制定的文件一一對(duì)應(yīng)。比如:"-1 flyA_1.fq,flyB_1.fq -2 flyA_2.fq,flyB_2.fq". 測(cè)序文件中的reads的長(zhǎng)度可以不一樣。
-2 <m2> 雙末端測(cè)尋對(duì)應(yīng)的文件2.
-U <r> 非雙末端測(cè)尋對(duì)應(yīng)的文件??梢詾槎鄠€(gè)文件,并用逗號(hào)分開(kāi)。測(cè)序文件中的reads的長(zhǎng)度可以不一樣。
-S <hit> 所生成的SAM格式的文件前綴。默認(rèn)是輸入到標(biāo)準(zhǔn)輸出。
↑↑↑↑↑↑↑必須參數(shù)↑↑↑↑↑↑↑↑↓↓↓↓↓↓↓↓↓↓↓↓可選參數(shù):↓↓↓↓↓↓↓↓↓↓↓↓↓↓
--end-to-end 比對(duì)是將整個(gè)read和參考序列進(jìn)行比對(duì). 該模式--ma的值為0. 該模式為默認(rèn)模式
--sensitive Same as: -D 15 -R 2 -N 0 -L 22 -i S,1,1.15 (default in --end-to-end mode)
-I/--minins <int> 設(shè)定最小的插入片段長(zhǎng)度. Default: 0.
-X/--maxins <int> 設(shè)定最長(zhǎng)的插入片段長(zhǎng)度. Default: 500.
-p/--threads NTHREADS 設(shè)置線(xiàn)程數(shù). Default: 1
-
unmmaped.assembly
SOAPdenovo-63mer all -d 1 -M 3 -R -u -F -s NOVO_MIX.soapdenovo.cfg -K 55 -o 55 1>ass.55.log 2>ass.55.err
Microbiome Helper: a Custom and Streamlined Workflow for Microbiome Research
rrnDB: Stoddard et al

