宏基因組組裝:從what 到how

宏基因組分析教程
microPITA | 宏基因組測(cè)序前,你可以這樣篩選樣本
microPITA
加拿大安大略研究所建立的生物信息網(wǎng)

1. 什么是 組裝?

基因組測(cè)序時(shí)將測(cè)得的各短序列拼接成連續(xù)完整的序列

簡(jiǎn)單地說(shuō)就是從reads 到 Scaftig的過(guò)程。


assembly.png

2. 為什么要組裝?

因?yàn)槟壳岸鷾y(cè)序的序列讀長(zhǎng)比較短最長(zhǎng)只有300bp

  • Assembly improves annotation accuracy
Assembly for Metagenomics?

3. 怎樣組裝?

經(jīng)過(guò)預(yù)處理后得到 Clean Data,使用 SOAP denovo(腸道樣品用soapdenovo || soil,water用MEGAHIT)組裝軟件進(jìn)行組裝分析( Assembly Analysis )

不同組裝軟件組裝結(jié)果的對(duì)比

如何選擇組裝軟件:↓↓↓

 if (micro diversity is not a major issue&& the primary research goal is to bin && reconstruct representative bacterial genomes from a given environment){

  metaSPAdes should clearly be the assembler of choice. # This assembler yields the best contig size statistics  while capturing a high degree of community diversity, even at high complexity and low read coverage;

}elsif(mico diversity is however an issue || the degree of
  captured diversity is far more important than contig
  lengths){

  then IDBA-UD or Megahit should be preferred. #  The sensitivity of these assemblers, both for diversity as  well as micro diversity, makes them optimal choices when trying to discover novel species in complex habitats. Whenever computational resources become limiting, 
  Megahit becomes the most attractive option, due to its good compromise between contig size statistics, captured diversity and required memory.
}

 However, the bias of Megahit towards relatively low coverage genomes may provide a disadvantage for very large datasets, leading to a suboptimal assembly of high abundant community member genomes.
 In such cases, Megahit may provide better results when assembling subsets of the sequencing data in a “divide and conquer” approach.
  • Published: January 18, 2017 · plosone

Comparing and Evaluating Metagenome Assembly Tools from a Microbiologist’s Perspective - Not Only Size Matters!

宏基因組組裝有兩種常見(jiàn)策略:

  • 1基于序列overlap關(guān)系進(jìn)行拼接,代表軟件有Omega;
  • 2 基于de Bruijn圖進(jìn)行組裝

由于現(xiàn)階段的主流測(cè)序方法是二代短片段測(cè)序,序列短而且數(shù)目龐大,如果利用overlap關(guān)系直接進(jìn)行組裝,這要求每對(duì)reads之間都進(jìn)行一次序列比較,這會(huì)很耗費(fèi)時(shí)間,而且結(jié)果并不可靠。為迎合二代測(cè)序的特點(diǎn),一種基于k-mer的de Bruijn組裝策略則成為更有效的解決方法。

de Bruijn組裝原理
    SOAPdenovo-63mer all -d 1 -M 3 -R  -u -F  -s KB1.soapdenovo.cfg -K 55 -o 55 1>ass.55.log 2>ass.55.err
-d  <int>         去除kmers頻數(shù)不大于該值(kmerFreqCutoff)的k-mer,默認(rèn)值[0] ##最小化錯(cuò)誤測(cè)序帶來(lái)的影響
-M  <int>         在contiging操作時(shí),合并相似序列的強(qiáng)度,默認(rèn)值為[1],最小值0,最大值3。#deal with heterozygosis
-R  (optional)    移除repeats,使用pregraph步驟中產(chǎn)生的結(jié)果,如果參數(shù)-R在pregraph步驟中被設(shè)置的話(huà),默認(rèn)[NO]
-u  (optional)    構(gòu)建scaffolding前不屏蔽高/低覆蓋度的contigs,這里高頻率覆蓋度指平均contig覆蓋深度的2倍。默認(rèn)[mask]屏蔽
-F  (optional)    對(duì)scaffold內(nèi)部的gap進(jìn)行填充,這個(gè)參數(shù)現(xiàn)在似乎沒(méi)什么用,因?yàn)镾OAPdenovo附帶了一個(gè)Gapcloser工具,就是用于scaffold內(nèi)部填充的。
-s  <string>      solexa reads 的配置文件
-K  <int>         輸入的K-mer值大小,默認(rèn)值[23],取值范圍 13-127 #K-mer值必須是奇數(shù);組裝雜合子基因組的K-mer值應(yīng)該小一點(diǎn);組裝含有高repeats基因組且要求其有高的測(cè)序深度和長(zhǎng)的reads,的K-mer應(yīng)該大一點(diǎn)。
-o  <string>      圖形輸出的文件名前綴

k-mer 如何影響宏基因組組裝 ?
使用de Bruijn graph組裝基因組的時(shí)候,Kmer數(shù)為何必須是奇數(shù)呢

單個(gè)樣品的組裝過(guò)程

算法:SOAPdenovo的一個(gè)組裝過(guò)程
SOAPdenovo組裝軟件使用記錄

組裝的步驟

目前最好最完整的SOAPdenovo使用說(shuō)明

基因組組裝工具之 SOAPdenovo 使用方法

基因組組裝

組裝結(jié)果評(píng)價(jià)

  • N50(N90)的定義
    指基因組組裝結(jié)果中,一半的scaffolds/ contigs長(zhǎng)度都大于這個(gè)值。


    N50

1、 序列一致性評(píng)估:

2、 序列完整性評(píng)估:

3、 準(zhǔn)確性評(píng)估:

4、 保守性基因評(píng)估:

基因組組裝效果評(píng)估
輕松get干貨—《基因組注釋與基因注釋原理及常用軟件使用方法》

混合組裝

什么是混合組裝

將各樣品未被利用上的 reads 放在一起進(jìn)行組裝

為什么要混合組裝
  • 以期發(fā)現(xiàn)樣品中的低豐度物種信息

  • 考慮到在宏基因組組裝中reads利用率很低,單樣品5Gb測(cè)序量情況下,環(huán)境樣品組裝reads利用率一般只有10%左右,腸道樣品或極端環(huán)境樣品組裝reads利用率一般能達(dá)到30%

怎樣進(jìn)行混合組裝
  • Reads mapping

What is a read mapping?

Reads_mapping 來(lái)找出上一步單樣本未被利用的reads

    bowtie2-build --large-index B11.2.scaftigs.fa B11.2.scaftigs.fa 2> bwt.log

    bowtie2  --end-to-end --sensitive  -I 200 -X 400 --threads 8   -x  KB2.scaftigs.fa  -1 KB2_350.nohost.fq1.gz -2  KB2_350.nohost.fq2.gz -S KB2_350.bowtie.sam  2> bowtie.log
-x <bt2-idx> 由bowtie2-build所生成的索引文件的前綴。首先 在當(dāng)前目錄搜尋,然后在環(huán)境變量 BOWTIE2_INDEXES 中制定的文件夾中搜尋。
-1 <m1> 雙末端測(cè)尋對(duì)應(yīng)的文件1??梢詾槎鄠€(gè)文件,并用逗號(hào)分開(kāi);多個(gè)文件必須和 -2 <m2> 中制定的文件一一對(duì)應(yīng)。比如:"-1 flyA_1.fq,flyB_1.fq -2 flyA_2.fq,flyB_2.fq". 測(cè)序文件中的reads的長(zhǎng)度可以不一樣。
-2 <m2> 雙末端測(cè)尋對(duì)應(yīng)的文件2.
-U <r> 非雙末端測(cè)尋對(duì)應(yīng)的文件??梢詾槎鄠€(gè)文件,并用逗號(hào)分開(kāi)。測(cè)序文件中的reads的長(zhǎng)度可以不一樣。
-S <hit> 所生成的SAM格式的文件前綴。默認(rèn)是輸入到標(biāo)準(zhǔn)輸出。
↑↑↑↑↑↑↑必須參數(shù)↑↑↑↑↑↑↑↑↓↓↓↓↓↓↓↓↓↓↓↓可選參數(shù):↓↓↓↓↓↓↓↓↓↓↓↓↓↓
--end-to-end 比對(duì)是將整個(gè)read和參考序列進(jìn)行比對(duì). 該模式--ma的值為0. 該模式為默認(rèn)模式
--sensitive Same as: -D 15 -R 2 -N 0 -L 22 -i S,1,1.15 (default in --end-to-end mode) 
-I/--minins <int> 設(shè)定最小的插入片段長(zhǎng)度. Default: 0.
-X/--maxins <int> 設(shè)定最長(zhǎng)的插入片段長(zhǎng)度. Default: 500.
-p/--threads NTHREADS 設(shè)置線(xiàn)程數(shù). Default: 1

Bowtie2使用方法與參數(shù)詳細(xì)介紹

  • unmmaped.assembly

      SOAPdenovo-63mer  all -d 1 -M 3 -R  -u -F   -s   NOVO_MIX.soapdenovo.cfg -K 55 -o 55 1>ass.55.log 2>ass.55.err
    

句句干貨!一文讀懂宏基因組binning

Microbiome Helper: a Custom and Streamlined Workflow for Microbiome Research
rrnDB: Stoddard et al

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀(guān)點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 熊金波實(shí)驗(yàn)室出品 整理歸納:Larry 本次學(xué)習(xí)使用的服務(wù)器IP地址和其用戶(hù)名賬戶(hù)密碼如下: 地址:gs0.gen...
    Larrylu007閱讀 28,214評(píng)論 10 106
  • 最近接手了宏基因項(xiàng)目,會(huì)在之后接著發(fā)一系列的宏基因組入門(mén)教程,學(xué)習(xí)資料大概來(lái)自國(guó)外的教程。感謝Harriet Al...
    滌生生閱讀 7,678評(píng)論 5 25
  • 復(fù)盤(pán)好多年的觀(guān)察,發(fā)現(xiàn)了一個(gè)尋常但又司空見(jiàn)慣,不為人知的現(xiàn)象。 比如說(shuō) 總可以看到幾個(gè)1米85的高個(gè)子男生在路上一...
    牛犇犇unicorn閱讀 399評(píng)論 0 0
  • 芙蓉猜想(組詩(shī)) 詩(shī)/靜嫻 1、芙蓉沁芳城 料想用一枚花形奠基 城便有了香氣 神龜指引最初的脈絡(luò) 交由壯碩的號(hào)子逐...
    詩(shī)人靜嫻閱讀 864評(píng)論 6 5
  • 表哥是獨(dú)生子 很尷尬的,和他相處。他說(shuō)的都是對(duì)的,什么都要遷就他,而他只不過(guò)是一個(gè)30了沒(méi)工作,沒(méi)...
    李星蝶閱讀 284評(píng)論 0 0

友情鏈接更多精彩內(nèi)容