bowtie2比對(duì)軟件的安裝及參數(shù)詳解

測(cè)序數(shù)據(jù)分析軟件,Bowtie是一個(gè)超快的,存儲(chǔ)高效的短序列片段比對(duì)程序。它能夠以每小時(shí)處理2500萬(wàn)35bp reads的速度,將短的DNA序列片段(reads)比對(duì)到人類基因組上。

一、安裝

  • conda安裝
conda install -y bowtie2
  • 傳統(tǒng)安裝

1、下載源碼包

nohup wget https://nchc.dl.sourceforge.net/project/bowtie-bio/bowtie2/2.3.5.1/bowtie2-2.3.5.1-linux-x86_64.zip

2、解壓

unzip bowtie2-2.3.5.1-linux-x86_64.zip

3、添加環(huán)境變量

vim ~/.bashrc
export PATH="/data/hushy/tools/bowtie2:$PATH"
source ~/.bashrc  # source命令通常用于重新執(zhí)行剛修改的初始化文件

4、測(cè)試

bowtie2 --help

二、創(chuàng)建索引

1、下載參考基因組

less -S /data/database/kraken2/NT/library/nt/library.fna

2、創(chuàng)建索引

nohup bowtie2-build /data/database/kraken2/NT/library/nt/library.fna index &  #內(nèi)存很大,可能會(huì)把服務(wù)器節(jié)點(diǎn)搞掛

三、下載官方索引

nohup wget ftp://ftp.ccb.jhu.edu/pub/data/bowtie2_indexes/mm10.zip &
unzip mm10.zip
rm mm10.zip make_mm10.sh

四、基本用法

  • 語(yǔ)法
Usage: 
  bowtie2 [options]* -x <index> {-1 <m1> -2 <m2> | -U <r> | --interleaved <i> | -b <bam>} [-S <sam>]
  • 參數(shù)選項(xiàng)
    • 必選參數(shù)
-x  由bowtie2-build所生成的索引文件的前綴,需要指定路徑及其共用文件名
-1  使用trimmomatic質(zhì)控后與read2配對(duì)(paired)的read1??梢詾槎鄠€(gè)文件,并用逗號(hào)分開;多個(gè)文件必須和 -2 <m2> 中制定的文件一一對(duì)應(yīng)。
-2  使用trimmomatic質(zhì)控后與read1配對(duì)的read2
-U  使用trimmomatic質(zhì)控后未配對(duì)(unpaired)的reads??梢詾槎鄠€(gè)文件,并用逗號(hào)分開,測(cè)序文件中的reads的長(zhǎng)度可以不一樣。
-S  所生成的SAM格式的文件前綴。默認(rèn)是輸入到標(biāo)準(zhǔn)輸出。
  • 可選參數(shù)

    • 輸入?yún)?shù)
-q                輸入的文件為FASTQ格式文件,此項(xiàng)為默認(rèn)值
-f                輸入的文件為FASTA格式文件
-5/--trim5 <int>  剪掉5'端<int>長(zhǎng)度的堿基,再用于比對(duì)。(default: 0)
-3/--trim3 <int>  剪掉3'端<int>長(zhǎng)度的堿基,再用于比對(duì)。(default: 0).
--phred33         輸入的堿基質(zhì)量等于ASCII+33
  • Paired-end 參數(shù)
--no-mixed       默認(rèn)設(shè)置下, 一對(duì)reads不能成對(duì)比對(duì)到參考序列上, 則單獨(dú)對(duì)每個(gè)read進(jìn)行比對(duì). 該選項(xiàng)則阻止此行為.
--no-discordant  默認(rèn)設(shè)置下, 一對(duì)reads不能和諧比對(duì)(concordant alignment,即滿足-I, -X, --fr/--rf/--ff的條件)到參考序列上, 則搜尋其不和諧比對(duì)(disconcordant alignment, 即兩條reads都能獨(dú)一無(wú)二地比對(duì)到參考序列上, 但是不滿足-I,-X,--fr/--rf/--ff的條件). 該選項(xiàng)阻止此行為.
  • –end-to-end模式下的預(yù)設(shè)參數(shù)
--end-to-end 比對(duì)是將整個(gè)read和參考序列進(jìn)行比對(duì). 該模式--ma的值為0. 該模式為默認(rèn)模式, --local模式?jīng)_突.
--local 該模式下對(duì)read進(jìn)行局部比對(duì), 從而, read兩端的一些堿基不比對(duì),從而使比對(duì)得分滿足要求. 該模式下 –ma默認(rèn)為2.
--very-fast Same as: -D 5 -R 1 -N 0 -L 22 -i S,0,2.50 
--fast Same as: -D 10 -R 2 -N 0 -L 22 -i S,0,2.50 
--sensitive Same as: -D 15 -R 2 -N 0 -L 22 -i S,1,1.15 (default in --end-to-end mode) 
--very-sensitive Same as: -D 20 -R 3 -N 0 -L 20 -i S,1,0.50
  • 報(bào)告參數(shù)
-k   默認(rèn)設(shè)置下, bowtie2搜索出了一個(gè)read不同的比對(duì)結(jié)果, 并報(bào)告其中最好的比對(duì)結(jié)果(如果好幾個(gè)最好的比對(duì)結(jié)果得分一致, 則隨機(jī)挑選出其中一個(gè)). 而在該模式下, bowtie2最多搜索出一個(gè)read <int>個(gè)比對(duì)結(jié)果, 并將這些結(jié)果按得分降序報(bào)告出來(lái).
-a   和-k參數(shù)一樣, 不過(guò)不限制搜索的結(jié)果數(shù)目. 并將所有的比對(duì)結(jié)果都按降序報(bào)告出來(lái). 此參數(shù)和-k參數(shù)沖突. 值得注意的是: 如果基因組含有很多重復(fù)序列時(shí), 該參數(shù)會(huì)導(dǎo)致程序運(yùn)行極其緩慢.
  • Sam 參數(shù)
--no-unal 不記錄沒(méi)比對(duì)上的reads.
--no-hd 不記錄SAM header lines (以@開頭).
--no-sq 不記錄@SQ的SAM header lines.
--rg-id <text> 設(shè)定read group Id到<text>.
--rg <text> 增加<text>作為一行@RG.
  • 輸出參數(shù)
-t/--time  --un <path>        將unpaired reads寫入到<path>.
--no-unal                     不能map到GENOME的reads,不保留sam記錄
--un-conc <path>              不能map到GENOME的reads,fasta格式.
--un-conc-gz <path>           不能map到GENOME的reads,fasta格式, gzip壓縮.
--al-conc <path>              能map到GENOME的reads,fasta格式.
--al-conc-gz <path>           能map到GENOME的reads,fasta格式, gzip壓縮.
-p/--threads NTHREADS         設(shè)置線程數(shù). Default: 1  如果你的計(jì)算機(jī)有多個(gè)CPU或者CPU內(nèi)核,那么請(qǐng)使用-p參數(shù)。-p參數(shù)會(huì)讓bowtie進(jìn)入多線程模式。每一個(gè)線程都會(huì)使用單獨(dú)的CPU或者CPU內(nèi)核。這種并行的運(yùn)算模式也會(huì)大大加快運(yùn)算速度。
  • 示例
bowtie2 -p 10 -x /data/ref/bowtie2/mm10/mm10 -1 input_1.fq -2 input_2.fq | samtools sort -O bam -@ 10 -o - > output.bam
##雙端測(cè)序數(shù)據(jù)去宿主:
bowtie2 --end-to-end --no-mixed --no-discordant --no-unal --sensitive --threads 8 \
        -x /data/hostClean/Index/host.fa \
        -1 /data/hospital_microbiome/trimmed_reads/ERR320975-trimmed-pair1.fastq.gz \
        -2 /data/hospital_microbiome/trimmed_reads/ERR320975-trimmed-pair2.fastq.gz \
        --un-conc-gz /data/hospital_microbiome/cleanData/ERR320975.clean.fastq.gz \
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容