linux中Trimmomatic安裝與使用

trimmomatic是一款用來處理illumina測(cè)序數(shù)據(jù)的工具,可以是單條的single reads,也可以是成對(duì)的pairend reads。支持壓縮格式數(shù)據(jù)。功能和其他數(shù)據(jù)處理的程序都差不多,主要包括,1、去除adapter序列以及測(cè)序中其他特殊序列;2、采用滑動(dòng)窗口的方法,切除或者刪除低質(zhì)量堿基

1. 先新建一個(gè)文件夾,mkdir trimmomatic

2.? cd?Trimmomatic? ?(后ls)

3.?wget http://www.usadellab.org/cms/uploads/supplementary/Trimmomatic/Trimmomatic-0.38.zip

4. unzip?Trimmomatic-0.38.zip

5. cd?Trimmomatic-0.38??(后ls)

6.? which java? (java?在/opt/tesc/share/jdk1.8.0-20/bin/java中)

7.? /opt/tesc/share/jdk1.8.0-20/bin/java? ?(后ls)

8.?pwd

9.?/opt/tsce/share/jdk1.8.0_20/bin/java -jar /home/HYZ930402/Zmq/trimmomatic/Trimmomatic-0.38/trimmomatic-0.38.jar

10.? ls

11.?/opt/tsce/share/jdk1.8.0_20/bin/java -jar /home/HYZ930402/Zmq/trimmomatic/Trimmomatic-0.38/trimmomatic-0.38.jar? --help

12.?進(jìn)入自己fastq數(shù)據(jù)的文件夾

13./opt/tsce/share/jdk1.8.0_20/bin/java -jar /home/HYZ930402/Zmq/trimmomatic/Trimmomatic-0.38/trimmomatic-0.38.jar PE -phred33 017_R1.fastq 017_R2.fastq output_forward_paired.fq.gz output_forward_unpaired.fq.gz output_reverse_paired.fq.gz output_reverse_unpaired.fq.gz ILLUMINACLIP:TruSeq3-PE.fa:2:30:10 LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15 MINLEN:36

(/opt/tsce/share/jdk1.8.0_20/bin/java為Java的路徑,-jar /home/HYZ930402/Zmq/trimmomatic/Trimmomatic-0.38/trimmomatic-0.38.jar為該軟件所在的位置,需要明確指明質(zhì)量值體系是Phred33還是Phred64,默認(rèn)是Phred64,這需要特別注意,因?yàn)槲覀儸F(xiàn)在的測(cè)序數(shù)據(jù)基本都是Phred33的了,所以一定要指定這個(gè)參數(shù)。017_R1.fastq 017_R2.fastq要進(jìn)行過濾的文件,output_forward_paired.fq.gz output_forward_unpaired.fq.gz output_reverse_paired.fq.gz output_reverse_unpaired.fq.gz為輸出文件

ILLUMINACLIP,接頭序列切除參數(shù)。LLUMINACLIP:TruSeq3-PE.fa:2:30:10(省掉了路徑)意思分別是:TruSeq3-PE.fa是接頭序列,2是比對(duì)時(shí)接頭序列時(shí)所允許的最大錯(cuò)配數(shù);30指的是要求PE的兩條read同時(shí)和PE的adapter序列比對(duì),匹配度加起來超30%,那么就認(rèn)為這對(duì)PE的read含有adapter,并在對(duì)應(yīng)的位置需要進(jìn)行切除【注】。10和前面的30不同,它指的是,我就什么也不管,反正只要這條read的某部分和adpater序列有超過10%的匹配率,那么就代表含有adapter了,需要進(jìn)行去除;

LEADING,規(guī)定read開頭的堿基是否要被切除的質(zhì)量閾值;

TRAILING,規(guī)定read末尾的堿基是否要被切除的質(zhì)量閾值;

SLIDINGWINDOW,滑動(dòng)窗口長度的參數(shù),SLIDINGWINDOW:5:20代表窗口長度為5,窗口中的平均質(zhì)量值至少為20,否則會(huì)開始切除;

MINLEN,規(guī)定read被切除后至少需要保留的長度,如果低于該長度,會(huì)被丟掉。


14.?若要將002_R1.fastq改為002_R1.fastq.gz,直接gzip 002_R2.fastq即可,若要解壓,直接gunzip 002_R2.fastq.gz

trimmomatic可以對(duì)測(cè)序數(shù)據(jù)進(jìn)行過濾

java -jar trimmomatic-0.35.jar PE -phred33 input_forward.fq.gz input_reverse.fq.gz output_forward_paired.fq.gz output_forward_unpaired.fq.gz output_reverse_paired.fq.gz output_reverse_unpaired.fq.gz ILLUMINACLIP:$file_path/TruSeq3-PE.fa:2:30:10 LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15 MINLEN:36

運(yùn)行上面的命令可以完成以下任務(wù)

Remove adapters (ILLUMINACLIP:TruSeq3-PE.fa:2:30:10) #去掉接頭

Remove leading low quality or N bases (below quality 3) (LEADING:3) #去掉開頭質(zhì)量低于3或N堿基

Remove trailing low quality or N bases (below quality 3) (TRAILING:3) #去掉末尾質(zhì)量低于3或N堿基

Scan the read with a 4-base wide sliding window, cutting when the average quality per base drops below 15 (SLIDINGWINDOW:4:15) #以4個(gè)堿基為滑動(dòng)窗口對(duì)reads進(jìn)行掃描,當(dāng)平均質(zhì)量值低于15時(shí)進(jìn)行剪切

Drop reads below the 36 bases long (MINLEN:36) #去掉長度小于36的reads

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容