軟件介紹
??? 于2014年首次發(fā)表在Bioinformatics期刊上,Trimmomatic是一個快速的多線程命令行工具,可以用來整理和裁剪Illumina(FASTQ)數(shù)據(jù)以及刪除adapter。根據(jù)庫準備和下游應用程序的差異,不去除可能會造成很嚴重的問題。
該程序主要有兩種模式:
Paired end(PE) mode and Single end(SE) mode,就是常說的雙端和單端。
????????Trimmomatic對FASTQ文件有效(使用phred + 33或phred + 64質(zhì)量分數(shù),這取決于使用的Illumina管道)。支持使用“gzip”或“bzip2”壓縮的文件,分別通過 .gz和 .bz2的文件后綴加以識別。
軟件使用? ?
????????在SE模式下,只有一個輸入文件和一個過濾之后的輸出文件
java
-jar <path to trimmomatic jar> SE [-threads <threads>]
[-phred33 | -phred64] [-trimlog <logFile>] <input>
<output> <step 1> <step 2> ...
在PE模式下,有兩個輸入文件和四個輸出文件,詳細見實例。
java
-jar <path to trimmomatic.jar> PE [-threads <threads]
[-phred33 | -phred64] [-trimlog
<logFile>] >] [-basein <inputBase> | <input 1>
<input 2>] [-baseout <outputBase> |
<paired output 1> <unpaired output 1> <paired output
2> <unpaired output 2> <step 1> <step 2> ...
軟件對應實際情況剪切策略
A 模式:測序 reads 從起始位置開始就包含了完整的接頭序列,那么根據(jù) Illumina 測序原理,這整條 reads 都不可能包含有用序列了,整條 reads 被丟棄。
B 模式:這種相對常見,由于文庫插入片段比測序讀長短,會在 reads 末端包含部分接頭序列,若是這部分接頭序列足夠長是可以識別并去除的,但如果接頭序列太短,比接頭匹配參數(shù)設置的最短長度還短,那么就無法去除。但是,如果是 PE 測序,可以按照 D 模式去除 reads 末端的很短的接頭序列。
C 模式:PE 測序可能出現(xiàn)這種情況,正向測序和反向測序有部分完全反向互補,但是空載的文庫,兩個接頭直接互連,這樣的 reads 不包含任何有用序列,正反向測序 reads 都被丟棄。
D 模式:是 Trimmomatic 利用 PE 測序進行短接頭序列去除的典范,如果文庫插入片段比測序讀長短,利用正反向測序 reads 中一段堿基可以完全反向互補的特點,將兩個接頭序列與 reads 進行比對,同時兩條 reads 之間也互相比對,可以將 3' 末端哪怕只有 1bp 的接頭序列都可以被準確去除,相對 B 模式去除接頭污染更徹底。
PE 模式的兩個輸入文件,正向測序序列和反向測序序列:
sample_R1.fastq????sample_R2.fastq
以及四個輸出文件:
sample_paired_R1.clean.fastq????sample_unpaired_R1.clean.fastq
sample_paired_R1.clean.fastq????sample_unpaired_R1.clean.fastq
上面四個文件為過濾之后的,雙端序列都保留的就是paired,反之如果其中一端序列過濾之后被丟棄了另一端序列保留下來了就是unpaired。
部分參數(shù)介紹
ILLUMINACLIP: 過濾 reads 中的 Illumina 測序接頭和引物序列,并決定是否去除反向互補的 R1/R2 中的 R2。
SLIDINGWINDOW: 從 reads 的 5' 端開始,進行滑窗質(zhì)量過濾,切掉堿基質(zhì)量平均值低于閾值的滑窗。
MAXINFO: 一個自動調(diào)整的過濾選項,在保證 reads 長度的情況下盡量降低測序錯誤率,最大化 reads 的使用價值。
LEADING: 從 reads 的開頭切除質(zhì)量值低于閾值的堿基。
TRAILING: 從 reads 的末尾開始切除質(zhì)量值低于閾值的堿基。
CROP: 從 reads 的末尾切掉部分堿基使得 reads 達到指定長度。
HEADCROP: 從 reads 的開頭切掉指定數(shù)量的堿基。
MINLEN: 如果經(jīng)過剪切后 reads 的長度低于閾值則丟棄這條 reads。
AVGQUAL: 如果 reads 的平均堿基質(zhì)量值低于閾值則丟棄這條 reads。
TOPHRED33: 將 reads 的堿基質(zhì)量值體系轉(zhuǎn)為 phred-33。
TOPHRED64: 將 reads 的堿基質(zhì)量值體系轉(zhuǎn)為 phred-64。
使用實例
可參見? https://mp.weixin.qq.com/s/kp009Js1E0dhXAN1Oeglqw
更多詳細參數(shù),參考官網(wǎng)manual
http://www.usadellab.org/cms/uploads/supplementary/Trimmomatic/TrimmomaticManual_V0.32.pdf
論文鏈接
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4103590/pdf/btu170.pdf