軟件:FastQC、cutadapt、trimgalore、hisat2、samtools、stringtie? ? ? ??
文件:raw data和基因組文件
一、軟件下載及安裝
通過wget從各軟件官網(wǎng)下載對應軟件,解壓后添加到環(huán)境變量。
命令:
vim ~/.bashrc
添加軟件路徑
source ~/.bashrc
完成環(huán)境變量設置
二、流程
1. FastQC進行質(zhì)控?
fastqc -o xxx(輸出位置) -f xxx(輸入的文件格式)-c xxx(輸入的文件名稱)
完成后得到gz壓縮包和html格式的報告網(wǎng)頁
2. trimgalore進行過濾
trim_galore [options] <filename>
--adapter? 輸入adapter序列。程序會自動尋找三種平臺中對應的adapter。也可直接輸入--illumina、--nextera和--small_rna這三種平臺。
--quality<int>? 設定phred quality閾值。默認20(99%的read質(zhì)量),如果測序深度較深,可以設定25
--phred33? ? ? 設定記分方式,代表Q+33=ASCII碼的方式來記分方式。這是默認值。
--paired? ? ? ? ? 對于雙端結(jié)果,一對reads中若一個read因為質(zhì)量或其他原因被拋棄,則對應的另一個read也拋棄。
--output_dir? 輸出目錄,需確保路徑存在并可以訪問
--length? ? ? ? 設定長度閾值,小于此長度會被拋棄。
--strency? ? 設定可以忍受的前后adapter重疊的堿基數(shù),默認是1。
-e? 設定默認質(zhì)量控制數(shù),默認是0.1,即ERROR rate大于10%的read 會被舍棄,如果添加來--paired參數(shù)則會舍棄一對reads
<filename>? 如果是采用illumina雙端測序的測序文件,應該同時輸入兩個文件。
e.g. trim_galore -output_xxx --paired --length xx --quality xx? <filename1><filename2>
3. hisat2進行mapping
建立索引:hisat2-build?-p 4 xxxx.fa xxxx(文件名稱)
eg:hisat2-build -p 4 Brassica.fa Brassica
進行比對:
3.1 單端測序
hisat2 -x (index所在的文件路徑和index前綴) -p 20(線程數(shù)) -U(單端測序數(shù)據(jù)輸入) reads.fq(輸入的測序序列位置) -S align.sam(表示輸出格式指定為sam文件 align.sam 輸出序列名+后綴名sam)
3.2 雙端測序
hisat2 -x (同上) -p 20 -1 R1.fq -2 R2.fq -S align.sam?
雙端測序的使用方法 分別用-1 -2 指定兩端的輸入
4. samtools將sam文件轉(zhuǎn)換為bam文件
samtools view -bS xxx.sam > xxx.bam
對bam文件進行排序
samtools sort -@ 20 -o xxx.bam xxx.sam
-@: 線程數(shù)? ?-o: 輸出bam文件? 最后一項為輸入文件
?5. stringtie進行reads計數(shù)
stringtie <輸入文件> -G xxx.gtf -o xxx -p xx -A xxxx
-G 注釋文件
-o 輸出文件路徑及名稱
-p 線程數(shù)
-A?對輸出的gtf統(tǒng)計基因表達量,并以一個tab分割的文件輸出,這里需要提交輸出的文件名
注:gff文件需要轉(zhuǎn)換為gtf文件,用gffread進行轉(zhuǎn)換
gffread xxx.gff(輸入文件) -T -o xxx.gtf? ?gff轉(zhuǎn)gtf
gffread xxx.gtf(輸入文件) -o- > xxx.gff? ?gtf轉(zhuǎn)gff
在次之前需要更改gff文件中帶有mRNA的那一行的ID名稱,與gene行不同即可。
sed -i -e '/mRNA/d' xxx.gff
或用grep方法
grep -v 'mRNA' xxx.gff > xxx.gff
得到數(shù)據(jù)后用DEseq2進行處理