1、測序數(shù)據(jù)質(zhì)量控制:fastqc軟件
1)使用方法:/life/rjian/software/fastQC/FastQC/fastqc -o/life/rjian/data/liyan/filename_fastqc\filename.fq >>filename.log
2)參數(shù)說明:-o:輸出文件所在目錄,并且是已經(jīng)存在的目錄,如:filename_fastqc
--noextract:不解壓縮輸出文件
最后加上fastq文件:filename.fq;重定向結(jié)果到日志文件:filename.log,以便查看。
filename:表示是一個樣品的一個生物學(xué)重復(fù),一般有多個樣品,每個樣品有多個重復(fù),如:C1_R1;如果是雙端測序則后面會加上數(shù)字,如:filename_1.fq和filename_2.fq
2、readstrim工具——trimmomatic
1)使用方法:java -jar/life/rjian/software/Trimmomatic-0.32/trimmomatic-0.32.jar SE-threads 5 \-phred33 -trimlog filename_trimmomatic.log filename.fqfilename_out.fq ILLUMINACLIP:adapter.fa:2:30:10 \SLIDINGWINDOW:4:15MINLEN:36
2)參數(shù)說明:SE:指定單端測序,PE:雙端測序
-threads:指定線程數(shù)
-phred33:指定fastq文件的質(zhì)量格式,或者:-phred64
-trimlog:指定日志文件,后加上輸入和輸出文件
ILLUMINACLIP:adapter.fa:2:30:10:adapter.fa為adapter文件,2:允許的最大mismatch數(shù),30:palindrome模式下匹配堿基數(shù)閾值,10:simple模式下的匹配堿基數(shù)閾值
SLIDINGWINDOW:4:15 MINLEN:36:滑動窗口的size是4個堿基,其平均堿基質(zhì)量小于15,則切除。
MINLEN:36:最低reads長度為36
3、bowtie2建立參考基因組的索引——bowtie2-build
1)使用方法: bowtie2-build<要生成的索引文件前綴名>;比如:
nohup/home/cuckoo/software/bowtie2-2.2.3/bowtie2-build genome.fabowtie2index/genome>>bowtie2.log &
2)參數(shù)說明:genome.fa是fasta文件;
genome是要生成的索引文件的前綴名;
bowtie2index是一個文件夾,用來存放索引文件,方便日后查看和使用;
注意:程序運(yùn)行完后genome.fa文件要放在bowtie2index索引目錄中,tophat2軟件才能正確運(yùn)行。
4、reads mapping到參考基因組——tophat2軟件:基于bowtie2
1)使用方法:/home/cuckoo/software/tophat-2.0.12.Linux_x86_64/tophat2-p 8 -G \/home/cuckoo/data/liyan/train/genes.gtf -o filename_thout/\/home/cuckoo/data/liyan/train/bowtie2index/genome/home/cuckoo/data/liyan/train/filename.fq\>filenametophat.log
2)參數(shù)說明:-p :指定線程數(shù),默認(rèn)為1
-G :指定已有的基因組注釋信息,gtf或gff文件;
-o :指定輸出目錄,默認(rèn)為”./tophat_out“;
后面加上索引文件:與前面的bowtie2建立的索引相對應(yīng),只取前綴名。
最后加上fastq文件:filename.fq;如果是雙端測序則是filename_1.fq和filename_2.fq兩個文件。
5、轉(zhuǎn)錄本組裝——Cufflinks:Cufflinks是一套拼接轉(zhuǎn)錄本,定量表達(dá)量。
1)使用方法:/home/cuckoo/software/RNAseq/cufflinks-2.2.1.Linux_x86_64/cufflinks-p 8 -o \filename_clout filename_thout/accepted_hits.bam>filename_cufflinks.log
2)參數(shù)說明:-p :指定線程數(shù);
-o :指定輸出文件所在目錄;
后面跟上Tophat2中生成的bam文件:
6、轉(zhuǎn)錄本合并——Cuffmerge
1)使用方法:/home/cuckoo/software/RNAseq/cufflinks-2.2.1.Linux_x86_64/cuffmerge-g genes.gtf -s\/home/cuckoo/data/liyan/train/bowtie2index/genome.fa -p 8assemblies.txt
2)參數(shù)說明:-g :參考基因組注釋文件
-s :參考基因組序列文件
-p :指定線程數(shù)
-o :指定輸出文件merged.gtf所在目錄,默認(rèn)情況下是 merged_asm
最后assemblies.txt:一個包含每個樣品(重復(fù))拼接后的gtf文件的列表;如下:兩個文件分別是在上一步中生成的樣品的轉(zhuǎn)錄本注釋文件。
./s0924fb_clout/transcripts.gtf
./sCal27_clout/transcripts.gtf
7、基因和轉(zhuǎn)錄本表達(dá)定量——cuffquant
1)使用方法:/home/cuckoo/software/RNAseq/cufflinks-2.2.1.Linux_x86_64/cuffquant-o sample_quant -p 8 \-u AT.gffsample_thout/accepted_hits.bam
2)參數(shù)說明:-o:指定結(jié)果輸出目錄:包含結(jié)果文件abundances.cxb
-p :指定線程數(shù)
-u :指定對比對上基因組上多個位置的reads進(jìn)行統(tǒng)計分析。
加上參考基因組注釋文件:AT.gff
最后加上Tophat2產(chǎn)生的該樣本的比對結(jié)果文件:accepted_hits.bam
8、基因和轉(zhuǎn)錄本表達(dá)水平標(biāo)準(zhǔn)化——cuffnorm
1)使用方法:/home/cuckoo/software/RNAseq/cufflinks-2.2.1.Linux_x86_64/cuffnorm-o cuffnorm_out -p 8 \-L 0h_1,12h_CK1,12h_E1 AT.gff/data/disk2/liyan/AT/0h_1_quant/abundances.cxb\/data/disk2/liyan/AT/12h_CK1_quant/abundances.cxb/data/disk2/liyan/AT/12h_E1_quant/abundances.cxb
2)參數(shù)說明:-o :指定結(jié)果輸出目錄
-p :指定線程數(shù)
-L :為每個樣本(處理)作標(biāo)記
–total-hits-norm :計算所有的fragments,包括與所有的參考轉(zhuǎn)錄本不容的,默認(rèn)不激活。
–compatible-hits-norm :只計算與一些參考轉(zhuǎn)錄本相容的fragments,默認(rèn)激活。
加上參考基因組注釋文件:AT.gff
最后加上每個樣本(處理)的cuffquant產(chǎn)生的abundances.cxb文件,樣本的每個重復(fù)之間用逗號”,“分割;樣本之間則由空格分割。
9、轉(zhuǎn)錄本差異表達(dá)分析——Cuffdiff:分析差異表達(dá)基因的工具。
1)使用方法:/home/cuckoo/software/RNAseq/cufflinks-2.2.1.Linux_x86_64/cuffdiff-o diff_out -b \bowtie2index/genome.fa -p 8 -L C1,C2 -umerged_asm/merged.gtf ./C1_thout/accepted_hits.bam\./C2_thout/accepted_hits.bam
2)參數(shù)說明:-o :指定輸出目錄
-b :參考基因組序列文件
-p :指定線程數(shù)
-L :為每個樣本標(biāo)上名稱-u:-u命令指cuffdiff對回帖的基因組中多個位置的read進(jìn)行一個初步的估計,然后加權(quán)分配到各個基因組位置。而不是簡單的平均分配,其功能與Cufflinks中的u命令相同。
加上合并后的轉(zhuǎn)錄本:merged.gtf;由cuffmerge產(chǎn)生。
最后是TopHat產(chǎn)生的樣本的bam文件,如果一個樣本有多個生物學(xué)重復(fù),那么我們需要提供每個重復(fù)的bam文件,文件名之間以逗號隔開并且樣本名應(yīng)與-L參數(shù)相對應(yīng)。
10、轉(zhuǎn)錄本與參考基因組注釋文件比較——Cuffcompare,發(fā)現(xiàn)新基因,轉(zhuǎn)錄本
1)使用方法:cuffcompare -i gtf_out_list.txt -r genes.gtf
2)參數(shù)說明:-i :輸入文件,是cufflinks組裝轉(zhuǎn)錄本的結(jié)果文件——transcripts.gtf的列表;
其中g(shù)tf_out_list.txt是由find . -name transcripts.gtf> gtf_out_list.txt命令產(chǎn)生的集合了所有樣本轉(zhuǎn)錄本文件的列表。
-o :指定輸出文件的前綴,如果沒有指定默認(rèn)為cuffcmp。
-r :指定參考基因組注釋文件。
注:結(jié)果文件大部分位于cmp_out(自己先建立好)目錄中,統(tǒng)計匯總所有轉(zhuǎn)錄本的比較情況;而單個樣本轉(zhuǎn)錄本的比較結(jié)果文件:cuffcmp.transcripts.gtf.tmap和 cuffcmp.transcripts.gtf.refmap分別位于樣本的cufflinks運(yùn)行結(jié)果transcripts.gtf所在目錄中,統(tǒng)計單個樣本的比較情況以鑒定新轉(zhuǎn)錄本。