RNA-seq :TopHat2 + Cufflinks分析流程

1、測序數(shù)據(jù)質(zhì)量控制:fastqc軟件

1)使用方法:/life/rjian/software/fastQC/FastQC/fastqc -o/life/rjian/data/liyan/filename_fastqc\filename.fq >>filename.log

2)參數(shù)說明:-o:輸出文件所在目錄,并且是已經(jīng)存在的目錄,如:filename_fastqc

--noextract:不解壓縮輸出文件

最后加上fastq文件:filename.fq;重定向結(jié)果到日志文件:filename.log,以便查看。

filename:表示是一個樣品的一個生物學(xué)重復(fù),一般有多個樣品,每個樣品有多個重復(fù),如:C1_R1;如果是雙端測序則后面會加上數(shù)字,如:filename_1.fq和filename_2.fq

2、readstrim工具——trimmomatic

1)使用方法:java -jar/life/rjian/software/Trimmomatic-0.32/trimmomatic-0.32.jar SE-threads 5 \-phred33 -trimlog filename_trimmomatic.log filename.fqfilename_out.fq ILLUMINACLIP:adapter.fa:2:30:10 \SLIDINGWINDOW:4:15MINLEN:36

2)參數(shù)說明:SE:指定單端測序,PE:雙端測序

-threads:指定線程數(shù)

-phred33:指定fastq文件的質(zhì)量格式,或者:-phred64

-trimlog:指定日志文件,后加上輸入和輸出文件

ILLUMINACLIP:adapter.fa:2:30:10:adapter.fa為adapter文件,2:允許的最大mismatch數(shù),30:palindrome模式下匹配堿基數(shù)閾值,10:simple模式下的匹配堿基數(shù)閾值

SLIDINGWINDOW:4:15 MINLEN:36:滑動窗口的size是4個堿基,其平均堿基質(zhì)量小于15,則切除。

MINLEN:36:最低reads長度為36

3、bowtie2建立參考基因組的索引——bowtie2-build

1)使用方法: bowtie2-build<要生成的索引文件前綴名>;比如:

nohup/home/cuckoo/software/bowtie2-2.2.3/bowtie2-build genome.fabowtie2index/genome>>bowtie2.log &

2)參數(shù)說明:genome.fa是fasta文件;

genome是要生成的索引文件的前綴名;

bowtie2index是一個文件夾,用來存放索引文件,方便日后查看和使用;

注意:程序運(yùn)行完后genome.fa文件要放在bowtie2index索引目錄中,tophat2軟件才能正確運(yùn)行。

4、reads mapping到參考基因組——tophat2軟件:基于bowtie2

1)使用方法:/home/cuckoo/software/tophat-2.0.12.Linux_x86_64/tophat2-p 8 -G \/home/cuckoo/data/liyan/train/genes.gtf -o filename_thout/\/home/cuckoo/data/liyan/train/bowtie2index/genome/home/cuckoo/data/liyan/train/filename.fq\>filenametophat.log

2)參數(shù)說明:-p :指定線程數(shù),默認(rèn)為1

-G :指定已有的基因組注釋信息,gtf或gff文件;

-o :指定輸出目錄,默認(rèn)為”./tophat_out“;

后面加上索引文件:與前面的bowtie2建立的索引相對應(yīng),只取前綴名。

最后加上fastq文件:filename.fq;如果是雙端測序則是filename_1.fq和filename_2.fq兩個文件。

5、轉(zhuǎn)錄本組裝——Cufflinks:Cufflinks是一套拼接轉(zhuǎn)錄本,定量表達(dá)量。

1)使用方法:/home/cuckoo/software/RNAseq/cufflinks-2.2.1.Linux_x86_64/cufflinks-p 8 -o \filename_clout filename_thout/accepted_hits.bam>filename_cufflinks.log

2)參數(shù)說明:-p :指定線程數(shù);

-o :指定輸出文件所在目錄;

后面跟上Tophat2中生成的bam文件:

6、轉(zhuǎn)錄本合并——Cuffmerge

1)使用方法:/home/cuckoo/software/RNAseq/cufflinks-2.2.1.Linux_x86_64/cuffmerge-g genes.gtf -s\/home/cuckoo/data/liyan/train/bowtie2index/genome.fa -p 8assemblies.txt

2)參數(shù)說明:-g :參考基因組注釋文件

-s :參考基因組序列文件

-p :指定線程數(shù)

-o :指定輸出文件merged.gtf所在目錄,默認(rèn)情況下是 merged_asm

最后assemblies.txt:一個包含每個樣品(重復(fù))拼接后的gtf文件的列表;如下:兩個文件分別是在上一步中生成的樣品的轉(zhuǎn)錄本注釋文件。

./s0924fb_clout/transcripts.gtf

./sCal27_clout/transcripts.gtf

7、基因和轉(zhuǎn)錄本表達(dá)定量——cuffquant

1)使用方法:/home/cuckoo/software/RNAseq/cufflinks-2.2.1.Linux_x86_64/cuffquant-o sample_quant -p 8 \-u AT.gffsample_thout/accepted_hits.bam

2)參數(shù)說明:-o:指定結(jié)果輸出目錄:包含結(jié)果文件abundances.cxb

-p :指定線程數(shù)

-u :指定對比對上基因組上多個位置的reads進(jìn)行統(tǒng)計分析。

加上參考基因組注釋文件:AT.gff

最后加上Tophat2產(chǎn)生的該樣本的比對結(jié)果文件:accepted_hits.bam

8、基因和轉(zhuǎn)錄本表達(dá)水平標(biāo)準(zhǔn)化——cuffnorm

1)使用方法:/home/cuckoo/software/RNAseq/cufflinks-2.2.1.Linux_x86_64/cuffnorm-o cuffnorm_out -p 8 \-L 0h_1,12h_CK1,12h_E1 AT.gff/data/disk2/liyan/AT/0h_1_quant/abundances.cxb\/data/disk2/liyan/AT/12h_CK1_quant/abundances.cxb/data/disk2/liyan/AT/12h_E1_quant/abundances.cxb

2)參數(shù)說明:-o :指定結(jié)果輸出目錄

-p :指定線程數(shù)

-L :為每個樣本(處理)作標(biāo)記

–total-hits-norm :計算所有的fragments,包括與所有的參考轉(zhuǎn)錄本不容的,默認(rèn)不激活。

–compatible-hits-norm :只計算與一些參考轉(zhuǎn)錄本相容的fragments,默認(rèn)激活。

加上參考基因組注釋文件:AT.gff

最后加上每個樣本(處理)的cuffquant產(chǎn)生的abundances.cxb文件,樣本的每個重復(fù)之間用逗號”,“分割;樣本之間則由空格分割。

9、轉(zhuǎn)錄本差異表達(dá)分析——Cuffdiff:分析差異表達(dá)基因的工具。

1)使用方法:/home/cuckoo/software/RNAseq/cufflinks-2.2.1.Linux_x86_64/cuffdiff-o diff_out -b \bowtie2index/genome.fa -p 8 -L C1,C2 -umerged_asm/merged.gtf ./C1_thout/accepted_hits.bam\./C2_thout/accepted_hits.bam

2)參數(shù)說明:-o :指定輸出目錄

-b :參考基因組序列文件

-p :指定線程數(shù)

-L :為每個樣本標(biāo)上名稱-u:-u命令指cuffdiff對回帖的基因組中多個位置的read進(jìn)行一個初步的估計,然后加權(quán)分配到各個基因組位置。而不是簡單的平均分配,其功能與Cufflinks中的u命令相同。

加上合并后的轉(zhuǎn)錄本:merged.gtf;由cuffmerge產(chǎn)生。

最后是TopHat產(chǎn)生的樣本的bam文件,如果一個樣本有多個生物學(xué)重復(fù),那么我們需要提供每個重復(fù)的bam文件,文件名之間以逗號隔開并且樣本名應(yīng)與-L參數(shù)相對應(yīng)。

10、轉(zhuǎn)錄本與參考基因組注釋文件比較——Cuffcompare,發(fā)現(xiàn)新基因,轉(zhuǎn)錄本

1)使用方法:cuffcompare -i gtf_out_list.txt -r genes.gtf

2)參數(shù)說明:-i :輸入文件,是cufflinks組裝轉(zhuǎn)錄本的結(jié)果文件——transcripts.gtf的列表;

其中g(shù)tf_out_list.txt是由find . -name transcripts.gtf> gtf_out_list.txt命令產(chǎn)生的集合了所有樣本轉(zhuǎn)錄本文件的列表。

-o :指定輸出文件的前綴,如果沒有指定默認(rèn)為cuffcmp。

-r :指定參考基因組注釋文件。

注:結(jié)果文件大部分位于cmp_out(自己先建立好)目錄中,統(tǒng)計匯總所有轉(zhuǎn)錄本的比較情況;而單個樣本轉(zhuǎn)錄本的比較結(jié)果文件:cuffcmp.transcripts.gtf.tmap和 cuffcmp.transcripts.gtf.refmap分別位于樣本的cufflinks運(yùn)行結(jié)果transcripts.gtf所在目錄中,統(tǒng)計單個樣本的比較情況以鑒定新轉(zhuǎn)錄本。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容