1 比對的是:相似菌參考基因和使用seqtk隨機抽取出來的轉(zhuǎn)錄組數(shù)據(jù)。
2 bowtie2做index

1)使用方法: bowtie2-build<要生成的索引文件前綴名>;
比如:path/bowtie2-build genome.fabowtie2 index/genome
2)參數(shù)說明:genome.fa是fasta文件;
genome是要生成的索引文件的前綴名;
bowtie2index是一個文件夾,用來存放索引文件,方便日后查看和使用;
注意:程序運行完后genome.fa文件要放在bowtie2 index索引目錄中,tophat2軟件才能正確運行。
3 reads mapping到參考基因組——tophat2軟件:基于bowtie2
1)用法:
命令行:tophat2 -p 4 -G /home/andengdi/lyr/rna-seq/00-reference/genome.gff -o test_output /home/andengdi/lyr/rna-seq/00-reference/genome /home/andengdi/lyr/rna-seq/01-data/YSH-qurRNA-42-314-4_L001_R1.fastq /home/andengdi/lyr/rna-seq/01-data/YSH-qurRNA-42-314-4_L001_R2.fastq
2)參數(shù)說明:
-p :指定線程數(shù),默認(rèn)為1
-G :指定已有的基因組注釋信息,gtf或gff文件;
-o :指定輸出目錄,默認(rèn)為”./tophat_out“;
后面加上索引文件:與前面的bowtie2建立的索引相對應(yīng),只取前綴名。
最后加上fastq文件:filename.fq;如果是雙端測序則是filename_1.fq和filename_2.fq兩個文件。
( 細(xì)菌是沒有junction的,但不排除可能出現(xiàn)錯誤; 將注釋文件去掉跑流程。)
4 結(jié)果:

其中,需要查看各類說明去logs文件下:

比如:需要了解這個程序跑了多久,可以看
tophat.log

因為我使用seqtk隨機取轉(zhuǎn)錄組的部分?jǐn)?shù)據(jù)和細(xì)菌基因組比對的,所以耗費時間比較短,大概耗時8小時。
另外查看一下mapping率:

mapping到1.9%
這個測試數(shù)據(jù)還是可以的,下一步就是用cufflinks軟件將這個這些基因merge起來。