gemoma是根據(jù)已知參考基因組的注釋,給未知基因組注釋的軟件,貌似網(wǎng)上僅僅有提到,卻沒有具體的用法,筆者研究了一下,寫下以下傻瓜式攻略,給大家參考
安裝很簡單,直接用conda:
conda install gemoma
但是安裝完不能直接輸入名字直接用,而是要進(jìn)入gemoma所在目錄:
cd miniconda所在目錄/pkgs/gemoma-(版本號)/share/gemoma
里面有一個(gè)pdf是詳細(xì)說明
帶轉(zhuǎn)錄組的話用法如下
./pipeline.sh <search> <target-genome> <ref-anno> <ref-genome> <threads> <out-dir> <lib-type> <mapped-reads>
說明如下:
- search is a switch for the search algorithm to be used, either tblastn or
mmseqs(一般人都用tblastn吧) - target-genome is the genome of the target organism (FastA)
- ref-anno is the annotation of the reference organism (GFF/GTF)(參考基因組的gff或gtf注釋文件)
- ref-genome is the genome of the reference organism (FastA)(參考基因組)
- threads the number of threads to be used(也就是使用的線程數(shù),只要計(jì)算資源夠,當(dāng)然是越大越好,哈哈)
- out-dir is the output directory(結(jié)果路徑)
- lib-type is the RNA-seq library type({FR_UNSTRANDED, FR_FIRST_STRAND, FR_SECOND_STRAND}) (轉(zhuǎn)錄組文件的類型FR_UNSTRANDED就是沒方向,F(xiàn)R_FIRST_STRAND定向轉(zhuǎn)錄的正義鏈)
- mapped-reads are the mapped RNA-seq reads (SAM/BAM)(把轉(zhuǎn)錄組的read,map到自己基因組上可得,可用STAR/hisat等生成)
注意:<search>等為bash腳本要輸入的參數(shù),參數(shù)間用空格隔開。如果沒有轉(zhuǎn)錄組的話,直接不填7和8就好
示例用法如下:
./pipeline.sh tblastn ~/data/genome.fa ~/data/ref.gff ~/data/ref.fa 30 ~/result FR_UNSTRANDED ~/data/RNA.bam
注意1: 如果沒有轉(zhuǎn)錄組的話,直接不填7和8就好
注意2: 該命令要cd到pipeline.sh所在目錄,也就是上文所說目錄運(yùn)行,或者使用絕對路徑。
注意3: 筆者運(yùn)行時(shí)出現(xiàn)java類型的錯(cuò)誤,應(yīng)該是conda默認(rèn)的java版本太低,conda deactivate后再運(yùn)行,使用系統(tǒng)自帶的高版本java就成功了。