軟件安裝
首先從GitHub上下載最新的miRDeep2
git clone https://github.com/rajewsky-lab/mirdeep2.git mirdeep2.0.1.2
cd mirdeep2.0.1.2/
使用install.pl腳本進(jìn)行安裝
perl install.pl
會有如下的提示信息

提示信息
可以按照他的要求,直接使用source ~/.bashrc加載環(huán)境變量,然后再次運行perl install.pl就會幫你解決依賴關(guān)系,依賴工具如下
數(shù)據(jù)分析流程
miRDeep2處理數(shù)據(jù)主要用到了三個腳本: miRDeep2.pl, mapper.pl和quantifier.pl, 需要提供如下的數(shù)據(jù)集:
- 參考基因組的FASTA文件
- miRBase中該物種的成熟miRNA
- mRBase中該物種的前體miRNA
- 高通量測序結(jié)果的FASTA文件
假如你已經(jīng)有了如下文件
| 文件名 | 描述信息 |
|---|---|
cel_cluster.fa |
參考基因組的FASTA文件 |
mature_ref_this_species.fa |
miRBase中該物種的成熟miRNA |
mature_ref_other_species.fa |
miRBase中該物種鄰近物種的成熟miRNA |
precursors_ref_this_species.fa |
mRBase中該物種的前體miRNA |
reads.fa |
高通量測序結(jié)果的FASTA文件 |
第一步: 建立索引
bowtie-build cel_cluster.fa cel_cluster
第二步: 將read回帖到參考基因組
mapper.pl reads.fa -c -j -k TCGTATGCCGTCTTCTGCTTGT -l 18 -m -p cel_cluster \
-s reads_collapsed.fa -t reads_collapsed_vs_genome.arf -v
各個參數(shù)的含義如下:
- -c: 表示輸入文件是fasta,
- -e fastq: 表示輸入文件是fastq
- -h 如果不是fasta,用該參數(shù)處理成fasta
- -j 移除ATCGUNatcgun以外的字符
- -k: 表示去除接頭序列
- -l 18 剔除長度在18 bp以下的序列
- -m 合并相同的reads
- -p bowite索引
- -s 處理后的read
- -t 處理后比對文件
- -d 如果要處理多個樣本,則指定配置文件
第三步(可選): 快速進(jìn)行定量。如果不需要預(yù)測新的miRNA, 可以用直接用miRBase數(shù)據(jù)庫進(jìn)行定量
quantifier.pl -p precursors_ref_this_species.fa -m mature_ref_this_species.fa \
-r reads_collapsed.fa -t cel -y 16_19
輸出結(jié)果為miRNA_expressed.csv, 記錄每個樣本的每個miRNA的count數(shù),結(jié)果同樣可以用網(wǎng)頁打開expression_16_19.html查看
第四步: 鑒定新的miRNA,并進(jìn)行定量
miRDeep2.pl reads_collapsed.fa cel_cluster.fa reads_collapsed_vs_genome.arf \
mature_ref_this_species.fa mature_ref_other_species.fa \
precursors_ref_this_species.fa -t C.elegans 2> report.log
這一步要求的參考基因組的序列不能有'ATCGN'以外的字符,沒遇到報錯就萬事大吉,遇到報錯就用
tr解決吧
第五步: 瀏覽結(jié)果
最后可以打開results.html查看結(jié)果。
參考資料
https://github.com/rajewsky-lab/mirdeep2/blob/master/TUTORIAL.md