本文簡單闡述miRNA分析中,如何對其數(shù)據(jù)進(jìn)行比對
早先簡單介紹如何對miRNA數(shù)據(jù)進(jìn)行過濾miRNA分析--數(shù)據(jù)過濾(一)。就如何比對進(jìn)行簡單介紹。
在比對前,也可以將非miRNA去除,可比對到rRNA,tRNA等庫中,將比對上的去掉即可。
比如:
bowtie rRNA.fa -v 0 -p 10 -q mirnaReads -S test.sam --un unmap.sam
# -v: 不錯(cuò)配
# --un: 沒有比對上的reads
但是本次我并沒有去掉。。
比對有2種方式,第一與miRbase庫進(jìn)行比對,根據(jù)gff定量;第二與參考基因組進(jìn)行比對,還可以鑒定novel miRNA。
1. miRbase 比對
去miRbase 下載mature.fa 或者h(yuǎn)airpin.fa文件即可。有些文章比對mature, 也有hairpin.fa 。還有將2者合并進(jìn)行比較。本次只比較mature。
## 索引
bowtie-build mature.fa
## 比對
bowtie mature.fa -v 0 -p 10 -q miRNareads.fq -S test.sam
##定量
samtools view -F 4 test.sam |cut -f3 |sort |uniq -c | awk '{print $2"\t"$1}' >test.exp.xls
2. 參考基因組進(jìn)行比較
本次選用mirDeep2
數(shù)據(jù)準(zhǔn)備:
- miRNA reads
- genome
- 本物種的mature.fa (U替換為T)
- 其他物種的mature.fa
- 本物種前體序列
第一步 比對
mapper.pl miRNA_reads -e -j -l 18 -m -p genome -s test.collapsed.fa -t test.arf -v
# -e: 輸入為fastq
# -c: 輸入為fasta
# -j; 表示移除ATCGUNatcgun以外的字符
# -k: 表示去除3‘街頭序列
# -l: 表示最小長度,默認(rèn)18
# -m: 合併相同的reads
# -p: 表示所索引文件
# -s: 輸出的fa
# -t: 輸出后的比對文件
# -v: 輸出進(jìn)度報(bào)告
同樣,mirdeep2也可以接受bam文件
## bam 轉(zhuǎn)化為 sam
samtools view -h -o test.sam test.bam
# mapping
perl bwa_sam_converter.pl -i test.sam -c -o test_collapsed.fa -a test.arf
結(jié)果可以得到一個(gè)collapsed.fa文件,以及arf文件,其中arf包括序列名;長度;起始;終止;序列;map到哪條染色體;map到染色體的長度;map到染色體的起始終止位置;染色體上的序列;正負(fù)義鏈;錯(cuò)配數(shù);如果有錯(cuò)配用M,否則就用m
第二步: 鑒定novel miRNA并定量
## 如果沒有對應(yīng)本物種的mature.fa 等,則全部用none
miRDeep2.pl test_collapsed.fa genome test.arf none none none 2>>report.log
## 如果有則
miRDeep2.pl test_collapsed.fa genome test.arf 本物種mature.fa other.mature.fa 本物種hairpin.fa -t 本物種 2>>report.log
結(jié)果可得到每一個(gè)miRNA的 reads count數(shù)量,用Deseq2分析即可。