上次講到sRNA數(shù)據(jù)如何去接頭,那么接下來(lái)的常規(guī)操作是什么?

一、去冗余(collapse)--- 用于比對(duì)的數(shù)據(jù)是否需要去冗余
作用:將相同reads合并,記錄相同reads出現(xiàn)的次數(shù)
fastx_collapser -iSRR4010495_trimmed.fa -o SRR4010495_mc.fa
去冗余后的數(shù)據(jù)形式

“-”之前為編號(hào),“-”之后為該read的豐度
當(dāng)然也可以用CJ的TBtools來(lái)操作這一步:
java -cpTBtools_JRE1.6.jar biocjava.sRNA.Tools.sRNAseqCollasper --inFxSRR4010495_trimmed.fa --outCollaspedFa SRR4010495_mc.fa
Note:一般情況下去冗余這一步只在后續(xù)進(jìn)行miRNA挖掘即預(yù)測(cè)phasiRNAs用到,用IGV查看的數(shù)據(jù)不需要去冗余,IGV需要展示每一條reads
是否去冗余對(duì)于查看IGV的影響如下:

上圖為去冗余后的數(shù)據(jù)產(chǎn)生的比對(duì)文件

上圖為未去冗余的數(shù)據(jù)產(chǎn)生的比對(duì)文件

去冗余后的數(shù)據(jù)reads覆蓋度明顯降低
二、將未去冗余的數(shù)據(jù)回帖到基因組
建bowtie索引
bowtie-build -fFragaria_vesca.genome.fna Fragaria_vesca
回帖
bowtie? -a -m 50 -v 0 -p 12 -f -S Fragaria_vescaSRR4010495_trimmed.fa SRR4010495.mapping.sam
#同一品種錯(cuò)配數(shù)為0;同一物種不同品種允許錯(cuò)配數(shù)為1,考慮到SNP的存在;
三、比對(duì)文件排序建索引
sambamba view -f bam-S SRR4010495.mapping.sam -o SRR4010495.mapping.bam -t 10
sambamba sortSRR4010495.mapping.bam -o SRR4010495.mapping.sorted.bam -t 10
sambamba indexSRR4010495.mapping.sorted.bam
sambamba相對(duì)于samtools更快
四、將比對(duì)文件加載到IGV查看sRNA數(shù)據(jù)
導(dǎo)入基因組文件和*.sorted.bam和*.sorted.bam.bai文件
sRNA數(shù)據(jù)可能會(huì)看到以下幾種情況:
1、產(chǎn)生miRNA的區(qū)域
這個(gè)區(qū)域有兩個(gè)產(chǎn)生于同一條鏈(紅色:+;藍(lán)色:-)的獨(dú)立峰,兩個(gè)峰之間無(wú)其他雜峰,高峰為miRNA的成熟序列reads,低峰為miRNA的star序列reads;
右鍵高峰reads----Copy
read sequence----miRBase中進(jìn)行序列比對(duì)確認(rèn)該miRNA是否有注釋

2、產(chǎn)生phasiRNAs的區(qū)域
這個(gè)區(qū)域包含兩條鏈產(chǎn)生的reads,且產(chǎn)生的reads以較為整齊的21nt,21nt相位切割的形式呈現(xiàn);
用IGV的Define a region of interest工具選取PHAS區(qū)域及其前后各100bp的序列----psRNATarget預(yù)測(cè)該P(yáng)HAS的trigger----Swissprot庫(kù)比對(duì)查看該P(yáng)HAS的注釋

3、重復(fù)序列區(qū)域
基因組中有大量的重復(fù)序列,這種區(qū)域產(chǎn)生的reads多為24nt,因此sRNA測(cè)序數(shù)據(jù)數(shù)量最多為24nt的reads;這個(gè)區(qū)域的reads通常沒有相位切割的規(guī)律,以“一片云”的狀態(tài)呈現(xiàn)
