在上一期中我們得到了cleandata,接下來(lái)是要比對(duì)到參考基因上進(jìn)行比對(duì)過(guò)程的分析。一般來(lái)說(shuō),在比對(duì)之前,我們可以選擇先去除rRNA序列然后再與參考基因組進(jìn)行比對(duì),文章中采用的策略也是如此:

那么你或許會(huì)有以下幾個(gè)隨著而來(lái)的問(wèn)題:
- 1.為什么測(cè)序數(shù)據(jù)中會(huì)出現(xiàn)rRNA?
- 2.rRNA不去除與去除會(huì)對(duì)我后面的分析造成什么樣的影響?
rRNA背景知識(shí)
在進(jìn)行具體操作之前,我們可以來(lái)先了解一下rRNA這個(gè)東西。
首先,看rRNA在整個(gè)細(xì)胞中的組成比例:從mass指標(biāo)來(lái)看,一個(gè)哺乳動(dòng)物的細(xì)胞中rRNA占比最多,能達(dá)到80-90%

比例:

Note:Estimate of RNA levels in a typical mammalian cell。ref:Front Genet. 2015 Jan 26;6:2
rRNA在參考基因組上存在多個(gè)copy:比對(duì)時(shí)會(huì)造成數(shù)據(jù)比對(duì)結(jié)果中多比率偏高。rRNA的存在對(duì)后續(xù)的影響就主要看后面的分析使用的是唯一比對(duì)reads還是所有比對(duì)上的reads了。那么,數(shù)據(jù)中為什么會(huì)測(cè)到rRNA呢?這就跟前期建庫(kù)采用的策略有關(guān)系了,去除rRNA的試劑盒的效率等問(wèn)題。
此次,我們先去文中提到的網(wǎng)址下載rRNA序列,然后使用bowtie2進(jìn)行比對(duì)。
rRNA序列下載
打開(kāi)NCBI網(wǎng)址,選擇Taxonomy數(shù)據(jù)庫(kù),輸入10090,10090為小鼠的物種ID

選擇右側(cè) Nucleotide

保存

下載下來(lái)的數(shù)據(jù):fasta格式

確認(rèn)一下下載是否完整,為82條:

rRNA比對(duì)保存沒(méi)有比對(duì)上的序列
首先,建索引:
bowtie2-build Mus_musculus.rRNA.fa Mus_musculus.rRNA
索引結(jié)果:

比對(duì):
mkdir bowtie2
# 換成自己的路徑,注意index為索引前綴
index=/path/rRNA_index/Mus_musculus.rRNA
od=/path/bowtie2
# 單端數(shù)據(jù)
ls *gz |while read id
do
sam=${id%_*};
nohup bowtie2 -x $index --un-gz ${od}/${sam}.derRNA.fq.gz -U $id -p 8 -S ${od}/${sam}.rRNA.mapped.sam 2>${od}/${sam}.log &
done
# 雙端數(shù)據(jù)
可以看文獻(xiàn)中的代碼,文獻(xiàn)中提供的為雙端數(shù)據(jù)
比對(duì)完之后的數(shù)據(jù):

后續(xù)更新~