寫(xiě)在前面
small RNA測(cè)序之后,會(huì)得到很多不同類(lèi)型的小RNA數(shù)據(jù),其中包括我們常常并不感興趣的RNA類(lèi)型,比如rRNA區(qū)間產(chǎn)生的小RNA。
有必要準(zhǔn)備一個(gè)數(shù)據(jù)庫(kù),用于過(guò)濾掉這部分小RNA。
做轉(zhuǎn)錄組分析時(shí),我們用的一般是sillva庫(kù),因?yàn)橹饕莚RNA過(guò)濾。
而小RNA數(shù)據(jù)分析,則不一樣,除了rRNA,還有snoRNA,tRNA等。
此時(shí),rfam數(shù)據(jù)庫(kù)可能是一個(gè)不錯(cuò)的選擇。
以下,是一年多以前的一個(gè)記錄。
操作流程
# 準(zhǔn)備一個(gè)Rfam庫(kù),僅不包含miRNA
#
mkdir Rfam
cd Rfam/
#
wget ftp://ftp.ebi.ac.uk/pub/databases/Rfam/12.1/fasta_files/*
# 下載下來(lái)的是所有Rfam上的序列數(shù)據(jù)
# 下面要做分類(lèi)
# 直接在瀏覽器下復(fù)制對(duì)應(yīng) 歸類(lèi) 樣本
http://rfam.xfam.org/families
# 保存在文件 Rfam_classification.xls
cut -f3 Rfam_classification.xls |sort|uniq -c
243 Cis-reg;
28 Cis-reg; frameshift_element;
30 Cis-reg; IRES;
15 Cis-reg; leader;
26 Cis-reg; riboswitch;
9 Cis-reg; thermoregulator;
79 Gene;
27 Gene; antisense;
11 Gene; antitoxin;
64 Gene; CRISPR;
217 Gene; lncRNA;
530 Gene; miRNA;
19 Gene; ribozyme;
15 Gene; rRNA;
3 Gene; snRNA;
463 Gene; snRNA; snoRNA; CD-box;
266 Gene; snRNA; snoRNA; HACA-box;
18 Gene; snRNA; snoRNA; scaRNA;
15 Gene; snRNA; splicing;
384 Gene; sRNA;
2 Gene; tRNA;
9 Intron;
# miRNA
perl -F'\t' -lane 'print $F[1] unless $F[2]=~/Gene; miRNA;/' Rfam_classification.xls > Rfam_withoutMIR.ids
#
for ID in `cat Rfam_withoutMIR.ids`;do zcat Rfam/$ID.fa.gz;done > Rfam_withoutMIR.fa
#
bowtie-build Rfam_withoutMIR.fa bowtie-index/Rfam_withoutMIR
寫(xiě)在最后
對(duì)于一個(gè)確實(shí)做分析的人,手上數(shù)百個(gè)記錄是正常的。只是有些記錄值得分享,有些不值得。發(fā)這個(gè)推文的主要原因,事實(shí)上,只是當(dāng)心流程丟失。