制備用于smallRNA分析的RNA過(guò)濾庫(kù)

寫(xiě)在前面

small RNA測(cè)序之后,會(huì)得到很多不同類(lèi)型的小RNA數(shù)據(jù),其中包括我們常常并不感興趣的RNA類(lèi)型,比如rRNA區(qū)間產(chǎn)生的小RNA。
有必要準(zhǔn)備一個(gè)數(shù)據(jù)庫(kù),用于過(guò)濾掉這部分小RNA。
做轉(zhuǎn)錄組分析時(shí),我們用的一般是sillva庫(kù),因?yàn)橹饕莚RNA過(guò)濾。
而小RNA數(shù)據(jù)分析,則不一樣,除了rRNA,還有snoRNA,tRNA等。
此時(shí),rfam數(shù)據(jù)庫(kù)可能是一個(gè)不錯(cuò)的選擇。
以下,是一年多以前的一個(gè)記錄。

操作流程

# 準(zhǔn)備一個(gè)Rfam庫(kù),僅不包含miRNA
# 
mkdir Rfam
cd Rfam/
# 
wget ftp://ftp.ebi.ac.uk/pub/databases/Rfam/12.1/fasta_files/*

# 下載下來(lái)的是所有Rfam上的序列數(shù)據(jù)

# 下面要做分類(lèi)
# 直接在瀏覽器下復(fù)制對(duì)應(yīng) 歸類(lèi) 樣本
http://rfam.xfam.org/families

# 保存在文件 Rfam_classification.xls
cut -f3 Rfam_classification.xls |sort|uniq -c
    243 Cis-reg;
     28 Cis-reg; frameshift_element;
     30 Cis-reg; IRES;
     15 Cis-reg; leader;
     26 Cis-reg; riboswitch;
      9 Cis-reg; thermoregulator;
     79 Gene;
     27 Gene; antisense;
     11 Gene; antitoxin;
     64 Gene; CRISPR;
    217 Gene; lncRNA;
     530 Gene; miRNA;
     19 Gene; ribozyme;
     15 Gene; rRNA;
      3 Gene; snRNA;
    463 Gene; snRNA; snoRNA; CD-box;
    266 Gene; snRNA; snoRNA; HACA-box;
     18 Gene; snRNA; snoRNA; scaRNA;
     15 Gene; snRNA; splicing;
    384 Gene; sRNA;
      2 Gene; tRNA;
      9 Intron;

# miRNA
perl -F'\t' -lane 'print $F[1] unless $F[2]=~/Gene; miRNA;/' Rfam_classification.xls > Rfam_withoutMIR.ids
# 
for ID in `cat Rfam_withoutMIR.ids`;do zcat Rfam/$ID.fa.gz;done > Rfam_withoutMIR.fa
# 
bowtie-build Rfam_withoutMIR.fa bowtie-index/Rfam_withoutMIR

寫(xiě)在最后

對(duì)于一個(gè)確實(shí)做分析的人,手上數(shù)百個(gè)記錄是正常的。只是有些記錄值得分享,有些不值得。發(fā)這個(gè)推文的主要原因,事實(shí)上,只是當(dāng)心流程丟失。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容