非編碼 RNA 注釋實戰(zhàn)指南:從安裝到數據庫,完整流程解析

前言

在早期基因組學研究中,人們往往將目光集中在編碼蛋白的基因上,并將其視為遺傳信息的核心載體。然而,隨著高通量測序和轉錄組技術的發(fā)展,一個逐漸清晰的事實浮出水面:
絕大多數基因組序列并不編碼蛋白,卻被廣泛轉錄,并在細胞生命活動中發(fā)揮關鍵作用。

這些“不編碼蛋白、卻高度活躍”的轉錄本,被統(tǒng)稱為非編碼 RNA(non-coding RNA,ncRNA)。它們參與基因表達調控、染色質重塑、RNA 加工、脅迫響應乃至物種演化,是理解基因組功能不可或缺的一部分。

本篇文章將系統(tǒng)介紹:

  1. 什么是非編碼 RNA

  2. 非編碼 RNA 的主要類型及功能

  3. 如何注釋非編碼 RNA

什么是非編碼 RNA

非編碼 RNA(non-coding RNA, ncRNA)是指不能翻譯為蛋白質、但在細胞中具有生物學功能的一類 RNA 分子。

從定義上看,ncRNA 具有三個核心特征:

  1. 不產生功能性蛋白質(缺乏完整 ORF 或不被翻譯)

  2. 來源于基因組轉錄(并非轉錄噪音)

  3. 在分子、細胞或個體層面具有明確功能

非編碼 RNA 的主要類型及功能

  1. rRNA(ribosomal RNA)

    是構成核糖體核心結構并承擔蛋白質翻譯催化與支架功能的一類高度保守非編碼 RNA,通常在基因組中以高拷貝串聯重復的形式存在。
  2. tRNA(transfer RNA)

    是在 mRNA 與氨基酸之間起適配器作用的非編碼 RNA,結構高度保守,但同義 tRNA 的拷貝數在不同物種間存在顯著差異。
  3. miRNA(microRNA)

    是來源于內源性發(fā)夾結構前體的小 RNA,通過與靶 mRNA 配對抑制翻譯或促進降解,在發(fā)育調控、脅迫響應和信號通路中發(fā)揮關鍵作用。
  4. snRNA(small nuclear RNA)

    是定位于細胞核內、作為剪接體核心組分參與前體 mRNA 剪接的非編碼 RNA。

如何注釋非編碼 RNA

非編碼 RNA(ncRNA)的結構注釋,主流做法是基于同源結構搜索,Infernal 使用協(xié)方差模型(Covariance Model, CM),能夠同時考慮序列與二級結構信息,非常適合 rRNA、tRNA、snRNA、miRNA 等保守 ncRNA 的注釋。

軟件安裝及數據庫下載

## mamba安裝Infernal
mamba create -n infernal -c bioconda infernal
mamba activate infernal
## 下載Rfam數據庫
wget https://ftp.ebi.ac.uk/pub/databases/Rfam/CURRENT/Rfam.cm.gz
wget https://ftp.ebi.ac.uk/pub/databases/Rfam/CURRENT/Rfam.clanin
gunzip Rfam.cm.gz

運行 cmscan 進行 ncRNA 注釋

bash
## 計算基因組大小
seqkit stat genome_final.fasta
## 按照官方推薦公式計算 Z 值:
Z = genome_size × 2 / 1,000,000
## 運行 cmscan
cmscan --cut_ga --rfam --nohmmonly \
  --cpu 30 \
  -Z 2312.999426 \
  --tblout genome_rfam.tblout \
  --fmt 2 \
  --clanin Rfam.clanin \
  Rfam.cm \
  genome_final.fasta > genome.cmscan
# --cut_ga:使用 Rfam 推薦的 GA 閾值來過濾低可信度的結果 
# --rfam: 啟用 Rfam 數據庫的標準注釋模式
# --nohmmonly: 禁用 HMM-only 模式,確保同時使用 CM 模型來提供更精確的注釋
# --tblout:輸出文件
# --clanin:輸入文件:Rfam數據庫模型文件

非編碼RNA注釋結果統(tǒng)計

## 去除 overlap 命中
grep -v " = " genome_rfam.tblout > genome_rfam.deoverlapped.tblout
# Rfam 在同一區(qū)域可能產生多個命中,需要保留得分最高的結果

## 結果格式轉換:tblout → GFF3
perl tblout2gff3.pl \
  family.txt \
  genome_rfam.deoverlapped.tblout > genome_rfam.gff3
# 轉換后 GFF3 示例:
Chr01  Rfam  ncRNA  12345  12498  .  +  .  Family="Gene; tRNA;"
Chr03  Rfam  ncRNA  56789  57210  .  -  .  Family="Gene; rRNA;"

## 非編碼 RNA 注釋結果統(tǒng)計
{
  echo -e "Type\tCount"
  echo -e "rRNA\t$(grep -c 'Family="Gene; rRNA;"' genome_rfam.gff3)"
  echo -e "tRNA\t$(grep -c 'Family="Gene; tRNA;"' genome_rfam.gff3)"
  echo -e "miRNA\t$(grep -c 'Family="Gene; miRNA;"' genome_rfam.gff3)"
  echo -e "snRNA\t$(grep -c 'Family="Gene; snRNA;"' genome_rfam.gff3)"
} > ncRNA_summary.tsv

## snRNA 亞型統(tǒng)計
grep 'Family="Gene; snRNA;' genome_rfam.gff3 \
 | awk -F'Family=' '{print $2}' \
 | sort | uniq -c

統(tǒng)計結果如下

Type    Number
rRNA    4680
miRNA   154
tRNA    8921
snRNA   5771

結尾

通過本文的介紹,我們了解了非編碼 RNA的重要性以及如何使用Infernal + Rfam工具進行系統(tǒng)的基因組注釋。隨著對基因組復雜性理解的不斷深化,非編碼 RNA 在生物學功能研究中的地位愈加突出。精確的非編碼 RNA 注釋不僅為基因組研究提供了更加完整的信息,還為揭示物種演化、發(fā)育過程及適應性機制提供了重要線索。

本文由mdnice多平臺發(fā)布

?著作權歸作者所有,轉載或內容合作請聯系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

友情鏈接更多精彩內容