環(huán)狀RNA(circular RNA,circRNA)是一類特殊的非編碼RNA(noncoding RNA,ncRNA),也是RNA領(lǐng)域最新的研究熱點(diǎn)。與傳統(tǒng)的線性RNA(linear RNA,含5’和3’末端)不同,circRNA分子呈封閉環(huán)狀結(jié)構(gòu),不受RNA外切酶影響,表達(dá)更穩(wěn)定,不易降解。
目前研究表明,在生物體內(nèi),circRNA主要通過其序列特征,發(fā)揮miRNA海綿、RNA-binding proteins (RBPs)海綿以及翻譯短肽等生物學(xué)功能(1-2)。因此,確定其的全長(zhǎng)序列,是進(jìn)行circRNA功能研究的重要基礎(chǔ)。由于目前對(duì)于circRNA的研究多采用二代測(cè)序的方法,而circRNA的內(nèi)部序列與線性mRNA分子高度相似,單純通過算法(識(shí)別反向剪切位點(diǎn))很難區(qū)分來自環(huán)形RNA和線性RNA分子的讀段,以及確定全長(zhǎng)circRNA內(nèi)部組成。近期的研究中利用了長(zhǎng)讀長(zhǎng)測(cè)序技術(shù),對(duì)circRNA的全長(zhǎng)重構(gòu)進(jìn)行了嘗試(3-4)。因此,目前研究方法對(duì)于circRNA結(jié)構(gòu)的識(shí)別能力主要被二代測(cè)序的讀長(zhǎng)所限制,對(duì)于長(zhǎng)度較長(zhǎng)(>500bp)的circRNA分子,仍然缺少有效的全長(zhǎng)重構(gòu)手段。
趙方慶教授團(tuán)隊(duì)前期提出了CIRI-AS算法(基于BSJ讀段對(duì)比結(jié)果對(duì)環(huán)形RNA內(nèi)部可變剪接結(jié)構(gòu)進(jìn)行識(shí)別)。后續(xù)研究開發(fā)了CIRI-full算法(通過識(shí)別雙端250bp測(cè)序數(shù)據(jù)中反向重疊區(qū)特征,對(duì)500bp以內(nèi)的環(huán)形RNA進(jìn)行全長(zhǎng)重構(gòu))。上述方法主要基于短讀長(zhǎng)測(cè)序技術(shù),難以對(duì)長(zhǎng)度500bp以上的circRNA的全長(zhǎng)序列進(jìn)行有效識(shí)別。
在此基礎(chǔ)上,2021年3月11日,中國(guó)科學(xué)院北京生命科學(xué)研究院趙方慶教授團(tuán)隊(duì)在Nature Biotechnology雜志上發(fā)表了題為Comprehensive profiling of circular RNAs with nanopore sequencing and CIRI-long 的文章,開發(fā)了一種基于三代納米孔測(cè)序平臺(tái)(Oxford Nanopore Technologies ,ONT)高效測(cè)定circRNA全長(zhǎng)轉(zhuǎn)錄本的實(shí)驗(yàn)和計(jì)算方法:利用隨機(jī)引物對(duì)circRNA進(jìn)行的滾環(huán)反轉(zhuǎn)錄擴(kuò)增后,使用三代納米孔測(cè)序技術(shù)(ONT)對(duì)circRNA的全長(zhǎng)序列進(jìn)行直接測(cè)序,并開發(fā)了CIRI-long 算法,實(shí)現(xiàn)對(duì)長(zhǎng)測(cè)序讀段中的circRNA序列進(jìn)行識(shí)別和全長(zhǎng)重構(gòu)。實(shí)驗(yàn)結(jié)果表明,與傳統(tǒng)的circRNA二代測(cè)序技術(shù)相比,該方法將circRNA檢測(cè)靈敏度提升了20倍,并可實(shí)現(xiàn)對(duì)不同長(zhǎng)度(<100bp - 5kb)的circRNA全長(zhǎng)序列的無偏識(shí)別,大幅提升了環(huán)形轉(zhuǎn)錄本的重構(gòu)能力,為其功能研究提供了重要的實(shí)驗(yàn)方法和計(jì)算工具。
趙方慶教授實(shí)驗(yàn)室主頁(yè)(圖1):https://bioinfo.biols.ac.cn/

一、CIRI-long軟件介紹
因?yàn)閏ircRNAs及其對(duì)應(yīng)的線性信使RNA之間的相似性,利用短讀長(zhǎng)RNA測(cè)序重建circRNA的全長(zhǎng)序列一直是具有挑戰(zhàn)性的,先前的測(cè)序方法無法實(shí)現(xiàn)對(duì)全長(zhǎng)circRNA的高通量檢測(cè)。趙方慶教授團(tuán)隊(duì)開發(fā)了一種利用三代納米孔(ONT)測(cè)序技術(shù)進(jìn)行circRNA及其相應(yīng)的異構(gòu)體(isoform)富集和全長(zhǎng)測(cè)序的方案。環(huán)狀逆轉(zhuǎn)錄和片段大小選擇能比先前方法從總RNA中多富集出20倍的circRNAs。我們開發(fā)了一個(gè)使用長(zhǎng)度長(zhǎng)測(cè)序數(shù)據(jù)(CIRI-long)circRNA鑒定軟件,用于重建circRNAs的序列。該算法工作流程利用模擬數(shù)據(jù),通過與 Illumina 測(cè)序以及定量實(shí)時(shí)RT-PCR 的比較進(jìn)行了驗(yàn)證。作者使用CIRI-long來分析成年小鼠腦組織樣本,并系統(tǒng)地對(duì)circRNAs進(jìn)行注釋分析,包括來自線粒體circRNAs。作者鑒定了一種新的內(nèi)含子自連接circRNA的特殊的剪接和表達(dá)模式。此方法利用了三代納米孔測(cè)序的長(zhǎng)讀長(zhǎng)優(yōu)勢(shì),實(shí)現(xiàn)了對(duì)全長(zhǎng)circRNA序列的無偏重建(圖2)。

二、CIRI-long的安裝
依賴軟件:
-
gcc 4.8+或clang 3.4+ cmake 3.2+python>=3.7-
samtools=1.9或更高 minimap2
1. 從源代碼安裝
$ git clone https://github.com/bioinfo-biols/CIRI-long.git CIRI-long
$ cd CIRI-long
# Create virtual environment
$ python3 -m venv venv
# Activate virtualenv
$ source ./venv/bin/activate
# Install CIRI-long
$ make
# Test for installation
$ make test
2. 使用pip安裝
個(gè)人推薦使用,方便快捷。
$ pip install CIRI-long
三、CIRI-long的使用方法
軟件主頁(yè):https://github.com/bioinfo-biols/CIRI-long
1. 基本用法
CIRI-long兩個(gè)命令: CIRI-long call 和 CIRI-long collapse,因此整個(gè)流程分為兩步。
usage: CIRI-long [-h] [-v] {call,collapse} ...
positional arguments:
{call,collapse} commands
optional arguments:
-h, --help show this help message and exit
-v, --version show program's version number and exit
2. 步驟1:circRNA 鑒定
- 基本用法
#主命令
$ CIRI-long call [-h] [-i READS] [-o DIR] [-r REF] [-p PREFIX] [-a GTF] [--canonical] [-t INT] [--debug]
optional arguments:
-h, --help show this help message and exit #幫助文檔
-i READS, --in READS Input reads.fq.gz #輸入文件
-o DIR, --out DIR Output directory, default: ./ #輸出文件夾路徑
-r REF, --ref REF Reference genome FASTA file #參考基因組ref.fa文件,需要用bwa進(jìn)行索引
-p PREFIX, --prefix PREFIX
Output sample prefix, (default: CIRI-long) #輸出文件前綴
-a GTF, --anno GTF Genome reference gtf, (optional) #基因組注釋文件(可選)
-c CIRC, --circ CIRC Additional circRNA annotation in bed/gtf format,
(optional) #以bed/gtf格式輸出circRNA注釋文件(可選)
-t INT, --threads INT Number of threads, (default: use all cores) #線程數(shù)
--debug Run in debugging mode, (default: False) #糾錯(cuò)模式運(yùn)行
注意:
參考基因組需要bwa的索引。在運(yùn)行CIRI-long之前,使用bwa index命令對(duì)參考基因組ref.fa文件進(jìn)行索引。
- 使用示例
#下載演示數(shù)據(jù)
$ wget https://github.com/bioinfo-biols/CIRI-long/releases/download/v0.6-alpha/CIRI-long_test_data.tar.gz
#演示數(shù)據(jù)解壓
$ tar zxvf CIRI-long_test_data.tar.gz
$ cd test_data
#使用```bwa index```命令對(duì)參考基因組文件進(jìn)行索引
$ bwa index -a bwtsw mm10_chr12.fa mm10_chr12.fa
#運(yùn)行CIRI-long鑒定circRNA
$ CIRI-long call -i test_reads.fa \ #輸入文件
-o ./test_call \ #輸出路徑
-r mm10_chr12.fa \ #參考基因組
-p test \ #輸出文件前綴
-a mm10_chr12.gtf \ #基因組注釋文件
-t 8 #使用線程數(shù)
- 輸出文件
test_call
├── test.cand_circ.fa # 主要文件,circRNA序列文件。
├── test.json
├── test.log
├── test.low_confidence.fa # circRNA序列文件,低置信度。
└── tmp
├── ss.idx
├── test.ccs.fa
└── test.raw.fa
# 如果不加 -c 選項(xiàng),則產(chǎn)生一個(gè)文件夾,7個(gè)文件
-
使用非經(jīng)典剪切信號(hào)
如果想使用其它剪切信號(hào),可以在腳本align.py修改SPLICE_SIGNAL,格式為:{(5’SS, 3’SS): Priority} 。
默認(rèn):
SPLICE_SIGNAL = {
('GT', 'AG'): 0, # U2-type
('GC', 'AG'): 1, # U2-type
('AT', 'AC'): 2, # U12-type
('GT', 'AC'): 2, # U12-type
('AT', 'AG'): 2, # U12-type
}
3. 步驟2:isoform合并(collapose)
- 基本用法
可以將多個(gè)樣本的circRNA結(jié)果合并。
#主命令
$ CIRI-long collapse [-h] [-i LIST] [-o DIR] [-p PREFIX] [-r REF] [-a GTF] [--canonical] [-t INT] [--debug]
optional arguments:
-h, --help show this help message and exit #幫助文檔
-i LIST, --in LIST Input list of CIRI-long results #樣本名稱和路徑的list文件
-o DIR, --out DIR Output directory, default: ./ #輸出文件夾路徑
-p PREFIX, --prefix PREFIX
Output sample prefix, (default: CIRI-long) #輸出文件前綴
-r REF, --ref REF Reference genome FASTA file #參考基因組文件
-a GTF, --anno GTF Genome reference gtf, (optional) #參考基因組注釋文件
-c CIRC, --circ CIRC Additional circRNA annotation in bed/gtf format,
(optional) #以bed/gtf格式輸出circRNA注釋文件(可選)
-t INT, --threads INT
Number of threads, (default: use all cores) #線程數(shù)
--debug Run in debugging mode, (default: False) #糾錯(cuò)模式運(yùn)行
需要先創(chuàng)建一個(gè)想要合并樣本(*.cand_circ.fa)的名稱和路徑的list文本文件,以空格分隔。
#list 文件內(nèi)容
sample1_name /path/to/sample1/cand_circ.fa
sample2_name /path/to/sample2/cand_circ.fa
- 使用示例
創(chuàng)建一個(gè)名為test.list文本文件:
test ./test_call/test.cand_circ.fa
運(yùn)行CIRI-long collapse合并一個(gè)或多個(gè)樣本結(jié)果。
$ CIRI-long collapse -i ./test.lst \ #輸入文件
-o ./test_collpase \ #輸出文件夾路徑
-p test \ #文件前綴
-r ./mm10_chr12.fa \ #參考基因組
-a ./mm10_chr12.gtf \ #參考基因組注釋文件
-t 8 #線程
- 輸出文件
test_collpase
├── test_collpase.expression
├── test_collpase.isoforms
├── test_collpase.info
├── test_collpase.log
├── test_collpase.reads
└── tmp
├── ss.idx
└── test_collpase.corrected.pkl
# 如果不加 -c 選項(xiàng),則產(chǎn)生一個(gè)文件夾,6個(gè)文件
- 輸出文件格式
1)主要輸出文件,GTF格式文件(test_collpase.info),包含所有circRNA的詳細(xì)信息和circRNA反向剪切區(qū)域的注釋列。
| 列 | 名稱 | 描述 |
|---|---|---|
| 1 | chrom 染色體位置 | chromosome/contig name ---- 染色體或contig名稱 |
| 2 | source 來源 | CIRI-long |
| 3 | type 類型 | circRNA |
| 4 | start 起始 | 5' back-spliced junction site ---- 5'端反向剪切位點(diǎn) |
| 5 | end 結(jié)束 | 3' back-spliced junction site ---- 3'端反向剪切位點(diǎn) |
| 6 | score 得分 | Number of total supported reads ---- 支持reads數(shù) |
| 7 | strand 鏈 | strand information ---- 鏈信息 |
| 8 | . | . |
| 9 | attributes 特性 | attributes seperated by semicolon ---- 分號(hào)分隔的屬性 |
屬性列包含了幾個(gè)預(yù)先定義的關(guān)鍵詞及其賦值:
| key關(guān)鍵詞 | description描述 |
|---|---|
| circ_id circRNA的ID | name of circRNA ---- circRNA名稱 |
| splice_site 剪切位點(diǎn) | splicing signal of candidate circRNAs and numbers indicating shifted bases of aligned and annotated splice site. (e.g. AG-GT | 0-5) 候選circRNA剪切信號(hào)和實(shí)際剪切位點(diǎn)和注釋的偏差堿基數(shù) |
| equivalent_seq 等同序列 | equivalent sequence of splice site ---- 同一個(gè)剪切位點(diǎn)對(duì)應(yīng)的其它c(diǎn)ircRNA序列 |
| circ_type circ類型 | circRNA types: exon/intron/intergenic ---- circRNA類型:外顯子/內(nèi)含子/基因間區(qū) |
| circ_len circ長(zhǎng)度 | length of the major isoform of circRNA ---- circRNA主要異構(gòu)體的長(zhǎng)度 |
| isoform 異構(gòu)體 | structure of isoforms, isoforms are seperated by "|" and circular exons are seperated by "," (e.g. 11627815-111627914,111628190-111628302|11627815-111628302) ---- circRNA異構(gòu)體的位置長(zhǎng)度信息 |
| gene_id 基因ID | ensemble id of host gene ---- 基因的ensemble ID |
| gene_name 基因名稱 | HGNC symbol of host gene ---- 基因的名稱 |
| gene_type 基因類型 | type of host gene in the annotation gtf file ---- 基因的類型 |
2)表達(dá)矩陣
test_collpase.expression: 包含所有樣本中circRNA的表達(dá)水平,tsv文件格式。
test_collpase.isoforms:包含所有樣本中每個(gè)circRNA異構(gòu)體(isoform)使用指數(shù)(index),tsv文件格式。
isoform使用指數(shù)公式:
Isoform usage index = Isoform_reads(某個(gè)異構(gòu)體-isoform的數(shù)量) / Sum of all isoforms from the same BSJ (共享同一個(gè)反向剪切位點(diǎn)的所有異構(gòu)體-isoform總和)
4. 步驟3:輸出文件可視化
從版本v1.1.0以后,CIRI-long包含misc/conver_bed.py 腳本,用戶可以使用此腳本將 circRNA.info(gtf格式)轉(zhuǎn)化為.bed格式,此.bed文件可以利用IGV或Jbrowse2軟件進(jìn)行可視化。具體轉(zhuǎn)化代碼如下:
$ python3 misc/convert_bed.py collapse_out/sample.info sample_circ.bed
四、參考文獻(xiàn)
- 專家點(diǎn)評(píng) | 基于納米孔測(cè)序的環(huán)形RNA識(shí)別和重建新技術(shù)
- Chen L-L. The Expanding Regulatory Mechanisms and Cellular Functions of Circular RNAs. Nature Reviews. Molecular Cell Biology, 2020.
- Zheng Y, Ji P, Chen S, et al. Reconstruction of Full-Length Circular RNAs Enables Isoform-Level Quantification. Genome Medicine, 2019, 11(1): 4. Xin R, Gao Y, Gao Y, et al. IsoCirc Catalogs Full-Length Circular RNA Isoforms in Human Transcriptomes. Nature Communications, 2021, 12(1): 266.
- Zhang, J., Hou, L., Zuo, Z., Ji, P., Zhang, X., Xue, Y., & Zhao, F. Comprehensive profiling of circular RNAs with nanopore sequencing and CIRI-long. Nature Biotechnology. (2021).
- CIRI-long 使用文檔: https://ciri-cookbook.readthedocs.io/en/latest