全長(zhǎng)轉(zhuǎn)錄組 | 三代全長(zhǎng)轉(zhuǎn)錄之circRNA(ONT )-- CIRI-long

環(huán)狀RNA(circular RNA,circRNA)是一類特殊的非編碼RNA(noncoding RNA,ncRNA),也是RNA領(lǐng)域最新的研究熱點(diǎn)。與傳統(tǒng)的線性RNA(linear RNA,含5’和3’末端)不同,circRNA分子呈封閉環(huán)狀結(jié)構(gòu),不受RNA外切酶影響,表達(dá)更穩(wěn)定,不易降解。

目前研究表明,在生物體內(nèi),circRNA主要通過其序列特征,發(fā)揮miRNA海綿RNA-binding proteins (RBPs)海綿以及翻譯短肽等生物學(xué)功能(1-2)。因此,確定其的全長(zhǎng)序列,是進(jìn)行circRNA功能研究的重要基礎(chǔ)。由于目前對(duì)于circRNA的研究多采用二代測(cè)序的方法,而circRNA的內(nèi)部序列與線性mRNA分子高度相似,單純通過算法(識(shí)別反向剪切位點(diǎn))很難區(qū)分來自環(huán)形RNA和線性RNA分子的讀段,以及確定全長(zhǎng)circRNA內(nèi)部組成。近期的研究中利用了長(zhǎng)讀長(zhǎng)測(cè)序技術(shù),對(duì)circRNA的全長(zhǎng)重構(gòu)進(jìn)行了嘗試(3-4)。因此,目前研究方法對(duì)于circRNA結(jié)構(gòu)的識(shí)別能力主要被二代測(cè)序的讀長(zhǎng)所限制,對(duì)于長(zhǎng)度較長(zhǎng)(>500bp)的circRNA分子,仍然缺少有效的全長(zhǎng)重構(gòu)手段。

趙方慶教授團(tuán)隊(duì)前期提出了CIRI-AS算法(基于BSJ讀段對(duì)比結(jié)果對(duì)環(huán)形RNA內(nèi)部可變剪接結(jié)構(gòu)進(jìn)行識(shí)別)。后續(xù)研究開發(fā)了CIRI-full算法(通過識(shí)別雙端250bp測(cè)序數(shù)據(jù)中反向重疊區(qū)特征,對(duì)500bp以內(nèi)的環(huán)形RNA進(jìn)行全長(zhǎng)重構(gòu))。上述方法主要基于短讀長(zhǎng)測(cè)序技術(shù),難以對(duì)長(zhǎng)度500bp以上的circRNA的全長(zhǎng)序列進(jìn)行有效識(shí)別。

在此基礎(chǔ)上,2021年3月11日,中國(guó)科學(xué)院北京生命科學(xué)研究院趙方慶教授團(tuán)隊(duì)在Nature Biotechnology雜志上發(fā)表了題為Comprehensive profiling of circular RNAs with nanopore sequencing and CIRI-long 的文章,開發(fā)了一種基于三代納米孔測(cè)序平臺(tái)(Oxford Nanopore Technologies ,ONT)高效測(cè)定circRNA全長(zhǎng)轉(zhuǎn)錄本的實(shí)驗(yàn)和計(jì)算方法:利用隨機(jī)引物對(duì)circRNA進(jìn)行的滾環(huán)反轉(zhuǎn)錄擴(kuò)增后,使用三代納米孔測(cè)序技術(shù)(ONT)對(duì)circRNA的全長(zhǎng)序列進(jìn)行直接測(cè)序,并開發(fā)了CIRI-long 算法,實(shí)現(xiàn)對(duì)長(zhǎng)測(cè)序讀段中的circRNA序列進(jìn)行識(shí)別和全長(zhǎng)重構(gòu)。實(shí)驗(yàn)結(jié)果表明,與傳統(tǒng)的circRNA二代測(cè)序技術(shù)相比,該方法將circRNA檢測(cè)靈敏度提升了20倍,并可實(shí)現(xiàn)對(duì)不同長(zhǎng)度(<100bp - 5kb)的circRNA全長(zhǎng)序列的無偏識(shí)別,大幅提升了環(huán)形轉(zhuǎn)錄本的重構(gòu)能力,為其功能研究提供了重要的實(shí)驗(yàn)方法和計(jì)算工具。

趙方慶教授實(shí)驗(yàn)室主頁(yè)(圖1)https://bioinfo.biols.ac.cn/

圖1.趙方慶教授實(shí)驗(yàn)室主頁(yè)

一、CIRI-long軟件介紹

因?yàn)閏ircRNAs及其對(duì)應(yīng)的線性信使RNA之間的相似性,利用短讀長(zhǎng)RNA測(cè)序重建circRNA的全長(zhǎng)序列一直是具有挑戰(zhàn)性的,先前的測(cè)序方法無法實(shí)現(xiàn)對(duì)全長(zhǎng)circRNA的高通量檢測(cè)。趙方慶教授團(tuán)隊(duì)開發(fā)了一種利用三代納米孔(ONT)測(cè)序技術(shù)進(jìn)行circRNA及其相應(yīng)的異構(gòu)體(isoform)富集和全長(zhǎng)測(cè)序的方案。環(huán)狀逆轉(zhuǎn)錄和片段大小選擇能比先前方法從總RNA中多富集出20倍的circRNAs。我們開發(fā)了一個(gè)使用長(zhǎng)度長(zhǎng)測(cè)序數(shù)據(jù)(CIRI-long)circRNA鑒定軟件,用于重建circRNAs的序列。該算法工作流程利用模擬數(shù)據(jù),通過與 Illumina 測(cè)序以及定量實(shí)時(shí)RT-PCR 的比較進(jìn)行了驗(yàn)證。作者使用CIRI-long來分析成年小鼠腦組織樣本,并系統(tǒng)地對(duì)circRNAs進(jìn)行注釋分析,包括來自線粒體circRNAs。作者鑒定了一種新的內(nèi)含子自連接circRNA的特殊的剪接和表達(dá)模式。此方法利用了三代納米孔測(cè)序的長(zhǎng)讀長(zhǎng)優(yōu)勢(shì),實(shí)現(xiàn)了對(duì)全長(zhǎng)circRNA序列的無偏重建(圖2)。

圖2. CIRI-long文章

二、CIRI-long的安裝

依賴軟件

  • gcc 4.8+clang 3.4+
  • cmake 3.2+
  • python>=3.7
  • samtools=1.9 或更高
  • minimap2

1. 從源代碼安裝

$ git clone https://github.com/bioinfo-biols/CIRI-long.git CIRI-long
$ cd CIRI-long

# Create virtual environment
$ python3 -m venv venv

# Activate virtualenv
$ source ./venv/bin/activate

# Install CIRI-long
$ make

# Test for installation
$ make test

2. 使用pip安裝

個(gè)人推薦使用,方便快捷。

$ pip install CIRI-long

三、CIRI-long的使用方法

軟件主頁(yè)https://github.com/bioinfo-biols/CIRI-long

1. 基本用法

CIRI-long兩個(gè)命令: CIRI-long callCIRI-long collapse,因此整個(gè)流程分為兩步。

usage: CIRI-long [-h] [-v] {call,collapse} ...

positional arguments:
  {call,collapse}  commands

optional arguments:
  -h, --help       show this help message and exit
  -v, --version    show program's version number and exit

2. 步驟1:circRNA 鑒定

  • 基本用法
#主命令
$ CIRI-long call [-h] [-i READS] [-o DIR] [-r REF] [-p PREFIX] [-a GTF] [--canonical] [-t INT] [--debug]

optional arguments:
  -h, --help            show this help message and exit  #幫助文檔
  -i READS, --in READS  Input reads.fq.gz  #輸入文件
  -o DIR, --out DIR     Output directory, default: ./  #輸出文件夾路徑
  -r REF, --ref REF     Reference genome FASTA file  #參考基因組ref.fa文件,需要用bwa進(jìn)行索引
  -p PREFIX, --prefix PREFIX
                        Output sample prefix, (default: CIRI-long)  #輸出文件前綴
  -a GTF, --anno GTF    Genome reference gtf, (optional) #基因組注釋文件(可選)
  -c CIRC, --circ CIRC  Additional circRNA annotation in bed/gtf format, 
                        (optional)  #以bed/gtf格式輸出circRNA注釋文件(可選)
  -t INT, --threads INT Number of threads, (default: use all cores)  #線程數(shù)
  --debug               Run in debugging mode, (default: False)  #糾錯(cuò)模式運(yùn)行

注意
參考基因組需要bwa的索引。在運(yùn)行CIRI-long之前,使用bwa index命令對(duì)參考基因組ref.fa文件進(jìn)行索引。

  • 使用示例
#下載演示數(shù)據(jù)
$ wget https://github.com/bioinfo-biols/CIRI-long/releases/download/v0.6-alpha/CIRI-long_test_data.tar.gz

#演示數(shù)據(jù)解壓
$ tar zxvf CIRI-long_test_data.tar.gz
$ cd test_data

#使用```bwa index```命令對(duì)參考基因組文件進(jìn)行索引
$ bwa index -a bwtsw mm10_chr12.fa mm10_chr12.fa

#運(yùn)行CIRI-long鑒定circRNA
$ CIRI-long call -i test_reads.fa \  #輸入文件
               -o ./test_call \ #輸出路徑
               -r mm10_chr12.fa \ #參考基因組
               -p test \ #輸出文件前綴
               -a mm10_chr12.gtf \ #基因組注釋文件
               -t 8 #使用線程數(shù)
  • 輸出文件
test_call
├── test.cand_circ.fa  # 主要文件,circRNA序列文件。
├── test.json
├── test.log
├── test.low_confidence.fa  # circRNA序列文件,低置信度。
└── tmp
    ├── ss.idx
    ├── test.ccs.fa
    └── test.raw.fa

# 如果不加 -c 選項(xiàng),則產(chǎn)生一個(gè)文件夾,7個(gè)文件
  • 使用非經(jīng)典剪切信號(hào)
    如果想使用其它剪切信號(hào),可以在腳本align.py修改SPLICE_SIGNAL,格式為:{(5’SS, 3’SS): Priority}

默認(rèn):

SPLICE_SIGNAL = {
    ('GT', 'AG'): 0,  # U2-type
    ('GC', 'AG'): 1,  # U2-type
    ('AT', 'AC'): 2,  # U12-type
    ('GT', 'AC'): 2,  # U12-type
    ('AT', 'AG'): 2,  # U12-type
}

3. 步驟2:isoform合并(collapose)

  • 基本用法

可以將多個(gè)樣本的circRNA結(jié)果合并。

#主命令
$ CIRI-long collapse [-h] [-i LIST] [-o DIR] [-p PREFIX] [-r REF] [-a GTF] [--canonical] [-t INT] [--debug]

optional arguments:
  -h, --help            show this help message and exit  #幫助文檔
  -i LIST, --in LIST    Input list of CIRI-long results  #樣本名稱和路徑的list文件
  -o DIR, --out DIR     Output directory, default: ./  #輸出文件夾路徑
  -p PREFIX, --prefix PREFIX
                        Output sample prefix, (default: CIRI-long)  #輸出文件前綴
  -r REF, --ref REF     Reference genome FASTA file   #參考基因組文件
  -a GTF, --anno GTF    Genome reference gtf, (optional)  #參考基因組注釋文件
  -c CIRC, --circ CIRC  Additional circRNA annotation in bed/gtf format,
                        (optional) #以bed/gtf格式輸出circRNA注釋文件(可選)
  -t INT, --threads INT
                        Number of threads, (default: use all cores)   #線程數(shù)
  --debug               Run in debugging mode, (default: False)  #糾錯(cuò)模式運(yùn)行

需要先創(chuàng)建一個(gè)想要合并樣本(*.cand_circ.fa)的名稱和路徑的list文本文件,以空格分隔。

#list 文件內(nèi)容
sample1_name /path/to/sample1/cand_circ.fa
sample2_name /path/to/sample2/cand_circ.fa
  • 使用示例

創(chuàng)建一個(gè)名為test.list文本文件:

test ./test_call/test.cand_circ.fa

運(yùn)行CIRI-long collapse合并一個(gè)或多個(gè)樣本結(jié)果。

 $ CIRI-long collapse -i ./test.lst \  #輸入文件
                    -o ./test_collpase \  #輸出文件夾路徑
                    -p test \  #文件前綴
                    -r ./mm10_chr12.fa \   #參考基因組
                    -a ./mm10_chr12.gtf \  #參考基因組注釋文件
                    -t 8   #線程
  • 輸出文件
test_collpase
├── test_collpase.expression
├── test_collpase.isoforms
├── test_collpase.info
├── test_collpase.log
├── test_collpase.reads
└── tmp
    ├── ss.idx
    └── test_collpase.corrected.pkl

# 如果不加 -c 選項(xiàng),則產(chǎn)生一個(gè)文件夾,6個(gè)文件
  • 輸出文件格式

1)主要輸出文件,GTF格式文件(test_collpase.info),包含所有circRNA的詳細(xì)信息和circRNA反向剪切區(qū)域的注釋列。

名稱 描述
1 chrom 染色體位置 chromosome/contig name ---- 染色體或contig名稱
2 source 來源 CIRI-long
3 type 類型 circRNA
4 start 起始 5' back-spliced junction site ---- 5'端反向剪切位點(diǎn)
5 end 結(jié)束 3' back-spliced junction site ---- 3'端反向剪切位點(diǎn)
6 score 得分 Number of total supported reads ---- 支持reads數(shù)
7 strand 鏈 strand information ---- 鏈信息
8 . .
9 attributes 特性 attributes seperated by semicolon ---- 分號(hào)分隔的屬性

屬性列包含了幾個(gè)預(yù)先定義的關(guān)鍵詞及其賦值:

key關(guān)鍵詞 description描述
circ_id circRNA的ID name of circRNA ---- circRNA名稱
splice_site 剪切位點(diǎn) splicing signal of candidate circRNAs and numbers indicating shifted bases of aligned and annotated splice site. (e.g. AG-GT | 0-5) 候選circRNA剪切信號(hào)和實(shí)際剪切位點(diǎn)和注釋的偏差堿基數(shù)
equivalent_seq 等同序列 equivalent sequence of splice site ---- 同一個(gè)剪切位點(diǎn)對(duì)應(yīng)的其它c(diǎn)ircRNA序列
circ_type circ類型 circRNA types: exon/intron/intergenic ---- circRNA類型:外顯子/內(nèi)含子/基因間區(qū)
circ_len circ長(zhǎng)度 length of the major isoform of circRNA ---- circRNA主要異構(gòu)體的長(zhǎng)度
isoform 異構(gòu)體 structure of isoforms, isoforms are seperated by "|" and circular exons are seperated by "," (e.g. 11627815-111627914,111628190-111628302|11627815-111628302) ---- circRNA異構(gòu)體的位置長(zhǎng)度信息
gene_id 基因ID ensemble id of host gene ---- 基因的ensemble ID
gene_name 基因名稱 HGNC symbol of host gene ---- 基因的名稱
gene_type 基因類型 type of host gene in the annotation gtf file ---- 基因的類型

2)表達(dá)矩陣

test_collpase.expression: 包含所有樣本中circRNA的表達(dá)水平,tsv文件格式。

test_collpase.isoforms:包含所有樣本中每個(gè)circRNA異構(gòu)體(isoform)使用指數(shù)(index),tsv文件格式。

isoform使用指數(shù)公式

Isoform usage index = Isoform_reads(某個(gè)異構(gòu)體-isoform的數(shù)量) / Sum of all isoforms from the same BSJ (共享同一個(gè)反向剪切位點(diǎn)的所有異構(gòu)體-isoform總和)

4. 步驟3:輸出文件可視化

從版本v1.1.0以后,CIRI-long包含misc/conver_bed.py 腳本,用戶可以使用此腳本將 circRNA.info(gtf格式)轉(zhuǎn)化為.bed格式,此.bed文件可以利用IGVJbrowse2軟件進(jìn)行可視化。具體轉(zhuǎn)化代碼如下:

$ python3 misc/convert_bed.py collapse_out/sample.info sample_circ.bed

四、參考文獻(xiàn)

  1. 專家點(diǎn)評(píng) | 基于納米孔測(cè)序的環(huán)形RNA識(shí)別和重建新技術(shù)
  2. Chen L-L. The Expanding Regulatory Mechanisms and Cellular Functions of Circular RNAs. Nature Reviews. Molecular Cell Biology, 2020.
  3. Zheng Y, Ji P, Chen S, et al. Reconstruction of Full-Length Circular RNAs Enables Isoform-Level Quantification. Genome Medicine, 2019, 11(1): 4. Xin R, Gao Y, Gao Y, et al. IsoCirc Catalogs Full-Length Circular RNA Isoforms in Human Transcriptomes. Nature Communications, 2021, 12(1): 266.
  4. Zhang, J., Hou, L., Zuo, Z., Ji, P., Zhang, X., Xue, Y., & Zhao, F. Comprehensive profiling of circular RNAs with nanopore sequencing and CIRI-long. Nature Biotechnology. (2021).
  5. CIRI-long 使用文檔: https://ciri-cookbook.readthedocs.io/en/latest
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容