[1]Szabo L, Salzman J. Detecting circular RNAs: bioinformatic and experimental challenges[J]. Nature Reviews Genetics, 2016, 17(11):679-692.
[2]Zeng X, Lin W, Guo M, et al. A comprehensive overview and evaluation of circular RNA detection tools[J]. Plos Computational Biology, 2017, 13(6):e1005420.
[3]Hansen T B. Improved circRNA Identification by Combining Prediction Algorithms.[J]. Frontiers in Cell & Developmental Biology, 2018, 6.
生信草堂
cirRNA
1. cirRNA概述
環(huán)狀RNA(circular RNA)是區(qū)別于線性RNA 的一類新型環(huán)狀非編碼RNA,目前在人、小鼠、線蟲等模式生物中已被大量發(fā)現(xiàn),長度約200-2000bp,主要長度分布在500bp左右,具有物種保守性和組織特異性。其獨特的環(huán)狀結構使其不容易被RNA 酶降解,因此在細胞內(nèi)穩(wěn)定性很強,在新型生物標記、生物學機制研究等方面具有巨大的潛力和研究價值。
circular RNA大多數(shù)來源于外顯子(即注釋的外顯子邊界上或者包含經(jīng)典的剪切信號的位置 (spliceosome)),少部分由內(nèi)含子直接環(huán)化形成。(Circular RNA (circRNA) is mainly generated by the splice donor of a downstream exon join- ing to an upstream splice acceptor, a phenomenon known as backsplicing[反向剪接反應].[2])大多數(shù)的環(huán)狀亞型 (isoforms) 只能產(chǎn)生1-2個可區(qū)分的circRNA,但是也有個例。大部分細胞中的circRNA豐度在2-4%左右,但有些細胞類型中也會有較高水平。雖然circRNA mini-gene包含核糖體嵌入位點 (IRES)啟動翻譯,但是非編碼是circRNA普遍的規(guī)律。
目前研究最多的就是由外顯子形成的環(huán)狀RNA ,這些環(huán)狀RNA 位于細胞質(zhì)中,含有大量miRNA 結合位點,可起到miRNA 海綿作用(miRNA sponge),結合并封閉miRNA 的調(diào)控作用,從而使其靶基因表達增強。
-
環(huán)狀RNA的生成機制(Salzman et al. 2012. PloS ONE)
環(huán)狀RNA的生成機制.jpeg
形成有四種模式,a:套索驅動的環(huán)化 ;b:內(nèi)含子堿基配對驅動環(huán)化;c:單個內(nèi)含子成環(huán) ;d:RNA結合蛋白驅動環(huán)化。
經(jīng)典的線性RNA剪切方式:
通過內(nèi)含子中的GU/AG序列,將前后外顯子首尾相連。
環(huán)狀RNA的剪切方式:
反向剪切,后面外顯子的尾端與前面外顯子的前端相連。
-
環(huán)狀RNA的穩(wěn)定性
環(huán)狀RNA的穩(wěn)定性.png
由于環(huán)狀RNA 的結構是保守的閉合環(huán)狀所以可以抵抗核酸外切酶的降解作用,在細胞內(nèi)比較穩(wěn)定,half time > 48h。但在血清中非常不穩(wěn)定,half time 大概是15s。
-
環(huán)狀RNA的功能(Hentze et al. 2013. The EMBO Journal)
A、ceRNA(內(nèi)源競爭性RNA)調(diào)控方式
B、與蛋白質(zhì)一起影響mRNA表達
C、少數(shù)circRNA含有ORFs編碼蛋白[3]
環(huán)狀RNA的功能.jpeg
2. NGS技術發(fā)現(xiàn)環(huán)狀RNA原理

通過spliced reads的mapping能發(fā)現(xiàn)線性RNA和環(huán)狀RNA的剪切方式不同。一個是正常的5’/3’前后剪切,一個是反向的5’/3’反向剪切(Memczak et al.2013.Nature)。
- 建庫策略比較
| 建庫方式比較 | 普通的lncRNA 建庫 | 環(huán)狀RNA 的特有的建庫 |
|---|---|---|
| 建庫特點 | 去除樣本中的核糖體RNA,然后對線性RNA 和環(huán)狀RNA 進行測序 | 去除樣本中的核糖體RNA之后進一步消化樣本中的線性RNA |
| 優(yōu)點 | 不僅可以檢測樣本中的環(huán)狀RNA,還可以一次性檢測樣本中的其它線性RNA,如mRNA、lncRNA ①便于比較環(huán)狀RNA 和其他類型RNA 的相對豐度;②進行共表達分析,分析環(huán)狀RNA 和其他功能已知的RNA(尤其為mRNA)的相互作用關系,從而推測環(huán)狀RNA 的功能。 | 排除了線性RNA 的干擾,提高數(shù)據(jù)可靠性和利用率。 |
| 局限性 | 環(huán)狀RNA 有效數(shù)據(jù)量低,不易檢測到低豐度的環(huán)狀RNA,因為樣本中大部分都是線性RNA;同一基因轉錄出的線性RNA 會干擾環(huán)狀RNA 的檢測,從而提高了環(huán)狀RNA 檢測的假陽性。 | 建庫價格比常規(guī)文庫高;缺失了樣本中的線性RNA信息。 |
環(huán)狀RNA 測序數(shù)據(jù)量
如果使用環(huán)狀RNA 建庫的策略,建議測序量不低于6G/樣本(植物);
如果采用普通lncRNA 文庫,建議植物的測序量不低于12G/樣本,動物則推薦16G/樣本以上的測序量。建庫策略的選擇
如果是環(huán)狀RNA 未報導的物種,建議優(yōu)先采用環(huán)狀RNA 建庫的策略,以便對環(huán)狀RNA有更好的檢測效率,發(fā)現(xiàn)盡可能多的環(huán)狀RNA。
如果是環(huán)狀RNA 已報導,且認為目標環(huán)狀RNA 有較高的豐度,同時又特別關心環(huán)狀RNA 與其他線性RNA 的相互作用關系,則可以考慮使用普通lncRNA 文庫的策略。
3. 面臨的問題和挑戰(zhàn)
- 識別剪切過程中的挑戰(zhàn)
精確的剪切位置比對識別。
使用注釋可以提高識別的精確度。
一些circRNA包含A-rich序列,因此對poly(A)+ RNA文庫測序結果需要通過算法過濾低表達的mRNA 轉錄本。
- 實驗設計中的挑戰(zhàn)
circRNA沒有poly(A)尾巴,可以通過此特征進行純化。
由于RNA測序片段大小的選擇,只有在接頭擴增前,RNA沒有被打斷的情況下,可能會影響circRNA的識別。
反轉錄模板可能會導致technical artefacts,產(chǎn)生假陽性。
長同源序列會促進模板轉換 (template switching), 對于基因產(chǎn)生多個共享同構外顯子 (constitutive exons) 的亞型來說是一個很嚴重的問題。
- 生信分析中的挑戰(zhàn)
單向測序可能導致反向剪切位置的來源的誤判。
外顯子附近的簡并序列產(chǎn)生同源性和測序錯誤可能導致假陽性。
對于線性剪切的探測可以增加識別靈敏度,但是實際上導致了高假陽性率。
- 降低假陽性的方法:雙端測序、更高的讀取范圍可提高識別敏感度,更多樣本重復、RNase消化線性RNA以及統(tǒng)計方法將降低假陽性。
4. cirRNA識別算法的比較
A comprehensive overview and evaluation of circular RNA detection tools
4 different datasets
(1) positive dataset: a dataset of simulated reads, encompassing a total of 14,689 circRNAs detected in HeLa cells from CircBase
(2) background dataset: a large negative dataset comprised of reads generated from mRNA sequences deposited in the NCBI Reference Sequence (RefSeq) database
(3) mixed dataset, generated by combining the positive and background datasets together
(4) real datasets. These real datasets were established by downloading 6 runs of rRNA-depleted RNA- Seq data from NCBI Sequence Read Archive (SRA), including 4 runs of RNA-Seq data from the HeLa cell line and 2 runs from an immortalized human fibroblast cell line (Hs68), of which, 2 runs of RNA-Seq data from the HeLa cell line and 1 run from Hs68 were further treated with RNase R enzyme during sample preparation.
(1)陽性數(shù)據(jù)集:circBase數(shù)據(jù)庫中的Hela細胞來源的14689種circRNA。
(2)背景數(shù)據(jù)集:NCBI中RefSeq數(shù)據(jù)庫來源的mRNA reads。
(3)混合數(shù)據(jù)集:陽性數(shù)據(jù)集和背景數(shù)據(jù)集混合構成的數(shù)據(jù)集
(4)真實的數(shù)據(jù)集:真實獨立的測序數(shù)據(jù),包括4個來自Hela細胞和2個來自人永生化纖維細胞系Hs68的去除核糖體測序數(shù)據(jù)。其中的2個來自Hela細胞和1個來自人永生化纖維細胞系Hs68用RNase R處理。
陽性數(shù)據(jù)集
精確度 & 靈敏度

F1 = (2 * precision * sensitivity)/(precision + sensitivity)
AUC(Area under Precision-Recall Curve) 精密召回曲線面積
- regarding the F1 measure, KNIFE, CIRI, PTESFinder, Segemehl, and CIRCexplorer were the top 5 performers on this dataset, with an F1 score above 0.85.
- Also, KNIFE, Segemehl, CIRI, PTESFinder and CIR- Cexplorer achieved the best sensitivity.
- Consistent with the F1 measure, the same 5 methods still performed best in terms of AUC
KNIFE、CIRI、PTESFinder(PF)、Segemehl(SG)和CIRCexplorer(CE)F1 Score打分最好,AUC值最高。
陰性數(shù)據(jù)集
假陽性率

- NCLScan, MapSplice, CIRCexplorer, DCC, and PTESFinder tended to have a low false-positive rate, whereas Segemehl, find_circ and UROBORUS yielded the worst performance
NCLScan(NCLS)、MapSplice(MS)、CIRCexplorer(CE)、DCC和PTESFinder(PF)是最好的,假陽性率最低。Segemehl(SG)、 find_circ (FC)和UROBORUS(UB)的假陽性率最高。
模擬數(shù)據(jù)集(混合數(shù)據(jù)集)
Table 1 shows that NCLScan maintains the highest precision, while KNIFE, CIRI, PTESFinder, CIRCexplorer, and Segemehl exhibit the best with regard to F1 measure
Fig2 shows that Segemehl, find_circ, and UROBORUS Segemehl, find_circ, and UROBORUS were vulnerable to background noise. Meanwhile, KNIFE, CIRI, and circRNA_finder suffered minor loss of precision (?3.39%, ?1.21%, and ?0.56%, respectively), On the other hand, small decreases of sensitivity (?4.46%, ?2.90%, and ?0.87%) were only observed for UROBORUS, Segemehl, and KNIFE.
NCLScan, CIRCexplorer, DCC, Mapsplice, and PTESFinder were robust to background noise.

Fig1(b) In general, NCLScan and CIRCexplorer dominated other tools regarding the precision measure, while KNIFE, CIRI, Segemehl, PTES- Finder, and CIRCexplorer continued to be more sensitive than the rest of the tools.
The highest AUC achieved on this dataset was KNIFE (0.87), followed by CIRI (0.85), PTESFinder (0.83), Segemehl (0.80), and CIRCexplorer (0.78)
NCLScan(NCLS)預測的準確性最好。而SG、FC和UB的準確性都有大幅度的下降,說明這些工具都不同程度的受到了陰性數(shù)據(jù)的干擾。而KNIFE、CIRI和CF也受到了小幅的影響。值得注意的是NCLScan、CE、DCC、MS和PF似乎不受非circRNA的干擾因素影響。總體而言,NCLScan和CIRCexplorer的精確性最好,KNIFE、CIRI、Segemehl、PTESFinder和CIRCexplorer比其他剩余的工具的靈敏性更佳。AUC值靠前的幾個工具包括:KNIFE (0.87),CIRI (0.85),PTESFinder (0.83),Segemehl(0.80),CIRCexplorer (0.78)。



真實數(shù)據(jù)集

默認RNase R消化后將線性RNA完全去除而保留所有的circRNA(實際情況有可能線性RNA會有個別的沒有被消化,而某些circRNA則可能會被消化)
RNase R處理前后結果差異分析
比較RNase R處理前后分析得到的circRNA的情況,計算每個工具獲得的陽性結果在RNase R處理前后信息丟失的比例。
(Table3)從比較RNase R處理前后circRNA差異的情況,RNase R處理后的確實現(xiàn)了circRNA的富集,大部分的工具所分析的RNase R處理后的陽性結果率均有大幅增加,但PTESFinder、 Segemehl和UROBORUS的情況則不太理想。MapSplice工具分析得到的RNase R處理前后未被丟失的比例最高,CIRI和CIRCexplorer的情況也不錯??傮w而言,除了find_circ、 UROBORUS和Segemehl,其他大部分工具情況比較接近,在Hela樣本中這一比例在65 ~75%之間,在Hs68樣本中這一比例在72 ~80%。不同工具之間數(shù)據(jù)可重現(xiàn)性比較,計算特定方法所獲得的circRNA記錄與其它方法獲得的circRNA記錄重疊性比例。
通過比較特定工具的結果與所有工具均可檢測出的結果中的占比情況,計算兩個工具共同檢測到的circRNA記錄在特定方法獲得的circRNA記錄中的占比,比例越高則認為該方法的精確性越好,此外,如果一個工具所得到的特定reads出現(xiàn)在其它方法中的比例越高,則說明該工具的靈敏性越好(假陽性率相對較低)。這樣的兩兩分析,給出了每個方法相對于其它所有方法的精確性程度的分布熱圖。結果表明,NCLScan的精確性最好,而CIRI 和 Segemehl的靈敏度最高。UROBORUS的表現(xiàn)則與樣本有關。
P(i,j) = C(i,j)/Ni
P(j,i) = C(i,j)/Nj



Reads水平精確性比較,比較特定circRNA對應的Reads數(shù)。
在RNase R消化后的數(shù)據(jù)集中,比較不同工具在特定circRNA上分析得到的Reads數(shù),越高說明精確性越好。從Reads水平的精確性結果來看,這些工具可分為四個類型:MapSplice、CIRI和PTESFinder的精確性最好。緊接著是KNIFE、 find_circ和Segemehl。CIRCexplorer、circRNA_finder和DCC(三種工具均基于STAR比對算法),還有NCLscan的情況一般。UROBORUS的情況最差。-
對指定的已獲得驗證的circRNA分析準確性分析,基于17例測序結果人為構建一個包含282種circRNA的數(shù)據(jù)集,比較各種方法所得到的circRNA數(shù)目。
Fig 5. Number of experimentally verified circRNAs detected by each method
從17個獨立研究的文獻中找出282種circRNA,看每一個工具從數(shù)據(jù)集中將這些circRNA分析出來的情況。這282種circRNA均已得到實驗驗證,屬于客觀真實的circRNA,但不一定都會在Hela或Hs68的樣本中存在。從分析的結果來看,CIRI檢測出來的種類最多。
-
計算經(jīng)濟性比較
cost overview
通過比較各個工具完成分析的時間,對硬盤空間和存儲空間的需求。運行時間方面,作者通過運行一個較大數(shù)據(jù)量的任務,均分配三個線程,結果表明CIRCexplorer、circRNA_finder、DCC、CIRI和find_circ可以在一天之內(nèi)完成,而MapSplice工具運行時間則高達13天至一個月不等。
在存儲性能要求方面,僅有UROBORUS和find_circ工具能在PC機的性能參數(shù)范圍(8G RAM)完成任務。NCLScan要求大約10 GB。CIRCexplorer、circRNA_finder和DCC需要大約27 GB來運行STAR比對。Segemehl則要求高達50 GB。
對于物理存儲空間的需求,MapSplice、PTESFinder、KNIFE、Segemehl、CIRI和NCLScan對存儲空間的要求都不高。
討論
每種計算工具均有各自的優(yōu)缺點,沒有一個工具各項對比中完全占據(jù)優(yōu)勢的。綜合而言,CIRI、 CIRCexplorer和KNIFE工具在各個性能指標中相對比較平衡,是最值得選擇的工具。但具體到分析任務中最好還是根據(jù)所需分析的特點進行工具選擇。

Improved circRNA Identification by Combining Prediction Algorithms
- RNase R處理前后結果差異分析靈敏性和特異性
- de novo circRNA 預測
-
兩兩算法結合評價,可以兩兩獲益
之前作者分析了5種鑒定軟件,此次擴展到11種。
image.png
數(shù)據(jù)
RNA sequencing (RNAseq) samples (see Supplementary Figure 1A) were downloaded from the Sequence Reads Archive (SRA)
The gold-standard biochemical delineation of circRNA and linear RNA is by RNaseR treatment, which on a global scale enriches circRNA significantly
1)長鏈circRNA易被消化
2)特定的線性RNA,如高GC含量的RNA不易被消化
不知道陽性、假陽性信息
Gene-annotations were collected from UCSC genome browser (UCSC Genes track), iGenomes (hg19.ref.gtf ), and Ensembl (Homo_sapiens.GRCh37.66.gtf )
RNase R Resistance
- Fig1A 顯示RNase R的對不同軟件預測circRNA的影響,經(jīng)酶處理后circRNA缺失11%-47%,
- Fig1B 測試各軟件的靈敏度。所有軟件共同鑒定的circRNA共256個,各軟件鑒定出的每個公共circRNA的平均reads數(shù)定義為其靈敏度。DCC, circRNA_finder, and Uroborus (11,9,5)靈敏度最差。
- Fig1C 測試特異性。CIRI對RNaseR 消化的那部分的circRNA特異性最高,達到63%,表明其鑒定的假陽性最高。同時Fig1D顯示CIRI對這部分的circRNA的表達量鑒定最高。這部分假陽性結果表達量最高的14種來自14個不同位點。其中8個來自CIRI。
- Fig 1D還表明真實的circRNA表達量比假陽的表達量要高





Raw vs. Trimmed Reads

- Fig2A 對raw和trim處理的reads進行分析,結果相似,預測的結果增加0%-27%,但假陽性也增加了13%-67%。
- Fig2B trim后提高了鑒定circRNA的reads數(shù),特別是KNIFE,但是circRNA_finder and Uroborus的結果質(zhì)量反而降低了。
因此數(shù)據(jù)質(zhì)量和接頭序列的長度對鑒定circRNA都有一定影響。
De Novo Prediction

- Fig3A 顯示5% of total circRNA output為de novo circRNAs,假陽性占了很大的比例
- Fig 3B ACSF, CIRCexplorer2 and KNIFE可以對de novo circRNAs注釋,但效果不好。KNIFE這個軟件對沒有注釋的部分表現(xiàn)最不好,他對de novo的注釋也就不可信了。
這里,CIRI2的預測結果最為可信(serves as the most trustworthy predictor) - Fig 3C CDR1as/ciRS-7 (Hansen et al., 2011, 2013; Memczak et al., 2013; Piwecka et al., 2017)是一種沒有注釋的低表達的circRNA,這里CIRCexplorer2外其他的軟件都能檢測到
Improving Find_Circ
提高mapping閾值可以提高find_circ的預測準確性。
if find_circ is the algorithm of choice for circRNA prediction, it is highly recommendable to increase the mapping quality threshold
假陽性
ciRS-7/CDR1as是一種經(jīng)典的circRNA,但可被RNaseR消化,表明至少在Hs68細胞中不是可靠的circRNA;ciRS-7被miR-671線性化從而被RNaseR消化;被RNaseR處理的樣本中有很多假陰性,長的circRNA也能被消化。
Combining Prediction Algorithms
- Fig4A 通常情況下,兩兩軟件結合可以降低10%至15%以上的被RNaseR消化的候選circRNA。
- Fig4B 顯示兩兩軟件分析的結果丟掉的是低豐度的候選circRNA。當使用5+或者10+的軟件篩選出的circRNA有非常明顯的高豐度和RNaseR抗性,篩掉的通常是假陽性和低表達的circRNA。
- 選擇兩兩軟件分析時建議算法不相關。Fig4A顯示circRNA_finder和DCC(STAR)的結合效果不理想。
iTP:index of true positives, reflecting the fraction of preserved circRNAs with RNaseR resistance after conjoining with any other algorithm
iTN:discarded true negatives 1-iTP
Complementary score = (iTPxiTN)∧2
- Fig 4C 顯示CIRI, find_circ, and Uroborus互補性最高




Reproducibility
- 數(shù)據(jù) subset of samples from Mercer et al. (2015)
同上述結論一致,MapSplice 表現(xiàn)的最好,MapSplice or CIRI2與其他軟件的互補性最好。
因此,推薦用兩個或以上軟件預測circRNA






