歡迎關(guān)注”生信修煉手冊”!
lncRNA全稱為long non-coding RNA, 長鏈非編碼RNA, 指的是長度在200nt以上的非編碼RNA。 lncRNA在細(xì)胞周期調(diào)控, 細(xì)胞分化調(diào)控,疾病的發(fā)生與發(fā)展等多種生命活動中發(fā)揮著重要作用,是研究的熱點(diǎn)之一。
不像起步很早的miRNA, lncRNA在最近十幾年年才逐漸興起,目前的現(xiàn)狀是數(shù)據(jù)庫很多,不同數(shù)據(jù)庫對于lncRNA的命名方式不統(tǒng)一,這種混亂的命名模式,增加了研究的難度。
LNCipedia是一個綜合性的人類lncRNA數(shù)據(jù)庫,整合了多個數(shù)據(jù)庫中,多篇文章中的lncRNA記錄,并賦予了它們統(tǒng)一的ID, 網(wǎng)址如下
https://lncipedia.org/
該數(shù)據(jù)庫中的lncRNA信息來源于以下幾個數(shù)據(jù)庫
LncRNAdb
Broad Institute
Ensembl
Gencode
Refseq
NONCODE
-
FANTOM
同時也包含了Nielsen, Hangauer等多篇文獻(xiàn)中發(fā)現(xiàn)的lncRNA信息。
對于多種來源的lncRNA, 去冗余之后賦予一個統(tǒng)一的ID, 對于那些已經(jīng)擁有了gene symbol的lncRNA, 仍然采用gene ?symbol, 如果沒有的話,按照最近的蛋白編碼基因來命名,比如lnc-MYCN-1, 代表一個在MYCN基因附近的lncRNA, 如果多個lncRNA使用了同一個參照的蛋白編碼基因,則用數(shù)字后綴來區(qū)分不同的lncRNA基因。
對于lncRNA,根據(jù)以下原則進(jìn)行了分類:
對于那些與蛋白編碼基因所在鏈相同,而且存在overlap的lncRNA, 如果與所有的exon都沒有overlap, 就歸類為
intronic, 否則歸類為sense overlapping;對于那些與蛋白編碼基因的反向互補(bǔ)區(qū)間存在overlap的lncRNA, 歸類為antisense;
-
對于那些與任何蛋白編碼基因都沒有交集的lncRNA, 如果在轉(zhuǎn)錄起始位點(diǎn)上游1000bp范圍內(nèi)存在白編碼基因的轉(zhuǎn)錄起始位點(diǎn),則歸類為
bidirectional, ?否則歸類為intergenic;
同時還采用了不同軟件,對蛋白編碼潛能進(jìn)行了評估,軟件列表如下
CPC
HMMER
PRIDE
PhyloCSF
CPAT
-
Ribosome-profiling
我們可以直接從網(wǎng)站上下載lncRNA對應(yīng)的fasta,gtf, bed文件,提供了hg19和hg38兩種版本,示意如下
通過首頁的Search按鈕,可以進(jìn)行檢索,以LINC01725:47為例,結(jié)果如下
1. 基本信息
這部分結(jié)果包含了lncRNA基因ID, 轉(zhuǎn)錄本iD, 染色體位置,類別,長度等信息,示意如下
2. 序列信息
3. 蛋白編碼潛能
給出了不同軟件預(yù)測的蛋白編碼潛能的結(jié)果,示意如下
4. lncRNA保守性
通過lncRNA鄰近的蛋白編碼基因在不同物種間的保守性,來分析對應(yīng)的lncRNA的保守性,如果一個lncRNA的參照蛋白編碼基因在其他物種中有同源,則認(rèn)為對應(yīng)的lncRNA在其他物種中也應(yīng)該存在,結(jié)果示意如下
該網(wǎng)站還提供了API服務(wù), 通過基因id或者轉(zhuǎn)錄本id來獲取對應(yīng)的信息,示意如下
https://lncipedia.org/api/transcript/HOTAIR:1
https://lncipedia.org/api/gene/HOTAIR通過這種綜合性的數(shù)據(jù)庫,可以避免不同數(shù)據(jù)庫中命名方式不同帶來的不便。
·end·
—如果喜歡,快分享給你的朋友們吧—
掃描關(guān)注微信號,更多精彩內(nèi)容等著你!