interpro-數(shù)據(jù)庫使用

InterPro 是一個生物信息學(xué)資源庫,它通過將蛋白質(zhì)序列劃分為家族、預(yù)測結(jié)構(gòu)域與重要功能位點,來提供蛋白質(zhì)序列的功能分析。為實現(xiàn)蛋白質(zhì)分類,InterPro 使用被稱為特征標(biāo)記(signatures)的預(yù)測模型;這些模型由多個不同數(shù)據(jù)庫(即成員數(shù)據(jù)庫)提供,它們共同組成了 InterPro 聯(lián)盟。

InterPro干了些啥?

通過整合來自不同成員數(shù)據(jù)庫中代表同一家族、結(jié)構(gòu)域或功能位點的特征標(biāo)記,減少信息冗余,簡化蛋白質(zhì)序列分析流程。

聯(lián)合各成員數(shù)據(jù)庫,充分發(fā)揮其各自優(yōu)勢,構(gòu)建出功能強(qiáng)大的分類工具。

提供統(tǒng)一、便捷的檢索入口,支持同時查詢所有成員數(shù)據(jù)庫。

為各類特征標(biāo)記補(bǔ)充豐富信息(包括描述性摘要與基因本體論(GO)術(shù)語),可用于對匹配到的蛋白質(zhì)進(jìn)行功能注釋。

收錄 UniProtKB 蛋白質(zhì)的實驗結(jié)構(gòu)與預(yù)測結(jié)構(gòu),支持在蛋白質(zhì)三維結(jié)構(gòu)背景下可視化展示注釋信息。(牛逼)

InterPro 條目會根據(jù)其所代表的生物學(xué)實體,歸入以下5 大類之一:

同源超家族、蛋白質(zhì)家族、結(jié)構(gòu)域、重復(fù)序列或功能位點(homologous superfamily, protein family, domain, repeat or site),具體標(biāo)識見圖1。

圖1

InterPro entries 通常與數(shù)據(jù)庫中的其他entries存在關(guān)聯(lián)關(guān)系。例如,某個entries可以代表一個較大家族下具有特定功能的亞家族,或是某一大類結(jié)構(gòu)域中的一個子類。這些關(guān)聯(lián)關(guān)系在 InterPro 中以層級結(jié)構(gòu)的形式存儲,并在entries頁面的關(guān)聯(lián)關(guān)系區(qū)域以樹形圖展示。

家族entries結(jié)構(gòu)域entries均可形成層級關(guān)系,但二者的層級結(jié)構(gòu)在數(shù)據(jù)庫中相互獨立、互不重疊(例如,某一結(jié)構(gòu)域的子類不能同時是某一蛋白質(zhì)家族的亞型)。不過,同源超家族與家族、結(jié)構(gòu)域entries之間的關(guān)聯(lián)關(guān)系屬于例外:這類關(guān)系通過Jaccard 指數(shù)與包含指數(shù)自動計算生成,并顯示在 “重疊的同源超家族” 區(qū)域中(見圖2)。

圖2

重疊的同源超家族

重疊條目(Overlapping entries)區(qū)域展示的是同源超家族與家族、結(jié)構(gòu)域類 InterPro 條目之間的關(guān)聯(lián)關(guān)系,該關(guān)系通過分析匹配序列集合的重疊程度進(jìn)行計算。

若滿足以下條件,一個 InterPro 條目(IPR,類型為家族、結(jié)構(gòu)域、重復(fù)序列或功能位點)會被判定與某一同源超家族相關(guān):

二者的序列匹配區(qū)域存在重疊(即匹配位置落在同源超家族的邊界范圍內(nèi));

匹配序列集合的Jaccard 指數(shù)(對等關(guān)系)包含指數(shù)(父子關(guān)系)大于 0.75。??

Jaccard index?(equivalent) or containment index (parent/child)

兩個數(shù)據(jù)集的并集與交集是什么?

并集(IPR1 ∪ IPR2):兩個數(shù)據(jù)集中出現(xiàn)的唯一蛋白質(zhì)總數(shù)

交集(IPR1 ∩ IPR2,等價于 IPR2 ∩ IPR1):兩個數(shù)據(jù)集共有蛋白質(zhì)中,結(jié)構(gòu)域發(fā)生重疊的數(shù)量。

如何判斷蛋白質(zhì)結(jié)構(gòu)域是否相交?

通過查看兩個目標(biāo)條目之間的共有蛋白質(zhì),判斷其結(jié)構(gòu)域是否相交的核心是驗證匹配區(qū)域是否重疊。

具體方法為:檢查其中一個條目的匹配區(qū)域中點,是否落在另一個條目匹配區(qū)域的邊界范圍之內(nèi)。

Jaccard = 交集蛋白數(shù) ÷ 并集蛋白數(shù) ,判斷對等關(guān)系

Containment index(包含指數(shù),判斷父子關(guān)系),這個是看一個條目是不是幾乎完全被另一個包含,比如:

IPR1 很大(超家族 / 大家族),IPR2 很?。▉喖易?/ 子結(jié)構(gòu)域),IPR2 的蛋白幾乎全都在 IPR1 里,containment ≥ 0.75,則判定:父子關(guān)系(parent/child)

如何在InterPro檢索

輸入氨基酸序列核苷酸序列、進(jìn)行文本檢索(如關(guān)鍵詞、短語,或 UniProt、InterPro 標(biāo)識符)、輸入結(jié)構(gòu)域架構(gòu),或瀏覽 InterPro 成員數(shù)據(jù)庫及 / 或條目類型。

InterPro 主頁的搜索區(qū)域,展示了文本搜索框(A)序列搜索(B)選項,在序列搜索中包含 【高級選項,Advanced options】:可在此修改序列類型(默認(rèn)為蛋白質(zhì) / 氨基酸序列),并將搜索范圍限定于感興趣的成員數(shù)據(jù)庫或序列特征。在頂部菜單中選擇瀏覽標(biāo)簽頁(C),可進(jìn)入瀏覽式搜索(例如搜索成員數(shù)據(jù)庫特征標(biāo)記、InterPro 條目類型)。你也可以搜索特定的結(jié)構(gòu)域架構(gòu)(D)。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容