InterPro 是一個生物信息學(xué)資源庫,它通過將蛋白質(zhì)序列劃分為家族、預(yù)測結(jié)構(gòu)域與重要功能位點,來提供蛋白質(zhì)序列的功能分析。為實現(xiàn)蛋白質(zhì)分類,InterPro 使用被稱為特征標(biāo)記(signatures)的預(yù)測模型;這些模型由多個不同數(shù)據(jù)庫(即成員數(shù)據(jù)庫)提供,它們共同組成了 InterPro 聯(lián)盟。
InterPro干了些啥?
通過整合來自不同成員數(shù)據(jù)庫中代表同一家族、結(jié)構(gòu)域或功能位點的特征標(biāo)記,減少信息冗余,簡化蛋白質(zhì)序列分析流程。
聯(lián)合各成員數(shù)據(jù)庫,充分發(fā)揮其各自優(yōu)勢,構(gòu)建出功能強(qiáng)大的分類工具。
提供統(tǒng)一、便捷的檢索入口,支持同時查詢所有成員數(shù)據(jù)庫。
為各類特征標(biāo)記補(bǔ)充豐富信息(包括描述性摘要與基因本體論(GO)術(shù)語),可用于對匹配到的蛋白質(zhì)進(jìn)行功能注釋。
收錄 UniProtKB 蛋白質(zhì)的實驗結(jié)構(gòu)與預(yù)測結(jié)構(gòu),支持在蛋白質(zhì)三維結(jié)構(gòu)背景下可視化展示注釋信息。(牛逼)
InterPro 條目會根據(jù)其所代表的生物學(xué)實體,歸入以下5 大類之一:
同源超家族、蛋白質(zhì)家族、結(jié)構(gòu)域、重復(fù)序列或功能位點(homologous superfamily, protein family, domain, repeat or site),具體標(biāo)識見圖1。

InterPro entries 通常與數(shù)據(jù)庫中的其他entries存在關(guān)聯(lián)關(guān)系。例如,某個entries可以代表一個較大家族下具有特定功能的亞家族,或是某一大類結(jié)構(gòu)域中的一個子類。這些關(guān)聯(lián)關(guān)系在 InterPro 中以層級結(jié)構(gòu)的形式存儲,并在entries頁面的關(guān)聯(lián)關(guān)系區(qū)域以樹形圖展示。
家族entries與結(jié)構(gòu)域entries均可形成層級關(guān)系,但二者的層級結(jié)構(gòu)在數(shù)據(jù)庫中相互獨立、互不重疊(例如,某一結(jié)構(gòu)域的子類不能同時是某一蛋白質(zhì)家族的亞型)。不過,同源超家族與家族、結(jié)構(gòu)域entries之間的關(guān)聯(lián)關(guān)系屬于例外:這類關(guān)系通過Jaccard 指數(shù)與包含指數(shù)自動計算生成,并顯示在 “重疊的同源超家族” 區(qū)域中(見圖2)。

重疊的同源超家族
重疊條目(Overlapping entries)區(qū)域展示的是同源超家族與家族、結(jié)構(gòu)域類 InterPro 條目之間的關(guān)聯(lián)關(guān)系,該關(guān)系通過分析匹配序列集合的重疊程度進(jìn)行計算。
若滿足以下條件,一個 InterPro 條目(IPR,類型為家族、結(jié)構(gòu)域、重復(fù)序列或功能位點)會被判定與某一同源超家族相關(guān):
二者的序列匹配區(qū)域存在重疊(即匹配位置落在同源超家族的邊界范圍內(nèi));
匹配序列集合的Jaccard 指數(shù)(對等關(guān)系)或包含指數(shù)(父子關(guān)系)大于 0.75。??
Jaccard index?(equivalent) or containment index (parent/child)
兩個數(shù)據(jù)集的并集與交集是什么?
并集(IPR1 ∪ IPR2):兩個數(shù)據(jù)集中出現(xiàn)的唯一蛋白質(zhì)總數(shù)。
交集(IPR1 ∩ IPR2,等價于 IPR2 ∩ IPR1):兩個數(shù)據(jù)集共有蛋白質(zhì)中,結(jié)構(gòu)域發(fā)生重疊的數(shù)量。
如何判斷蛋白質(zhì)結(jié)構(gòu)域是否相交?
通過查看兩個目標(biāo)條目之間的共有蛋白質(zhì),判斷其結(jié)構(gòu)域是否相交的核心是驗證匹配區(qū)域是否重疊。
具體方法為:檢查其中一個條目的匹配區(qū)域中點,是否落在另一個條目匹配區(qū)域的邊界范圍之內(nèi)。
Jaccard = 交集蛋白數(shù) ÷ 并集蛋白數(shù) ,判斷對等關(guān)系
Containment index(包含指數(shù),判斷父子關(guān)系),這個是看一個條目是不是幾乎完全被另一個包含,比如:
IPR1 很大(超家族 / 大家族),IPR2 很?。▉喖易?/ 子結(jié)構(gòu)域),IPR2 的蛋白幾乎全都在 IPR1 里,containment ≥ 0.75,則判定:父子關(guān)系(parent/child)
如何在InterPro檢索
輸入氨基酸序列或核苷酸序列、進(jìn)行文本檢索(如關(guān)鍵詞、短語,或 UniProt、InterPro 標(biāo)識符)、輸入結(jié)構(gòu)域架構(gòu),或瀏覽 InterPro 成員數(shù)據(jù)庫及 / 或條目類型。
InterPro 主頁的搜索區(qū)域,展示了文本搜索框(A)與序列搜索(B)選項,在序列搜索中包含 【高級選項,Advanced options】:可在此修改序列類型(默認(rèn)為蛋白質(zhì) / 氨基酸序列),并將搜索范圍限定于感興趣的成員數(shù)據(jù)庫或序列特征。在頂部菜單中選擇瀏覽標(biāo)簽頁(C),可進(jìn)入瀏覽式搜索(例如搜索成員數(shù)據(jù)庫特征標(biāo)記、InterPro 條目類型)。你也可以搜索特定的結(jié)構(gòu)域架構(gòu)(D)。
