今年P(guān)fam數(shù)據(jù)庫(kù)發(fā)文稱:過去幾年,Pfam數(shù)據(jù)庫(kù)發(fā)生了重大變化!
細(xì)看了一下,果真變化重大!
嚇得我趕緊過來(lái)把筆記更新了~~
* 32.0版的Pfam更新了些什么 ?(31.0版,2017年,才1年多)
1. 數(shù)據(jù)量增加:蛋白家族數(shù)量增加到17,929;
2. 蛋白家族宗族分類和功能注釋的優(yōu)化:將重新定義的蛋白家族與已有的家族進(jìn)行整合;
3. 與RepeatsDB協(xié)同優(yōu)化Pfam中的串聯(lián)重復(fù)蛋白結(jié)構(gòu)定義:RepeatsDB (?a database of tandem repeat protein structures)串聯(lián)重復(fù)是蛋白質(zhì)結(jié)構(gòu)分析中的一個(gè)難題,因?yàn)檫@些序列可能是高度退化的;
4. 造了825個(gè)新的家族:基于蛋白結(jié)構(gòu)域進(jìn)化分類(Evolutionary Classification of Protein Domains ,ECOD)的相似性比較分析;
5.?定義了Pfam中蛋白家族的序列本體論,(Sequence Ontology, SO):知道基因本體論(Gene?Ontology,GO)的肯定能推斷這是個(gè)啥意思。。不知道就自行百度咯~
6. 關(guān)聯(lián)了每一個(gè)Pfam數(shù)據(jù)貢獻(xiàn)者的ORCID ID:ORCID,是Open Research and Contributor ID的簡(jiǎn)稱,即開放學(xué)術(shù)出版物及學(xué)術(shù)產(chǎn)出的作者(即科研工作者)標(biāo)識(shí)符。ORCID?是一套不產(chǎn)生任何費(fèi)用的、在全世界范圍唯一的16?位身份識(shí)別碼,是科研工作者在學(xué)術(shù)領(lǐng)域的身份證。我咋沒有?我是黑戶~
Pfam的關(guān)注度這么大~引用量上萬(wàn)了~~

* Pfam是什么?
? ? Pfam(http://pfam.sanger.ac.uk/)是一個(gè)大型的蛋白家族數(shù)據(jù)庫(kù),最新版本的Pfam數(shù)據(jù)庫(kù)(31.0,2017年 )包含了16712個(gè)蛋白家族的注釋及基于隱馬爾科夫模型(Hidden Markov models,HMMs)的多序列比對(duì)信息。數(shù)據(jù)庫(kù)更新啦,32.0版本的Pfam包含了17929個(gè)蛋白家族的注釋及基于HMMsD的多序列比對(duì)信息。
* Pfam能干什么 ?
? ? Pfam提供蛋白質(zhì)家族和結(jié)構(gòu)域的完整準(zhǔn)確的分類,被廣泛用于查詢蛋白家族或蛋白結(jié)構(gòu)域的注釋,結(jié)構(gòu)及其多序列比對(duì)信息。在該數(shù)據(jù)庫(kù)中,每個(gè)蛋白家族由多個(gè)序列比對(duì)和HMMs(hidden Markovmodels,隱馬爾可夫模型)所體現(xiàn)。
Pfam包括兩個(gè)質(zhì)量級(jí)別的家族數(shù)據(jù)庫(kù):Pfam-A和Pfam-B。
? ?1. ?Pfam-A來(lái)自基礎(chǔ)序列數(shù)據(jù)庫(kù)Pfamseq,是根據(jù)最新的UniProtKB數(shù)據(jù)庫(kù)建立,質(zhì)量較高。
? ?2. ?Pfam-B做為Pfam-A的補(bǔ)充,是一個(gè)未注釋的低質(zhì)量數(shù)據(jù)庫(kù),一般是由ADDA數(shù)據(jù)中的非冗余cluster自動(dòng)生成的。雖然質(zhì)量較低,但對(duì)于鑒定Pfam-A無(wú)法覆蓋到的功能保守區(qū)域也是非常有用的。
* Pfam的結(jié)果怎么解讀?

序列搜索結(jié)果頁(yè)以提問的這位同學(xué)發(fā)給我的截圖為例:
該蛋白比對(duì)到的是Pfam-A 數(shù)據(jù)庫(kù),結(jié)果靠譜。
1)Family:蛋白家族名稱;
2)Description:蛋白家族描述;
3)Entry type:類型;
4)Clan:宗族(根據(jù)序列,結(jié)構(gòu),功能和HMM比較的相似度將多個(gè)蛋白家族整合為宗族),2005年首次將Clan引入Pfam;
5)Envelope (From To):比對(duì)到的蛋白序列(the region on the sequence over which the match lies);
6)Alignment(Start End):高置信度的比對(duì)蛋白序列(the region over which the alignment confidence is high);
7)HMM (From To):比對(duì)到結(jié)構(gòu)域區(qū)域;
8)HMM length:Pfam結(jié)構(gòu)域的長(zhǎng)度;9)Bit Score:比對(duì)打分;
10)E-value:比對(duì)的E值(pfam結(jié)構(gòu)域篩選閾值為: E-value < 0.001);11)Predicted active sites:預(yù)測(cè)的活性位點(diǎn)。
12)#HMM:?與查詢序列相同的殘基顯示為淺藍(lán)色,與查詢序列類似標(biāo)記為深藍(lán)色;
13)#PP:每個(gè)氨基酸殘基位點(diǎn)比對(duì)的后驗(yàn)概率(posterior probability),PP越高表示在HMM圖譜中該位點(diǎn)比對(duì)的置信度越高;
14)#SEQ:蛋白序列標(biāo)記原則同#HMM。ps:Envelope區(qū)域與HMM length不匹配的比對(duì)被認(rèn)為是局部比對(duì)。
參考文獻(xiàn)
1) The Pfam protein families database: towards a more sustainable future: R.D. Finn, P. Coggill, R.Y. Eberhardt, S.R. Eddy, J. Mistry, A.L. Mitchell, S.C. Potter, M. Punta, M. Qureshi, A. Sangrador-Vegas, G.A. Salazar, J. Tate, A. Bateman
2) Pfam-Wikipedia.https://en.wikipedia.org/wiki/Pfam
3)The Pfam protein families database in 2019:?S.?El-Gebali, J.?Mistry, A.?Bateman, S.R.?Eddy, A.?Luciani, S.C.?Potter, M.?Qureshi, L.J.?Richardson, G.A.?Salazar, A.?Smart, E.L.L.?Sonnhammer, L.?Hirsh, L.?Paladin, D.?Piovesan, S.C.E.?Tosatto, R.D.?Finn.
4)Nucleic Acids Research(2019) ?doi: 10.1093/nar/gky995