這一推送將簡(jiǎn)單介紹:
1.?尋找蛋白質(zhì)結(jié)構(gòu)域
2.?簡(jiǎn)單預(yù)測(cè)序列的理化性質(zhì)
4. 預(yù)測(cè)蛋白酶降解位點(diǎn)
5.?預(yù)測(cè)卷曲螺旋區(qū)域(coiled-coil domains)
6. 預(yù)測(cè)翻譯后修飾
再介紹之前說過的網(wǎng)站,這一章會(huì)用到很多次:
ExPASy
https://www.expasy.org/
一、預(yù)測(cè)蛋白質(zhì)的理化性質(zhì)和酶解位點(diǎn)
1. 理化性質(zhì)
利用ExPASy網(wǎng)站中的ProtParam工具(tools欄下面),可以簡(jiǎn)單的分析一個(gè)氨基酸序列的理化性質(zhì)。
打開ProtParam后,可以輸入要查的已上傳序列的序列號(hào)或者直接粘貼氨基酸序列(如果你的序列是FASTA格式,不要粘貼首行的“>等”信息)。
上圖就是結(jié)果顯示頁面,我用黃色熒光筆標(biāo)的N,C-terminal是指,如果你只想顯示這段序列的某一部分的結(jié)果,可以在框里限定范圍。
結(jié)果顯示這里點(diǎn)進(jìn)去(黃色標(biāo)記部分),可以展示對(duì)應(yīng)的更多的信息。比如:
氨基酸數(shù)
分子量(僅根據(jù)序列殘基計(jì)算得到的,計(jì)算結(jié)果不包含糖基化、磷酸化等翻譯后修飾;成熟蛋白質(zhì)前導(dǎo)肽的刪除;多聚體形成等)
等電點(diǎn)
原子組成
原子數(shù)
消光系數(shù)(是指蛋白質(zhì)對(duì)特定波長(zhǎng)的光的吸收量,后期用分光光度計(jì)測(cè)定得到純化蛋白濃度等可能會(huì)用到,網(wǎng)頁顯示的是理論消光系數(shù),真實(shí)值還會(huì)受其他因素影響。不過一般情況下,兩值相差不大。)
不穩(wěn)定性系數(shù)(一般這個(gè)指數(shù)小于40,則說明穩(wěn)定;大于40不穩(wěn)定)
脂溶指數(shù)(Instability index)
總平均親水性(Grand average of hydropathicity (GRAVY),定義為序列中所有氨基酸親水值的總和與氨基酸數(shù)量的比值,負(fù)值越大表示親水性越好好,正值越大表示疏水性越強(qiáng))。
2.?酶解位點(diǎn)
依舊是ExPASy-proteomic-tool里面的工具—— PeptideCutter 。
二、預(yù)測(cè)蛋白質(zhì)初級(jí)結(jié)構(gòu)(一級(jí)結(jié)構(gòu)-primary structure)
注意這里分析預(yù)測(cè)的是初級(jí)結(jié)構(gòu),即對(duì)蛋白質(zhì)氨基酸序列的分析,而非二級(jí)結(jié)構(gòu)、高級(jí)結(jié)構(gòu)等。分析序列初級(jí)結(jié)構(gòu)是為了找到蛋白質(zhì)中特殊組成的片段,這些片段可以揭示蛋白質(zhì)的一些有趣的性質(zhì),比如氨基酸序列的疏水區(qū)域(蛋白跨膜區(qū)域,可將自身錨定在膜中);卷曲螺旋區(qū)域(許多含有卷曲螺旋結(jié)構(gòu)的蛋白質(zhì)具有重要的生物學(xué)功能,暗示存在蛋白質(zhì)-蛋白質(zhì)互作)。
1. 尋找跨膜片段
預(yù)測(cè)蛋白序列中的跨膜片段可以告訴我們很多信息,比如在N端有一個(gè)跨膜片段的可能是分泌蛋白;如果一個(gè)蛋白序列包含很多跨膜區(qū)域,它可能是一個(gè)通道蛋白。下面介紹兩種方法:
(1)Protscale
原理是滑動(dòng)窗口(sliding-window)判斷蛋白質(zhì)序列的疏水性,返回的結(jié)果也是疏水性曲線(親水用負(fù)值表示,疏水用正值表示),需要我們自己進(jìn)行分析。
https://web.expasy.org/cgi-bin/protscale/protscale.pl
首先打開網(wǎng)頁,以序列號(hào)為P78588的蛋白質(zhì)為例(目前的研究已知它有7個(gè)跨膜片段)。
選擇這個(gè)Hphob. / Kyte & Doolittle或者Eisenberg et al.,比較適合查找序列中的跨膜片段。
選擇window size是19,適合尋找跨膜結(jié)構(gòu)域(這個(gè)大小根據(jù)你要查找的結(jié)構(gòu)域的一般大小進(jìn)行設(shè)定,比如跨膜結(jié)構(gòu)域一般為21aa,所以這里我們?cè)O(shè)置的值為19)。然后點(diǎn)擊submit就可以啦。
結(jié)果顯示如下,點(diǎn)擊進(jìn)去看,可以看到詳細(xì)的結(jié)果和繪制的圖片。
Hphob. / Kyte & Doolittle
(一般以1.6 score為準(zhǔn)線)
Hphob. / Eisenberg et al.
(一般以0.4 score 為準(zhǔn)線)
輸出結(jié)果是疏水性曲線,我們只根據(jù)強(qiáng)信號(hào)判斷跨膜片段所在的位置,兩個(gè)不同的表,計(jì)算出來的曲線的強(qiáng)信號(hào)位置差別不大,其中有六個(gè)預(yù)測(cè)的片段位置可以比較確定,1個(gè)不能準(zhǔn)確預(yù)測(cè)。
(2)TMHMM
基于 HMM 方法的蛋白質(zhì)跨膜區(qū)預(yù)測(cè)工具,不是在ExPASy網(wǎng)站中,而是CBS的網(wǎng)站。CBS同樣有著很多好用的序列分析的工具:
https://services.healthtech.dtu.dk/
這里面找到TMHMM:
https://services.healthtech.dtu.dk/service.php?TMHMM-2.0
我們粘貼蛋白質(zhì)P78588的FASTA格式,提交。
可以看出來,使用滑動(dòng)窗口原理的Protscale與使用隱馬爾科夫模型的TMHMM得到的結(jié)果可以大致對(duì)應(yīng)的上。而且TMHMM除了可以預(yù)測(cè)跨膜片段外,還可以預(yù)測(cè)某段蛋白是在胞內(nèi)還是胞外(有的預(yù)測(cè)也不是很精確,比如234-255aa就沒有描述胞內(nèi)外)。
如果是要獲得精準(zhǔn)的蛋白跨膜片段的預(yù)測(cè),建議使用原理不同的方法進(jìn)行預(yù)測(cè)和總結(jié)。
2. 尋找卷曲螺旋區(qū)域
卷曲螺旋區(qū)域常參與蛋白質(zhì)的互作??梢岳肊xPASy-COILS工具進(jìn)行查找。
https://embnet.vital-it.ch/software/COILS_form.html
三、預(yù)測(cè)蛋白質(zhì)翻譯后修飾
蛋白質(zhì)在發(fā)揮生物學(xué)功能之前一般需要經(jīng)過修飾,叫做post-translational modifications(PTM)。修飾包括加官能團(tuán)、改變氨基酸化學(xué)性質(zhì)或者改變結(jié)構(gòu),PTM是細(xì)胞信號(hào)傳導(dǎo)中的重要組成部分。
加入官能團(tuán)
乙?;⑼榛?、生物素化、谷氨酸化、甘氨酸化、糖化、異戊二烯化、硫辛酸化、磷酸泛酰巰基乙氨基化、磷酸化、硫酸化、硒化、C末端酰胺化
加入其他蛋白質(zhì)或肽
干擾素激活基因化、小泛素相關(guān)修飾化、泛素化
改變氨基酸的化學(xué)性質(zhì)
瓜氨化、脫氨化
結(jié)構(gòu)改變
雙硫鍵、分解蛋白質(zhì)
尋找PROSITE patterns
使用ExPASy網(wǎng)站的PROSITE工具。值得注意的是,有時(shí)候?qū)?yīng)的是短序列(小于20aa的對(duì)應(yīng)),其功能不一定就是那個(gè),查找結(jié)果僅是一個(gè)預(yù)測(cè)。對(duì)應(yīng)的越長(zhǎng),功能也一致的可能性越高。
下面就打開網(wǎng)頁開始吧:
https://prosite.expasy.org/scanprosite/
可以看到有三個(gè)選擇對(duì)應(yīng)不同的目的,我們以P12259為例。
這個(gè)工具的使用手冊(cè)在這里:
https://prosite.expasy.org/scanprosite/scanprosite_doc.html
讀一讀,方便看懂檢索設(shè)置和結(jié)果頁面。結(jié)果中展示的都可以點(diǎn)進(jìn)去,展開詳細(xì)信息。
剛剛看到ExPASy首頁說10月15要更新網(wǎng)站,界面改版。我想,操作上不會(huì)差太多的,只會(huì)更加便捷和簡(jiǎn)約。
四、尋找蛋白質(zhì)中的已知結(jié)構(gòu)域(domian)
結(jié)構(gòu)域是蛋白質(zhì)的結(jié)構(gòu)單元,是構(gòu)成三級(jí)結(jié)構(gòu)的獨(dú)立單元。一般蛋白質(zhì)由2-3個(gè)結(jié)構(gòu)域組成,通常結(jié)構(gòu)域有特定功能:可能與其他蛋白質(zhì)互作、結(jié)合離子、具有活性位點(diǎn)等。
網(wǎng)上有很多查找結(jié)構(gòu)域的工具,各有優(yōu)缺點(diǎn),最好都試一試,然后綜合一下結(jié)果。
1. 使用InterProScan
http://www.ebi.ac.uk/interpro/search/sequence/
我們以這個(gè)蛋白質(zhì)為例(P53539),有一些高級(jí)選項(xiàng),默認(rèn)檢索數(shù)據(jù)庫是全部勾選的,分析時(shí)間會(huì)有點(diǎn)長(zhǎng)。
結(jié)果顯示如下,可以看見在各個(gè)數(shù)據(jù)庫中的結(jié)果都顯示序列中間有亮氨酸拉鏈(Leucine zippers),所以這個(gè)結(jié)果比較可靠。所以分析序列的時(shí)候,最好選擇很多檢索數(shù)據(jù)庫,且確定前最好再比較一下序列。
2. 使用CD server(Conserved Domain)
https://www.ncbi.nlm.nih.gov/Structure/cdd/wrpsb.cgi
CD的一個(gè)有點(diǎn)就是展示出的結(jié)果有打分和序列比對(duì)的展示,可以幫助我們判斷結(jié)果可靠性,但是CD數(shù)據(jù)庫中的數(shù)據(jù)不如上一個(gè)全。分析設(shè)定上默認(rèn)Evalue是0.01,如果檢索結(jié)果很少,可以改為1放寬要求。Apply low-complexity filter一般也不勾選,否則可能過濾掉很多信息。
3. 使用Motif Scan
https://myhits.sib.swiss/cgi-bin/motif_scan
這個(gè)里面包含數(shù)據(jù)更多,下面我們來看一看。
Match Map顯示了結(jié)構(gòu)域再序列中的對(duì)應(yīng)位置。下面有詳細(xì)的得分,Evalue和圖等信息。
其詳細(xì)結(jié)果顯示不按照得分高低排列,比較確定的結(jié)構(gòu)域有個(gè)感嘆號(hào),不確定的是問號(hào)。點(diǎn)擊match detail有不同顏色bar的解釋。
六、其他網(wǎng)站推薦
CBS
http://www.cbs.dtu.dk/services/
Hits
https://myhits.sib.swiss/
InterPro
https://www.ebi.ac.uk/interpro/
往期相關(guān)內(nèi)容:
【陪你學(xué)·生信】二、一些你肯定會(huì)用到的生信工具和基本操作
【陪你學(xué)·生信】三、核苷酸序列數(shù)據(jù)庫的使用
【陪你學(xué)·生信】四、蛋白質(zhì)相關(guān)的數(shù)據(jù)庫
【陪你學(xué)·生信】五、當(dāng)你有一段待分析的DNA序列(基礎(chǔ)操作介紹)