亞細胞定位是指某種蛋白或某個基因表達產物在細胞內的具體存在部位,包括細胞核、細胞質和細胞膜等部位。傳統(tǒng)的實驗方法有,利用一些熒光蛋白如GFP、YFP,通過其在激光照射下發(fā)出的綠色或黃色熒光,從而精確確定編碼蛋白的定位。如果面對質譜打出來很多蛋白,傳統(tǒng)的實驗方法顯得十分乏力。如果能利用生物信息學手段基于一些算法如機器學習等開發(fā)的方法進行亞細胞定位預測分析輔助于實驗,這樣就能省時省力節(jié)約成本。
這里以本生煙草為例,給大家介紹如何對感興趣的很多個蛋白質進行亞細胞定位分析,分為公共平臺數(shù)據(jù)和分析預測兩部分。
一、公共平臺數(shù)據(jù)
1, 通過uniprot數(shù)據(jù)庫下載已有的亞細胞定位數(shù)據(jù)
打開網(wǎng)址https://www.uniprot.org/,在搜索框內直接搜索nicotiana benthamiana(本生煙草的拉丁學名),如下圖所示:
Download欄選擇對應的文件格式進行下載(建議excel格式),Column欄選擇對應的列數(shù)據(jù)進行下載。
2,下載得到1224個蛋白的定位信息
包括protein name, gene name, sequence, subcellular location等信息。
如下圖所示:
較好的一點是,subcellular location列信息中還包括了亞細胞定位的文章出處。如果蛋白ID和質譜打出來的蛋白列表(篩選后)不一致,則需要進行蛋白序列比對進行一一對應,這里就不進行詳細介紹了。
最后,將有定位信息的蛋白列表與感興趣蛋白列表取overlap,得到感興趣蛋白的定位信息。
二、分析預測(基于已有工具預測)
最近幾年,不斷有新的預測工具出來,如LOCALIZER(2017年),pLOC-mPlant(2017年),BUSCA(2018年),WoLF PSORT(2006年,引用2042次)等。這里最終選擇BUSCA工具進行預測分析。該工具支持在線預測,它整合了多種計算預測工具,基于GO條目,提取蛋白質序列特征信息。
下圖是BUSCA工具面向真核生物的分析預測流程:
BUSCA工具在線分析預測過程:
①,準備所有蛋白的序列fasta文件
②,提交fasta文件(紅色框)進行在線預測,并點擊“Start prediction”
③,下載預測結果文件
最后,拿BUSCA預測結果與感興趣蛋白的定位數(shù)據(jù)進行比較,主要為了:
1,看BUSCA工具亞細胞定位預測分析的可信度如何
2,整合感興趣蛋白的亞細胞定位數(shù)據(jù)信息
參考BUSCA工具文章鏈接:https://academic.oup.com/nar/article/46/W1/W459/4990035
**歡迎關注公眾號:"生物信息學"**