今天的推送仍然是簡(jiǎn)單介紹。
一、學(xué)會(huì)用PubMed/NCBI等搜索數(shù)據(jù)庫
通過名字了解一個(gè)蛋白:
當(dāng)我們得到一個(gè)氨基酸序列,通過blast發(fā)現(xiàn)它可能是個(gè)dUTPase,但是我們并不了解什么是dUTPase。這時(shí)候,可以用PubMed數(shù)據(jù)庫搜索了解。
(1)打開網(wǎng)頁www.ncbi.nlm.nih.gov/entrez/
(2)輸入名字dUTPase,開始檢索。
(3)然后就可以點(diǎn)進(jìn)去看文章,了解蛋白了。
除了關(guān)鍵詞,還可以通過作者,年份,領(lǐng)域等縮小范圍;甚至在檢索時(shí)加地名,縮小地理范圍,找到距離你比較近的人發(fā)的文章(這個(gè)功能,嗯...方便去實(shí)驗(yàn)室學(xué)習(xí)。哈哈,還是蠻實(shí)用?。Ec很多檢索數(shù)據(jù)庫一樣,輸入關(guān)鍵詞可以用AND,OR,NOT使你的搜索更貼切。比如【dUTPase[TI] OR pyrophosphatase[TI] NOT Smith[AU]】的含義是關(guān)鍵詞是dUTPase或者pyrophosphatase,但是不看作者是Smith的結(jié)果。
二、提取蛋白質(zhì)序列
利用PubMed搜索文獻(xiàn)可以說是大家最常用的(還有鏡像谷歌學(xué)術(shù)啥的,以及大學(xué)圖書館買的很多類似PubMed的檢索數(shù)據(jù)庫),接下來也很常用的就是在提取蛋白質(zhì)序列,并從分子水平進(jìn)行分析。下面介紹個(gè)好用的網(wǎng)站ExPASy:
是由SIB 瑞士生物信息研究所開發(fā)運(yùn)營的,這里可以找到蛋白質(zhì)組學(xué),基因組學(xué),系統(tǒng)發(fā)育 / 進(jìn)化,系統(tǒng)生物學(xué),種群遺傳學(xué)和轉(zhuǎn)錄組學(xué)的數(shù)據(jù)資源。
繼續(xù)我們?cè)凇疽?、學(xué)會(huì)用PubMed/NCBI等搜索數(shù)據(jù)庫】中的舉例,我們通過序列得知與dUTPase相似,又在PubMed中找到了對(duì)應(yīng)文獻(xiàn),現(xiàn)在我們想更了解它一些,準(zhǔn)備從網(wǎng)上下載一些發(fā)揮dUTPase功能的蛋白質(zhì)序列。我們假設(shè)找大腸桿菌中的dUTPase功能的蛋白序列。
(1)打開網(wǎng)站https://www.expasy.org/
(2)在合適的數(shù)據(jù)庫中搜索【dUTPase coli】關(guān)鍵詞
會(huì)看到一系列序列,我們點(diǎn)進(jìn)去第一個(gè)P06968,就可以看到大腸桿菌中這個(gè)蛋白的很多詳細(xì)信息啦。
內(nèi)容相當(dāng)豐富,介紹了蛋白功能,名稱,分類,亞細(xì)胞定位,序列(可以下載FASTA文件),結(jié)構(gòu),相似蛋白等。
如果要下載多序列進(jìn)行比對(duì)分析,勾選下載即可。
與所有檢索數(shù)據(jù)庫類似,關(guān)鍵詞欄可以加各種高級(jí)設(shè)定縮小范圍。舉例中我們用的Advanced Search in the UniProt Knowledgebase中的數(shù)據(jù)由兩部分構(gòu)成。分別是TrEMBL和 Swiss-Prot,其中Swiss-Prot是從文獻(xiàn)中提取的結(jié)果,另一個(gè)是計(jì)算機(jī)分析翻譯的DNA序列,所以一般我們用filter by Swiss-Prot的數(shù)據(jù)。
三、提取DNA序列
蛋白質(zhì)序列的大小差別不大,300±200aa的大小,而且不同生物的相似功能的蛋白質(zhì)差異很小。DNA就不同了,首先,不是所有的DNA都編碼蛋白質(zhì),它分為調(diào)節(jié)區(qū)(通常在編碼區(qū)之前);非翻譯區(qū)(在編碼區(qū)前后)以及蛋白質(zhì)編碼區(qū)。在真核生物中,編碼區(qū)被內(nèi)含子序列分開,叫做外顯子。其次不同生物中DNA序列差異很大。
提取與蛋白質(zhì)對(duì)應(yīng)的DNA序列:
在數(shù)據(jù)庫中蛋白質(zhì)-DNA序列不是一一對(duì)應(yīng)的,很多不同的DNA序列對(duì)應(yīng)相同的蛋白質(zhì)或基因名。繼續(xù)我們的dUTPase舉例,如果想要知道它的DNA序列,來克隆大腸的dUTPase,怎么做呢?
首先按照上述的步驟,點(diǎn)擊去P06968蛋白的頁面,下拉至Cross-References這個(gè)分類,會(huì)發(fā)現(xiàn)NCBI對(duì)應(yīng)的序列數(shù)據(jù)資料,可以找到下載這個(gè)蛋白對(duì)應(yīng)的DNA序列。這個(gè)分類里還有很多UniProtKB以外的數(shù)據(jù)庫。
四、用BLAST比較蛋白序列
當(dāng)我們有一個(gè)蛋白質(zhì)序列,一般下一步就是BLAST(Basic Local Alignment Search Tool)來看看其他和選擇的蛋白序列相似的蛋白。通過這些信息,可以預(yù)測(cè)所選蛋白的結(jié)構(gòu),功能等。
(1)首先,打開NCBI-blast網(wǎng)頁
https://blast.ncbi.nlm.nih.gov/Blast.cgi
(2)點(diǎn)擊protein-protein BLAST?(blastp)
(3)進(jìn)行比對(duì),其中數(shù)據(jù)庫一般就是nr數(shù)據(jù)庫。結(jié)果顯示中的query是我們輸入的序列,另一個(gè)是數(shù)據(jù)庫中序列。
NCBI-blast頁面除了protein-protein,還有其他的。我們簡(jiǎn)單說一下好啦。
第一個(gè)nucleotide blast,就是blastn,用核苷酸序列在核苷酸數(shù)據(jù)庫中檢索;最后一個(gè)protein blast就是我們上面的blastp,蛋白序列在蛋白質(zhì)數(shù)據(jù)庫中檢索;中間的blastx是核酸序列按照六種閱讀框架將其翻譯成蛋白質(zhì)與蛋白質(zhì)數(shù)據(jù)庫中的序列進(jìn)行比對(duì);而下面的tblastn是用蛋白質(zhì)序列與翻譯后的核苷酸數(shù)據(jù)庫進(jìn)行比對(duì)。一般blastn較為常用,blastx對(duì)分析新序列和EST(Expressed Sequence Tag)很有用。
關(guān)于比對(duì)結(jié)果中的得分,期望值,similarity和identity以及blast比對(duì)時(shí)采用的算法的簡(jiǎn)單介紹,請(qǐng)看之前的推送:
【現(xiàn)學(xué)現(xiàn)賣】序列比對(duì)之bit-score VS E-value
【現(xiàn)學(xué)現(xiàn)賣】序列比對(duì)之identity VS similarity
【現(xiàn)學(xué)現(xiàn)賣】序列比對(duì)之算法
除了輸入一個(gè)序列,在blast中搜索相似序列外,多序列比對(duì)也很常用。多序列比對(duì)可以確定特定氨基酸位置;定義蛋白質(zhì)家族的特定序列;對(duì)蛋白進(jìn)行分類和建樹分析。
(1)首先又是打開網(wǎng)頁,哈哈哈。這個(gè)PIR是protein information resource的縮寫。在search/analysis里面選擇multiple Alignment(如果兩個(gè)序列就是 Pairwise Alignment)。
pir.georgetown.edu.
(2)復(fù)制粘貼(這個(gè)框里最多可以放50個(gè)序列,還有其他類似的線上工具可以試一試),并比對(duì)。結(jié)果如下,上方小框里是樹狀圖。結(jié)果顯示中,100%相同的用“*”或者豎線標(biāo)識(shí),化學(xué)上相似的用“:”和“·”標(biāo)識(shí)(兩個(gè)點(diǎn)的一般比對(duì)中得分更高),“-”是gap。
自此,這本書的part Ⅰ部分就看完啦(一共五個(gè)部分)。第一部分主要是簡(jiǎn)單介紹,繼續(xù)加油!