【陪你學·生信】七、在數(shù)據(jù)庫中檢索相似的序列

一、相似度Similarity

序列的分析離不開相似度這個指標,相似度比較高的序列往往具有相似的結(jié)構(gòu)、執(zhí)行相似的功能。所以用未知序列blast得到的結(jié)果可以對未知序列進行推測。

當兩個序列非常相似時,生物學家稱之為同源。然而有一點不明確,就是什么程度的相似可以稱之為“非?!毕嗨颇??書上說一般長度為100以上核苷酸序列或者氨基酸序列,序列之間的一致度(identical)大于70%(nt)或25%(aa)可以推測同源。

不過有時,一致度或相似度很高的兩個序列也有可能非同源,這種進化上的“趨同”現(xiàn)象可能是隨機產(chǎn)生的,這樣的一對序列可稱為同功序列。或者序列相似度很低,但是蛋白質(zhì)三維結(jié)構(gòu)幾乎一樣的情況也有。分析的時候還要結(jié)合E-value,兩序列中可對應(yīng)的序列長度占兩序列的比例,插入和刪除的殘基個數(shù)等一起判斷是否是同源。推薦閱讀往期推送【現(xiàn)學現(xiàn)賣】序列比對之identity VS similarity,【現(xiàn)學現(xiàn)賣】序列比對之bit-score VS E-value

二、最棒的序列比對工具沒有之一——BLAST

之前第六章主要介紹了分析一條氨基酸序列理化性質(zhì),結(jié)構(gòu)域的方法。這章說說序列比對,比對就不得不用BLAST。NCBI中蛋白質(zhì)相關(guān)的blast有:blastp(用氨基酸序列在氨基酸數(shù)據(jù)庫中比對),tblastn(用氨基酸序列在核苷酸數(shù)據(jù)庫中比對)。

1. NCBI-blastp

https://blast.ncbi.nlm.nih.gov/Blast.cgi?PROGRAM=blastp&PAGE_TYPE=BlastSearch&LINK_LOC=blasthome

以序列號P09405的氨基酸序列為例進行blastp。

很快返回結(jié)果頁面,點擊按鈕可以展開一些折疊的結(jié)果,還有filter工具篩選你感興趣的東西。

上圖標記黃色的都可以點開看看,比如Graphic Summary打開后如下圖。彩色部分展示的是數(shù)據(jù)庫中得到的序列與查詢序列(query sequence)比對的位置,不同的顏色體現(xiàn)相似程度/得分。前面的幾個序列與查詢序列匹配程度很高,后面短的粉色部分的信息也并不是沒有用處,比如可以幫助我們找到蛋白質(zhì)結(jié)構(gòu)域。

在Alignments里,上方是查詢序列,下方是匹配序列,中間那欄,如果是字母則表示匹配,如果是?表示是相似氨基酸殘基,如果是空則表示未匹配上。

2. NCBI-blastn

BLASTing DNA序列和蛋白質(zhì)序列很類似,而且如果你知道DNA序列的ORF,可以翻譯成氨基酸序列使用blastp,獲得更加準確的結(jié)果。

DNA序列比對可用blastn,還有tblastx和blastx,這里面的t表示translated,就是你輸入DNA序列,在blast之前會有工具將其翻譯,再進行blast比對。tblastx數(shù)據(jù)庫是TDNA數(shù)據(jù)庫(系統(tǒng)將nt翻譯為aa的一個數(shù)據(jù)庫),blastx數(shù)據(jù)庫是氨基酸序列庫。至于不同情況用什么工具,見下圖。

3. 用BLAST方式思考問題(一些BLAST可以解決的問題)

(1)在基因組中尋找目標基因

可以將基因組分為多條兩端互相重疊的序列(2-5kb),然后用blastx在NR庫(the Non Redundant protein database)中檢索。

(2)預測蛋白質(zhì)功能

用blastp在Swiss-Prot數(shù)據(jù)庫中檢索,你輸入的蛋白序列可能擁有和高分結(jié)果相似的功能。

(3)預測蛋白質(zhì)三級結(jié)構(gòu)

用blastp在PDB數(shù)據(jù)庫中檢索,道理同(2)

4. 使用BLAST前可以設(shè)定的參數(shù)

一般情況下進行BLAST,會對organism進行限定,其他參數(shù)維持默認。那么什么情況下需要修改默認參數(shù)呢?比如沒有返回結(jié)果或者結(jié)果的E-value數(shù)值大,可以更改矩陣或空位罰分;或者返回太多結(jié)果,則可以限定所使用的數(shù)據(jù)庫、關(guān)鍵詞、E值等。

(1)blastp

一些蛋白質(zhì)序列的某一部分復雜程度比較低(low-complexity/ low-entropy),一種或幾種氨基酸殘基在一段區(qū)域內(nèi)富集。這樣兩個序列比對會產(chǎn)生高分結(jié)果,但是它們很可能毫不相干。為了避免這個問題,可以勾選Algorithm parameters——filters and mask高級選項——“l(fā)ow complexity regions”,過濾這樣的比對結(jié)果。

(2)blastn

對于DNA序列,限定的參數(shù)頁面如下,其中word size是指開始一段比對的序列長度,size越大,比對速度越快、精度越低。

三、PSI-BLAST簡單介紹

在blastp下方算法選擇里,還有PSI-BLAST。即Position-Specific Iterated BLAST,位點特異性迭代BLAST。

先BLAST 到一系列相似序列,并對其中每一個位置上的元素構(gòu)建PSSM矩陣。繼續(xù)進行第二輪blast,再加上新搜索出來的序列結(jié)果構(gòu)建新的PSSM矩陣。這樣迭代,直到無法搜索出新的結(jié)果為止或者直到獲得了足夠的序列為止。

BLAST的結(jié)果都是相近序列,使用PSI-BLAST可以幫助我們找到遠緣序列。

其他操作和BLAST類似,點擊BLAST返回結(jié)果頁面如下。

然后可以點擊Run PSI-Blast iteration 2開始迭代,直到?jīng)]有新的序列產(chǎn)生或產(chǎn)生的序列數(shù)目滿意為止。迭代產(chǎn)生的序列,系統(tǒng)會自動標黃。

這里需要解釋一下,如果選擇了這條序列構(gòu)建PSSM矩陣,那么迭代之后,序列后面會有綠色圓形對勾,如果像我這次沒有勾選(熒光黃色的4條序列),則這些序列不參與構(gòu)建矩陣。實際操作時,如果第N次迭代新增加的序列結(jié)果明顯不對,則不勾選它構(gòu)建矩陣,剩下的序列構(gòu)建的矩陣進行下一次分析。

當輸入的查詢蛋白質(zhì)序列包含多個結(jié)構(gòu)域時,輸出結(jié)果可能不太可信。因為很多八竿子打不著的蛋白質(zhì)也會有相似結(jié)構(gòu)域。這時候可以根據(jù)第六章里面尋找結(jié)構(gòu)域的方法,找到結(jié)構(gòu)域的位置,將長蛋白質(zhì)序列根據(jù)結(jié)構(gòu)域分割為片段,進行blast。這種分割分析也適用于大于200aa的蛋白質(zhì)序列。

往期相關(guān)內(nèi)容:

【陪你學·生信】序

【陪你學·生信】一、生信能幫我們做什么

【陪你學·生信】二、一些你肯定會用到的生信工具和基本操作

【陪你學·生信】三、核苷酸序列數(shù)據(jù)庫的使用

【陪你學·生信】四、蛋白質(zhì)相關(guān)的數(shù)據(jù)庫

【陪你學·生信】五、當你有一段待分析的DNA序列(基礎(chǔ)操作介紹)

【陪你學·生信】六、當你有一段待分析的氨基酸序列(基礎(chǔ)操作介紹)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容