久久久久久婷婷色,亚洲国产欧美日韩操

一、相似度Similarity

序列的分析離不開相似度這個指標，相似度比較高的序列往往具有相似的結(jié)構(gòu)、執(zhí)行相似的功能。所以用未知序列blast得到的結(jié)果可以對未知序列進行推測。

當兩個序列非常相似時，生物學家稱之為同源。然而有一點不明確，就是什么程度的相似可以稱之為“非?！毕嗨颇?？書上說一般長度為100以上核苷酸序列或者氨基酸序列，序列之間的一致度（identical）大于70%（nt）或25%（aa）可以推測同源。

不過有時，一致度或相似度很高的兩個序列也有可能非同源，這種進化上的“趨同”現(xiàn)象可能是隨機產(chǎn)生的，這樣的一對序列可稱為同功序列。或者序列相似度很低，但是蛋白質(zhì)三維結(jié)構(gòu)幾乎一樣的情況也有。分析的時候還要結(jié)合E-value，兩序列中可對應(yīng)的序列長度占兩序列的比例，插入和刪除的殘基個數(shù)等一起判斷是否是同源。推薦閱讀往期推送【現(xiàn)學現(xiàn)賣】序列比對之identity VS similarity，【現(xiàn)學現(xiàn)賣】序列比對之bit-score VS E-value。

二、最棒的序列比對工具沒有之一——BLAST

之前第六章主要介紹了分析一條氨基酸序列理化性質(zhì)，結(jié)構(gòu)域的方法。這章說說序列比對，比對就不得不用BLAST。NCBI中蛋白質(zhì)相關(guān)的blast有：blastp（用氨基酸序列在氨基酸數(shù)據(jù)庫中比對），tblastn（用氨基酸序列在核苷酸數(shù)據(jù)庫中比對）。

1. NCBI-blastp

https://blast.ncbi.nlm.nih.gov/Blast.cgi?PROGRAM=blastp&PAGE_TYPE=BlastSearch&LINK_LOC=blasthome

以序列號P09405的氨基酸序列為例進行blastp。

很快返回結(jié)果頁面，點擊按鈕可以展開一些折疊的結(jié)果，還有filter工具篩選你感興趣的東西。

上圖標記黃色的都可以點開看看，比如Graphic Summary打開后如下圖。彩色部分展示的是數(shù)據(jù)庫中得到的序列與查詢序列（query sequence）比對的位置，不同的顏色體現(xiàn)相似程度/得分。前面的幾個序列與查詢序列匹配程度很高，后面短的粉色部分的信息也并不是沒有用處，比如可以幫助我們找到蛋白質(zhì)結(jié)構(gòu)域。

在Alignments里，上方是查詢序列，下方是匹配序列，中間那欄，如果是字母則表示匹配，如果是?表示是相似氨基酸殘基，如果是空則表示未匹配上。

2. NCBI-blastn

BLASTing DNA序列和蛋白質(zhì)序列很類似，而且如果你知道DNA序列的ORF，可以翻譯成氨基酸序列使用blastp，獲得更加準確的結(jié)果。

DNA序列比對可用blastn，還有tblastx和blastx，這里面的t表示translated，就是你輸入DNA序列，在blast之前會有工具將其翻譯，再進行blast比對。tblastx數(shù)據(jù)庫是TDNA數(shù)據(jù)庫（系統(tǒng)將nt翻譯為aa的一個數(shù)據(jù)庫），blastx數(shù)據(jù)庫是氨基酸序列庫。至于不同情況用什么工具，見下圖。

3. 用BLAST方式思考問題（一些BLAST可以解決的問題）

（1）在基因組中尋找目標基因

可以將基因組分為多條兩端互相重疊的序列（2-5kb），然后用blastx在NR庫（the Non Redundant protein database）中檢索。

（2）預測蛋白質(zhì)功能

用blastp在Swiss-Prot數(shù)據(jù)庫中檢索，你輸入的蛋白序列可能擁有和高分結(jié)果相似的功能。

（3）預測蛋白質(zhì)三級結(jié)構(gòu)

用blastp在PDB數(shù)據(jù)庫中檢索，道理同（2）

4. 使用BLAST前可以設(shè)定的參數(shù)

一般情況下進行BLAST，會對organism進行限定，其他參數(shù)維持默認。那么什么情況下需要修改默認參數(shù)呢？比如沒有返回結(jié)果或者結(jié)果的E-value數(shù)值大，可以更改矩陣或空位罰分；或者返回太多結(jié)果，則可以限定所使用的數(shù)據(jù)庫、關(guān)鍵詞、E值等。

（1）blastp

一些蛋白質(zhì)序列的某一部分復雜程度比較低（low-complexity/ low-entropy），一種或幾種氨基酸殘基在一段區(qū)域內(nèi)富集。這樣兩個序列比對會產(chǎn)生高分結(jié)果，但是它們很可能毫不相干。為了避免這個問題，可以勾選Algorithm parameters——filters and mask高級選項——“l(fā)ow complexity regions”，過濾這樣的比對結(jié)果。

（2）blastn

對于DNA序列，限定的參數(shù)頁面如下，其中word size是指開始一段比對的序列長度，size越大，比對速度越快、精度越低。

三、PSI-BLAST簡單介紹

在blastp下方算法選擇里，還有PSI-BLAST。即Position-Specific Iterated BLAST，位點特異性迭代BLAST。

先BLAST 到一系列相似序列，并對其中每一個位置上的元素構(gòu)建PSSM矩陣。繼續(xù)進行第二輪blast，再加上新搜索出來的序列結(jié)果構(gòu)建新的PSSM矩陣。這樣迭代，直到無法搜索出新的結(jié)果為止或者直到獲得了足夠的序列為止。

BLAST的結(jié)果都是相近序列，使用PSI-BLAST可以幫助我們找到遠緣序列。

其他操作和BLAST類似，點擊BLAST返回結(jié)果頁面如下。

然后可以點擊Run PSI-Blast iteration 2開始迭代，直到?jīng)]有新的序列產(chǎn)生或產(chǎn)生的序列數(shù)目滿意為止。迭代產(chǎn)生的序列，系統(tǒng)會自動標黃。

這里需要解釋一下，如果選擇了這條序列構(gòu)建PSSM矩陣，那么迭代之后，序列后面會有綠色圓形對勾，如果像我這次沒有勾選（熒光黃色的4條序列），則這些序列不參與構(gòu)建矩陣。實際操作時，如果第N次迭代新增加的序列結(jié)果明顯不對，則不勾選它構(gòu)建矩陣，剩下的序列構(gòu)建的矩陣進行下一次分析。

當輸入的查詢蛋白質(zhì)序列包含多個結(jié)構(gòu)域時，輸出結(jié)果可能不太可信。因為很多八竿子打不著的蛋白質(zhì)也會有相似結(jié)構(gòu)域。這時候可以根據(jù)第六章里面尋找結(jié)構(gòu)域的方法，找到結(jié)構(gòu)域的位置，將長蛋白質(zhì)序列根據(jù)結(jié)構(gòu)域分割為片段，進行blast。這種分割分析也適用于大于200aa的蛋白質(zhì)序列。

往期相關(guān)內(nèi)容：

【陪你學·生信】序

【陪你學·生信】一、生信能幫我們做什么

【陪你學·生信】二、一些你肯定會用到的生信工具和基本操作

【陪你學·生信】三、核苷酸序列數(shù)據(jù)庫的使用

【陪你學·生信】四、蛋白質(zhì)相關(guān)的數(shù)據(jù)庫

【陪你學·生信】五、當你有一段待分析的DNA序列（基礎(chǔ)操作介紹）

【陪你學·生信】六、當你有一段待分析的氨基酸序列（基礎(chǔ)操作介紹）

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

【陪你學·生信】七、在數(shù)據(jù)庫中檢索相似的序列

【陪你學·生信】七、在數(shù)據(jù)庫中檢索相似的序列

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

【陪你學·生信】七、在數(shù)據(jù)庫中檢索相似的序列

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

【陪你學·生信】七、在數(shù)據(jù)庫中檢索相似的序列