關(guān)于blast結(jié)果的一點(diǎn)解讀

alignments 代表比對上的兩個(gè)序列

hits 表示兩個(gè)序列比對上的片段

Score 比對得分,如果序列匹配上得分,不一樣,減分,分值越高,兩個(gè)序列相似性越高

E Value 值越小,越可信,相對的一個(gè)統(tǒng)計(jì)值。這與你所使用的數(shù)據(jù)庫大小有關(guān)

Length 輸入序列的長度

Identities 一致性,就是兩個(gè)序列有多少是一樣的

Query 代表輸入序列

Sbjct 代表數(shù)據(jù)庫中的序列

blast是區(qū)段比對,對于給定的兩個(gè)序列,blast會(huì)把具有相識性的片段(hit)找出來,顯示的是hit的信息

E值的經(jīng)驗(yàn)解釋如下。如果e<1e-50(或1×10-50),那么數(shù)據(jù)庫匹配應(yīng)該是同源關(guān)系的結(jié)果,這是一個(gè)非常高的置信度。如果e介于0.01和1e-50之間,則可以將匹配視為同源性的結(jié)果。如果e介于0.01和10之間,則認(rèn)為匹配不重要,但可能暗示存在暫時(shí)的遠(yuǎn)程同源關(guān)系。需要額外的證據(jù)來確認(rèn)暫時(shí)的關(guān)系。如果e>10,考慮中的序列要么不相關(guān),要么通過極遠(yuǎn)的關(guān)系相關(guān),這些關(guān)系低于當(dāng)前方法的檢測極限。

由于e值受數(shù)據(jù)庫大小的比例影響,一個(gè)明顯的問題是,隨著數(shù)據(jù)庫的增長,給定序列匹配的e值也會(huì)增加。由于兩個(gè)序列之間真正的進(jìn)化關(guān)系保持不變,隨著數(shù)據(jù)庫的增長,序列匹配的可信度降低意味著隨著數(shù)據(jù)庫的擴(kuò)大,人們可能會(huì)“失去”先前檢測到的同系物。因此,需要一種替代E值計(jì)算的方法。

蛋白質(zhì)由20種不同的aas組成,如果你將兩個(gè)不相關(guān)的蛋白質(zhì)序列(或任何其他隨機(jī)a a序列)與任何長度對齊,你將擁有5%的隨機(jī)特性(對于DNA和RNA序列,隨機(jī)特性為25%,因?yàn)樗鼈兪怯刹煌瑝A基a、t、c、g組成的)。

Identities?35%意味著序列中35%的aa與數(shù)據(jù)庫中的其他序列匹配。取決于你在尋找什么:——如果你有未知的蛋白質(zhì)序列,你想知道同源序列,關(guān)于身份的信息(甚至35%)是有價(jià)值的,——如果你知道蛋白質(zhì),你需要確認(rèn)序列,身份35%是小的,可能表明在你的分析過程中出了問題。

BLASTP中還有一個(gè)基于相似性的參數(shù)ppos。ppos是pident+(相似但不相同的aa匹配的百分比)。兩個(gè)pident高于20%和ppos高于30%的aa序列非常接近,可以稱為同源序列。在NA序列中,PIDENT 40%及以上是可以的。

p值:取決于查詢和db長度,但我認(rèn)為小于10^-5的p值表示一個(gè)關(guān)系。

bitscore:很大程度上取決于查詢長度。將bitscore與您的qlen進(jìn)行比較,我認(rèn)為如果一個(gè)命中的bitscore等于或大于qlen的0.7,那么查詢和主題就足夠接近了。


https://www.biostars.org/p/187230/

http://boyun.sh.cn/bio/?p=1453

http://boyun.sh.cn/bio/?p=1632

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • Blast,全稱Basic Local Alignment Search Tool,即"基于局部比對算法的搜索工具...
    曉僉閱讀 15,502評論 1 26
  • ORA-00001: 違反唯一約束條件 (.) 錯(cuò)誤說明:當(dāng)在唯一索引所對應(yīng)的列上鍵入重復(fù)值時(shí),會(huì)觸發(fā)此異常。 O...
    我想起個(gè)好名字閱讀 6,007評論 0 9
  • 歡迎關(guān)注:oddxix 本章主要講序列分析與聯(lián)配 序列分析是生物信息學(xué)最主要的研究內(nèi)容之一,它可以分為兩個(gè)主要部分...
    oddxix閱讀 2,476評論 0 10
  • 國家電網(wǎng)公司企業(yè)標(biāo)準(zhǔn)(Q/GDW)- 面向?qū)ο蟮挠秒娦畔?shù)據(jù)交換協(xié)議 - 報(bào)批稿:20170802 前言: 排版 ...
    庭說閱讀 12,499評論 6 13
  • 官網(wǎng) 中文版本 好的網(wǎng)站 Content-type: text/htmlBASH Section: User ...
    不排版閱讀 4,725評論 0 5

友情鏈接更多精彩內(nèi)容