alignments 代表比對上的兩個(gè)序列
hits 表示兩個(gè)序列比對上的片段
Score 比對得分,如果序列匹配上得分,不一樣,減分,分值越高,兩個(gè)序列相似性越高
E Value 值越小,越可信,相對的一個(gè)統(tǒng)計(jì)值。這與你所使用的數(shù)據(jù)庫大小有關(guān)
Length 輸入序列的長度
Identities 一致性,就是兩個(gè)序列有多少是一樣的
Query 代表輸入序列
Sbjct 代表數(shù)據(jù)庫中的序列
blast是區(qū)段比對,對于給定的兩個(gè)序列,blast會(huì)把具有相識性的片段(hit)找出來,顯示的是hit的信息
E值的經(jīng)驗(yàn)解釋如下。如果e<1e-50(或1×10-50),那么數(shù)據(jù)庫匹配應(yīng)該是同源關(guān)系的結(jié)果,這是一個(gè)非常高的置信度。如果e介于0.01和1e-50之間,則可以將匹配視為同源性的結(jié)果。如果e介于0.01和10之間,則認(rèn)為匹配不重要,但可能暗示存在暫時(shí)的遠(yuǎn)程同源關(guān)系。需要額外的證據(jù)來確認(rèn)暫時(shí)的關(guān)系。如果e>10,考慮中的序列要么不相關(guān),要么通過極遠(yuǎn)的關(guān)系相關(guān),這些關(guān)系低于當(dāng)前方法的檢測極限。
由于e值受數(shù)據(jù)庫大小的比例影響,一個(gè)明顯的問題是,隨著數(shù)據(jù)庫的增長,給定序列匹配的e值也會(huì)增加。由于兩個(gè)序列之間真正的進(jìn)化關(guān)系保持不變,隨著數(shù)據(jù)庫的增長,序列匹配的可信度降低意味著隨著數(shù)據(jù)庫的擴(kuò)大,人們可能會(huì)“失去”先前檢測到的同系物。因此,需要一種替代E值計(jì)算的方法。
蛋白質(zhì)由20種不同的aas組成,如果你將兩個(gè)不相關(guān)的蛋白質(zhì)序列(或任何其他隨機(jī)a a序列)與任何長度對齊,你將擁有5%的隨機(jī)特性(對于DNA和RNA序列,隨機(jī)特性為25%,因?yàn)樗鼈兪怯刹煌瑝A基a、t、c、g組成的)。
Identities?35%意味著序列中35%的aa與數(shù)據(jù)庫中的其他序列匹配。取決于你在尋找什么:——如果你有未知的蛋白質(zhì)序列,你想知道同源序列,關(guān)于身份的信息(甚至35%)是有價(jià)值的,——如果你知道蛋白質(zhì),你需要確認(rèn)序列,身份35%是小的,可能表明在你的分析過程中出了問題。
BLASTP中還有一個(gè)基于相似性的參數(shù)ppos。ppos是pident+(相似但不相同的aa匹配的百分比)。兩個(gè)pident高于20%和ppos高于30%的aa序列非常接近,可以稱為同源序列。在NA序列中,PIDENT 40%及以上是可以的。
p值:取決于查詢和db長度,但我認(rèn)為小于10^-5的p值表示一個(gè)關(guān)系。
bitscore:很大程度上取決于查詢長度。將bitscore與您的qlen進(jìn)行比較,我認(rèn)為如果一個(gè)命中的bitscore等于或大于qlen的0.7,那么查詢和主題就足夠接近了。
https://www.biostars.org/p/187230/
http://boyun.sh.cn/bio/?p=1453
http://boyun.sh.cn/bio/?p=1632