快速 | 蛋白序列兩兩相似度矩陣計(jì)算

寫在前面

Emmm,有時(shí)候,我們可能通過(guò)一些比對(duì)軟件,如 BLAST , DIAMON 或者 ghostz 得到一堆序列比對(duì)結(jié)果。當(dāng)然,我們也可能從一些公共數(shù)據(jù)庫(kù)如 NR, Swissprot 等下載一些序列。不可避免,會(huì)引入一些其實(shí)跟我們目標(biāo)序列關(guān)聯(lián)度不大的序列。如何快速識(shí)別,并去除這些序列,多少還是麻煩。
類似的場(chǎng)景,我遇到了幾次,索性寫個(gè)小工具來(lái)解決問(wèn)題

蛋白序列兩兩相似度矩陣

使用簡(jiǎn)單,打開 「TBtools」對(duì)應(yīng)功能



設(shè)置輸入的 蛋白序列,隨后點(diǎn)擊 Compute 即可



計(jì)算結(jié)果即序列兩兩相似度矩陣

得到的矩陣,完全可以直接用 「TBtools」的 熱圖 功能直接可視化



可以簡(jiǎn)單的發(fā)現(xiàn),確實(shí)混入了不少非本家族序列??梢酝ㄟ^(guò)各類方式,去掉不需要的序列,保留剩余的序列。用于其他分析....

當(dāng)然,我們需要明白,多個(gè)序列的相似度計(jì)算,大體有兩種模式:

  1. 所有序列進(jìn)行多序列比對(duì),后續(xù)兩兩計(jì)算
  2. 每?jī)蓷l序列分別做雙序列比對(duì),后續(xù)兩兩計(jì)算

兩者區(qū)別即同源位點(diǎn)對(duì)齊的方式不同。前者在我們使用的序列都是同源序列,且長(zhǎng)度完整時(shí),優(yōu)先選;在本例中常見(jiàn),我們是明確知道存在異常序列,或者這個(gè)序列不是當(dāng)前家族,或者這個(gè)序列有明顯異常組成,那么后者合適。

寫在最后

Emmm,隨手一個(gè)小功能,我知道后面還會(huì)用到。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容