寫在前面
Emmm,有時(shí)候,我們可能通過(guò)一些比對(duì)軟件,如 BLAST , DIAMON 或者 ghostz 得到一堆序列比對(duì)結(jié)果。當(dāng)然,我們也可能從一些公共數(shù)據(jù)庫(kù)如 NR, Swissprot 等下載一些序列。不可避免,會(huì)引入一些其實(shí)跟我們目標(biāo)序列關(guān)聯(lián)度不大的序列。如何快速識(shí)別,并去除這些序列,多少還是麻煩。
類似的場(chǎng)景,我遇到了幾次,索性寫個(gè)小工具來(lái)解決問(wèn)題
蛋白序列兩兩相似度矩陣
使用簡(jiǎn)單,打開 「TBtools」對(duì)應(yīng)功能

設(shè)置輸入的 蛋白序列,隨后點(diǎn)擊 Compute 即可

計(jì)算結(jié)果即序列兩兩相似度矩陣

得到的矩陣,完全可以直接用 「TBtools」的 熱圖 功能直接可視化

可以簡(jiǎn)單的發(fā)現(xiàn),確實(shí)混入了不少非本家族序列??梢酝ㄟ^(guò)各類方式,去掉不需要的序列,保留剩余的序列。用于其他分析....
當(dāng)然,我們需要明白,多個(gè)序列的相似度計(jì)算,大體有兩種模式:
- 所有序列進(jìn)行多序列比對(duì),后續(xù)兩兩計(jì)算
- 每?jī)蓷l序列分別做雙序列比對(duì),后續(xù)兩兩計(jì)算
兩者區(qū)別即同源位點(diǎn)對(duì)齊的方式不同。前者在我們使用的序列都是同源序列,且長(zhǎng)度完整時(shí),優(yōu)先選;在本例中常見(jiàn),我們是明確知道存在異常序列,或者這個(gè)序列不是當(dāng)前家族,或者這個(gè)序列有明顯異常組成,那么后者合適。
寫在最后
Emmm,隨手一個(gè)小功能,我知道后面還會(huì)用到。