擴增子聚類之術語“ seed ”

????前面的swarm聚類文章中講到過,“ seed ” 是 de novo 思想的算法在聚類時,選擇的第一個作為質心或起點的高豐度擴增子,它通常作為 cluster 的代表序列參與物種注釋等其它分析。

????從計算機角度來看:算法的開始,創(chuàng)建一個初始為空的數(shù)據(jù)庫,并在處理輸入序列擴展數(shù)據(jù)庫。對于每一個 cluster , 數(shù)據(jù)庫只精確地包含一個代表性序列。

????在UCLUST中,“ seed 序列 ” 這個術語不再使用,為了避免與 BLAST 和 UBLAST 等算法中的對齊種子(即:查詢序列與參考序列比對上的匹配詞)混淆。作為替代,稱質心為“ 代表序列 ”。


????在這里用UBLAST舉例來說明:

????UBLAST是 Edgar 開發(fā)的 USEARCH 包中的一個工具。

????UBLAST最常用于蛋白質或翻譯搜索,低相似度的序列比對就可以提供信息。UBLAST也支持核苷酸搜索,但USEARCH通常更合適,因為核苷酸同源性只有在序列之間具有高相似度時才能檢測到。

????因此,UBLAST被設計為對較遠的(?more distant)序列關系敏感,USEARCH對于這些序列而言敏感度較低,例如蛋白質的識別率(identity)低于50%。而當序列識別率較低時,查詢序列和數(shù)據(jù)庫參考序列可能只有一個簡短的匹配詞(common k mer),如下圖所示。這個匹配詞稱作 “seed”(即:種子)。


圖源:?https://www.drive5.com/usearch/manual/ublast_algo.html




持續(xù)更新,禁止轉載

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

友情鏈接更多精彩內容