????前面的swarm聚類文章中講到過,“ seed ” 是 de novo 思想的算法在聚類時,選擇的第一個作為質心或起點的高豐度擴增子,它通常作為 cluster 的代表序列參與物種注釋等其它分析。
????從計算機角度來看:算法的開始,創(chuàng)建一個初始為空的數(shù)據(jù)庫,并在處理輸入序列擴展數(shù)據(jù)庫。對于每一個 cluster , 數(shù)據(jù)庫只精確地包含一個代表性序列。
????在UCLUST中,“ seed 序列 ” 這個術語不再使用,為了避免與 BLAST 和 UBLAST 等算法中的對齊種子(即:查詢序列與參考序列比對上的匹配詞)混淆。作為替代,稱質心為“ 代表序列 ”。
????在這里用UBLAST舉例來說明:
????UBLAST是 Edgar 開發(fā)的 USEARCH 包中的一個工具。
????UBLAST最常用于蛋白質或翻譯搜索,低相似度的序列比對就可以提供信息。UBLAST也支持核苷酸搜索,但USEARCH通常更合適,因為核苷酸同源性只有在序列之間具有高相似度時才能檢測到。
????因此,UBLAST被設計為對較遠的(?more distant)序列關系敏感,USEARCH對于這些序列而言敏感度較低,例如蛋白質的識別率(identity)低于50%。而當序列識別率較低時,查詢序列和數(shù)據(jù)庫參考序列可能只有一個簡短的匹配詞(common k mer),如下圖所示。這個匹配詞稱作 “seed”(即:種子)。

圖源:?https://www.drive5.com/usearch/manual/ublast_algo.html
持續(xù)更新,禁止轉載