什么是oligotype ?
寡核苷酸: 是一類只有20個以下堿基的短鏈核苷酸的總稱(包括脫氧核糖核酸DNA或核糖核酸RNA內(nèi)的核苷酸),寡核苷酸可以很容易地和它們的互補鏈對接,所以常用來作為探針確定DNA或RNA的結(jié)構(gòu),經(jīng)常用于基因芯片、電泳、熒光原位雜交等過程中。
寡核苷酸配型技術(shù)(Oligotyping):是一種新型監(jiān)督計算方法,利用16SrRNA基因擴增子reads中非常微妙的核苷酸變異來分解微生物群落中非常密切相關(guān)的分類群。 它可以揭示以前未被發(fā)現(xiàn)的生態(tài)模式以及在環(huán)境樣品中隱藏的微生物多樣性。
通過寡聚分型,高變區(qū)不同類型之間的相似性閾值可以低至0.2%,比目前正在使用的OTU聚類方法的3%相似性閾值更低。
什么時候用
各種環(huán)境中采集的多個樣品產(chǎn)生的16SrRNA基因標簽序列來研究橫截面或時間序列差異。 對16SrRNA reads進行分類(或聚類)分析,您就知道樣品的物種組成(OUT_table)。如果一個分類單元(或OTU)在每個樣本中都有,并且您懷疑這個分類單元(或OTU)的內(nèi)容多于滿足目標的情況,您認為該單元可能有多種類型被分解成。 Oligotyping可以幫助你調(diào)查這個問題,并且大部分情況下都伴隨著令人驚訝的答案。
- Are all Firmicutes in all samples the same?
- if there are different types, how are they distributed?
Oligotyping使用香農(nóng)熵識別生物相關(guān)性,在概念上不同于廣泛使用的依賴于成對序列相似性的方法。 香農(nóng)熵是一種衡量信息含量的指標,用于確定顯示高度變異的核苷酸位點。 寡聚分型利用這一事實,即在基因的特定位置發(fā)生系統(tǒng)發(fā)生上重要的差異,導致這些位置的高度變異,而許多測序錯誤在一級近似中沿著序列隨機分布。 只有高信息核苷酸位置的連接定義了寡核苷酸,然后用于將測序數(shù)據(jù)劃分成高分辨率組,同時丟棄冗余信息和噪聲。 通過這種方法,寡核苷酸分型技術(shù)可以鑒定在測序區(qū)域內(nèi)與單個核苷酸差異很小的分類群。
怎么用

python q2oligo.py rdp_assigned_taxonomy/all_rep_set_tax_assignments.txt otu_map.txt all.fna 'Mitochondria' # 找出'Mitochondria 物種所在的OTU以及序列編號

o-trim-uninformative-columns-from-alignment #
o-get-sample-info-from-fasta Mitochondria.fasta # 序列的信息

oligotype 分析要求fasta序列長度一致
o-pad-with-gaps Mitochondria.fasta #對長度不一致的序列用--填補

entropy-analysis Mitochondria.fasta-PADDED-WITH-GAPS # 生成序列香農(nóng)熵文件


根據(jù)這一步的文件來確定下一步分析的參數(shù)
oligotype Mitochondria.fasta-PADDED-WITH-GAPS Mitochondria.fasta-PADDED-WITH-GAPS-ENTROPY -c 2 -M 10 --quick
Mitochondria-c5-s1-a0.0-A0-M10/
├── COLORS
├── ENVIRONMENT.txt
├── FIGURES
├── MATRIX-COUNT.txt # actual number of reads per oligotype / sample pair
├── MATRIX-PERCENT.txt
├── OLIGO-REPRESENTATIVES # contains all essential files about each individual oligotype
├── OLIGOS.fasta
├── OLIGOS.nexus
├── READ-DISTRIBUTION.txt
├── RUNINFO
├── RUNINFO.log
└── TMP
o-stackbar.R Mitochondria-c2-s1-a0.0-A0-M10/ENVIRONMENT.txt -o Mito --title Mitochondria

這是一個重要的結(jié)果,表明我們區(qū)別了2個不同的菌株,它們在16S rRNA基因區(qū)域上99%相同。
研究案例

寡型鏈球菌在個體樣品中的分布。 (A)每個采樣點V3-V5中8個鏈球菌寡型的相對豐度,在所有志愿者中平均值。 為了簡單起見,僅顯示與HOMD鏈球菌參考序列完全匹配且在至少一個口腔位點中具有至少0.2%平均豐度的寡聚體。 顯示寡核苷酸類型的物種名稱是HOMD中相同命名序列的名稱; 這些寡核苷酸中的一些還與另外一個未命名的分類群相同,只有一個HOT名稱(在數(shù)據(jù)集S2中列出)。 (B)顯示每對寡核苷酸之間核苷酸同一性百分比的熱圖表示。 (C)每個志愿者都表示為一列,顯示每個志愿者9個口腔位點每個寡核苷酸對鏈球菌群體的相對貢獻。 列的順序由具有Morisita-Horn不相似性指數(shù)的SV樣本的聚類來定義。

由Yatsunenko等人(2012年)發(fā)表研究推斷擬桿菌寡型分布。柱形圖表明在給定的分組中存在一種寡聚型;全長條代表100%分析樣品中出現(xiàn)寡聚體,下面板放大包絡(luò)圖中編號的區(qū)域。數(shù)字1,2和3是巴氏桿菌寡聚體,其全長相似性超過97%,但在其地理分布上表現(xiàn)出顯著的差異。淺黃色標出了NCBI非冗余核苷酸序列數(shù)據(jù)庫中完美匹配的寡聚型。數(shù)字4表明幾種寡聚型在馬拉維和美洲印第安人社區(qū)的樣本中一直存在,但在美國的樣本中不存在。第4號中的所有寡核苷酸都沒有在NCBI的nr數(shù)據(jù)庫中完美匹配。另一方面,數(shù)字5顯示了馬拉維和美洲印第安人社區(qū)中具有相似發(fā)生模式的幾種寡聚體,其中第4種顯示了這些寡聚體,但在從美國收集的樣品中存在著更大的豐度。與第4號相反,第5號中列出的4個同型中有3個在NCBI的nr數(shù)據(jù)庫中完美匹配。
[1]Oligotyping: differentiating between closely related
microbial taxa using 16S rRNA gene data
[2]Oligotyping analysis of the human oral microbiome
[3]Dynamics of tongue microbial communities with single-nucleotide resolution using oligotyping
[4]oligotyping-pipeline
[5]GitHub_oligotyping
[6]expanded Human Oral Microbiome Database (eHOMD)
[7]machine-learning-in-action
[8]q2oligo
[9]Linux系統(tǒng)中NCBI BLAST+本地化教程
[10]python中cPickle用法
[11]OLIGO Primer Analysis Software
[12]Rpackages: oligo
[13]Oligotyping reveals differences between gut microbiomes of free-ranging sympatric Namibian carnivores (Acinonyx jubatus, Canis mesomelas) on a bacterial species-like level
