今天我們繼續(xù)更新在微生物多樣性研究過程中涉及到的知識點和常見的分析方法辨析。希望能給初入研究的小白在連載中濾清思路、獲得啟發(fā)。
菌群多樣性分析是通過測序技術對微生物基因組中的marker基因(細菌為16S序列,真菌為18S或ITS序列)全長區(qū)段或部分區(qū)段進行測序從而得到環(huán)境樣本中微生物種類和豐度信息的,基于現(xiàn)在的基因測序技術和菌群多樣性的研究目的,對于marker基因的擴增、測序絕大多是通過二代測序技術來實現(xiàn)的。

圖:細菌16S rDNA 結構 來源:Lc Sciences
二代測序技術,也稱高通量測序技術,其便宜、通量大、準確性高,是基因測序技術中的“半壁江山”,其下機數(shù)據(jù)也很有特點:
1、采用雙端測序方法,一個樣本對應兩條序列數(shù)據(jù);
2、下機數(shù)據(jù)都為短序列(150-250bp)(與二代測序測序原理有關)
3、序列末端堿基質量較低

圖:現(xiàn)今主流二代測序平臺 來源:Illunina官網
圖:現(xiàn)今主流二代測序平臺 來源:Illunina官網
在微生態(tài)的研究中,分析過程中的物種、豐度的信息全部是基于原始數(shù)據(jù)獲得的,如果使用含有低質量堿基的序列進行后續(xù)分析的話,一定會造成最終分析結果的失真。
所以我們在拿到下機數(shù)據(jù)的第一步,必須進行序列的質量控制,去除低質量序列。
一般的質控流程為:
1、切除序列尾端堿基質量小于指定值(一般為20)的堿基。
去除方法一般分為兩種,一種是簡單的單堿基修剪,從末端開始依次讀取堿基的質量值,若質量值小于指定值則進行刪除,直到讀取堿基質量高于指定值為止;
第二種方法是進行滑窗修剪,設定堿基數(shù)量滑窗,從末端開始以滑窗為單位進行修剪,直到滑窗內堿基平均質量均高于指定值。
2、過濾修剪后長度小于指定值的序列(通常為50bp)。
3、去除含N堿基的序列。
上述流程為通用流程,具體的過濾參數(shù)和步驟也會因測序公司的不同/實驗室的不同有所差異。
通常我們稱下機后的原始數(shù)據(jù)為 raw data ,質控后的數(shù)據(jù)為clean data。
搞定好數(shù)據(jù)質量問題下一步就可以通過序列的聚類與注釋了解物種和豐度信息了。
如何進行物種注釋,趕快去看之前的文章吧~菌群多樣性分析-OTU聚類與注釋
更多微生態(tài)相關文章: