QIIME2 流程

流程

image.png

1.安裝與啟動

source /share/disk5/lianm/basic_tool/anaconda3/bin/activate qiime2-2019.7
source ~/anaconda3/bin/activate ~/anaconda3/envs/qiime2-2019.4/
conda deactivate

2.文件準(zhǔn)備

(1)Metadata files
https://docs.qiime2.org/2019.7/tutorials/metadata/

metadata

(2)MANIFEST file


Manifest

(3)FASTQ file

3.拆分樣品

4.可視化數(shù)據(jù)質(zhì)量

qiime demux summarize --i-data /share/disk5/zhuqh/16S/QIIME2_190samples/data/single-end-demux_test.qza --o-visualization /share/disk5/zhuqh/16S/QIIME2_190samples/data/single-end-demux_test.qzv

5.DADA2(降噪與聚類)

背景:

DADA2濾除有噪聲的序列,校正不確定序列中的錯誤,去除嵌合序列,去除單體(singletons,出現(xiàn)頻率僅有一次的序列),然后對這些序列進(jìn)行去冗余。
(1)嵌合體序列由來自兩條或者多條模板鏈的序列組成,在16S/18S/ITS 擴(kuò)增子測序的分析中,系統(tǒng)相似度極高,嵌合體可達(dá)1%-20%,需要去除嵌合體序列。示意圖如下:


image.png
參數(shù):

--p-trunc-len-f,表示位置前面的序列將被截?cái)啵?br> --p-trunclen-r,指示讀取的位置后面序列截?cái)啵?br> --p-max-ee,之前序列中超過預(yù)期最大錯誤率將被丟棄(默認(rèn)值為2);
--p-truncq,截?cái)嗟谝粋€(gè)位置質(zhì)量分?jǐn)?shù)等于或小于提供值的序列(默認(rèn)值為2);
--ptrim-left-f and--p-trim-left-r,如果引物存在于輸入序列文件中,可選參數(shù)可以設(shè)置為引物序列的長度,以便去噪。

#Dada2去噪
nohup qiime dada2 denoise-single --i-demultiplexed-seqs /share/disk5/zhuqh/16S/QIIME2_190samples/data/single-end-demux_test.qza --p-trim-left 0 --p-trunc-len 0 --o-representative-sequences 0_rep-seqs.qza --o-table 0_table.qza --o-denoising-stats 0_denoising-single-end-demux_stat.qza --p-n-threads 20 --p-max-ee 8 &
#分析數(shù)據(jù)統(tǒng)計(jì)
qiime metadata tabulate --m-input-file 390_denoising-single-end-demux_stat.qza --o-visualization 390_denoising-single-end-demux_stat.qzv
#table表統(tǒng)計(jì)
qiime feature-table summarize --i-table table.qza --o-visualization table.qzv --m-sample-metadata-file /share/disk5/zhuqh/16S/3groups_with_clinical_info_190/mapping.tsv
#seq表統(tǒng)計(jì)
qiime feature-table tabulate-seqs --i-data rep-seqs.qza --o-visualization rep-seqs.qzv
結(jié)果:

去噪過程輸出兩個(gè)工件:一個(gè)表文件以及代表性的序列文件。

算法:

(1)首先將每個(gè)reads全部看作單獨(dú)的單元,Sequence相同的reads被納入一個(gè)sequence,reads個(gè)數(shù)即成為該sequence的豐度(abundance)(其實(shí)就是去冗余的過程)
(2)計(jì)算每個(gè)sequence豐度的p-value。當(dāng)最小的p-value低于設(shè)定的閾值時(shí),將產(chǎn)生一個(gè)新partition。每一個(gè)sequence將會被歸入最可能生成該
sequence的partition。
(3)依次類推,完成分割歸并。

6.物種分類

feature-classifier包括三種不同的分類方法。
(1)classify-consensus-blast和classify-consensus-vsearch都是基于比對的方法,可以在N個(gè)最好的比對結(jié)果中找一致最高的用于分類。這些方法直接參考數(shù)據(jù)庫FeatureData[Taxonomy]和FeatureData[Sequence]文件,不需要預(yù)先訓(xùn)練。
(2)基于機(jī)器學(xué)習(xí)的分類方法是通過classify-sklearn實(shí)現(xiàn),理論上可以應(yīng)用任何分類方法。必須訓(xùn)練這些分類器,例如,為了解哪些特征可以最好地區(qū)分每個(gè)分類學(xué)組,在分類過程中添加額外的步驟。分類器訓(xùn)練過程是參考數(shù)據(jù)庫和特異的標(biāo)記基因,和每個(gè)標(biāo)記基因/參考數(shù)據(jù)庫組合計(jì)算一次;然后該分類器可以多次使用而不需要重新訓(xùn)練!

#下載物種注釋(一個(gè)預(yù)先訓(xùn)練好的物種注釋分類器)
wget -O "gg-13-8-99-515-806-nb-classifier.qza" "https://data.qiime2.org/2019.4/common/gg-13-8-99-515-806-nb-classifier.qza"
# 物種分類(使用機(jī)器學(xué)習(xí)分類器為序列分配可能的物種注釋)
nohup qiime feature-classifier classify-sklearn --i-classifier gg-13-8-99-515-806-nb-classifier.qza --i-reads 0_rep-seqs.qza --o-classification 0_taxa/0_taxonomy.qza &
# 物種結(jié)果轉(zhuǎn)換表格,可用于查看feature-物種
qiime metadata tabulate --m-input-file /share/disk5/zhengx/suke_qiime/0_taxa/0_taxonomy.qza --o-visualization /share/disk5/zhengx/suke_qiime/0_taxa/0_taxonomy.qzv
#物種分類柱狀圖
qiime taxa barplot --i-table 0_table.qza --i-taxonomy /share/disk5/zhengx/suke_qiime/0_taxa/0_taxonomy.qza --m-metadata-file mapping.tsv --o-visualization /share/disk5/zhengx/suke_qiime/0_taxa/0_taxa-bar-plots.qzv

7.構(gòu)建系統(tǒng)進(jìn)化樹

進(jìn)化樹是基于多序列比對的結(jié)果,可展示豐富的信息,用于Alpha, Beta多樣性分析的輸入文件。

#多序列比對,將去噪序列與mafft對齊
qiime alignment mafft --i-sequences rep-seqs.qza --o-alignment aligned-rep-seqs.qza
#移除高變區(qū)
qiime alignment mask --i-alignment aligned-rep-seqs.qza --o-masked-alignment masked-aligned-rep-seqs.qza
#使用the FastTree method建樹
nohup qiime phylogeny fasttree --i-alignment 0_masked-aligned-rep-seqs.qza --o-tree 0_unrooted-tree.qza --p-n-threads 10 &
#無根樹轉(zhuǎn)換為有根樹(在中間點(diǎn)對樹進(jìn)行根化)
qiime phylogeny midpoint-root --i-tree unrooted-tree.qza --o-rooted-tree rooted-tree.qza

8.Alpha多樣性

Alpha多樣性是計(jì)算樣品內(nèi)物種組成,包括數(shù)量和豐度兩維信息。Alpha多樣性計(jì)算前需要對OTU表進(jìn)行標(biāo)準(zhǔn)化,因?yàn)椴煌瑴y序深度,檢測到的物種數(shù)量會不同。我們將OTU表重抽樣至相同數(shù)據(jù)量,以公平比較各樣品的物種數(shù)量。

#計(jì)算多樣性(生成一系列的系統(tǒng)發(fā)育和非系統(tǒng)發(fā)育多樣性度量;為了比較序列深度不均勻的樣本,樣本中的最小序列數(shù)可用作次采樣深度,也可以稍微降低一點(diǎn),即根據(jù)feature表的統(tǒng)計(jì)結(jié)果中Frequency per sample中minimum frequency,另外輸出文件夾需要提取mkdir core-metrics-results)
nohup qiime diversity core-metrics-phylogenetic --i-phylogeny 0_rooted-tree.qza --i-table 0_table.qza --p-sampling-depth 22663 --m-metadata-file /share/disk5/zhuqh/16S/3groups_with_clinical_info_190/mapping.tsv --output-dir 0_core-metrics-results &
# 統(tǒng)計(jì)Alpha多樣性的Faith’s phylogenetic diversity組間差異是否顯著,輸入多樣性值、實(shí)驗(yàn)設(shè)計(jì),輸出統(tǒng)計(jì)結(jié)果。原理是所有組別和成對Kruskal Wallis檢驗(yàn),一個(gè)非參數(shù)方差分析。
nohup qiime diversity alpha-group-significance --i-alpha-diversity 0_core-metrics-results/faith_pd_vector.qza --m-metadata-file /share/disk5/zhuqh/16S/3groups_with_clinical_info_190/mapping.tsv --o-visualization 0_core-metrics-results/faith-pd-group-significance.qzv &
# 統(tǒng)計(jì)evenness組間差異是否顯著
nohup qiime diversity alpha-group-significance --i-alpha-diversity 0_core-metrics-results/evenness_vector.qza --m-metadata-file /share/disk5/zhuqh/16S/3groups_with_clinical_info_190/mapping.tsv --o-visualization 0_core-metrics-results/sample-metadata.tsv &
#稀疏曲線:反應(yīng)數(shù)據(jù)的飽和度以及組內(nèi)多樣性,一看根據(jù)曲線逐漸持平測試測序深度是否足夠,二是最上面曲線的類別系統(tǒng)發(fā)育多樣性明顯高于其他類別;
qiime diversity alpha-rarefaction   --i-table 0_table.qza   --i-phylogeny 0_rooted-tree.qza   --p-max-depth 80000   --m-metadata-file /share/disk5/zhuqh/16S/3groups_with_clinical_info_190/mapping.tsv   --o-visualization 0_alpha-rarefaction.qzv

9.Beta多樣性

Beta多樣性是計(jì)算各樣品間的相同或不同.

#不同bodysite的unweighted unifrac距離的beta diversity 差異分析
qiime diversity beta-group-significance   --i-distance-matrix 0_2_core-metrics-results/unweighted_unifrac_distance_matrix.qza   --m-metadata-file /share/disk5/zhuqh/16S/3groups_with_clinical_info_190/mapping.tsv   --m-metadata-column Group   --o-visualization 0_2_core-metrics-results/unweighted-unifrac-body-site-significance.qzv   --p-pairwise
#統(tǒng)計(jì)beta多樣性的組間差異是否顯著,PERMANOVA analysis on the BrayCurtis差異分析(通過PERMANOVA和ANOSIM統(tǒng)計(jì)方法)
qiime diversity beta-group-significance   --i-distance-matrix core-metrics-results/unweighted_unifrac_distance_matrix.qza   --m-metadata-file sample-metadata.tsv   --m-metadata-column Subject   --o-visualization core-metrics-results/unweighted-unifrac-subject-group-significance.qzv   --p-pairwise
#基于unweighted-unifrac距離的beta diversity圖形可視化
qiime emperor plot   --i-pcoa 0_2_core-metrics-results/unweighted_unifrac_pcoa_results.qza   --m-metadata-file /share/disk5/zhuqh/16S/3groups_with_clinical_info_190/mapping.tsv   --p-custom-axes DaysSinceExperimentStart   --o-visualization 0_2_core-metrics-results/unweighted-unifrac-emperor-DaysSinceExperimentStart.qzv
#基于bray-curtis距離的beta diversity圖形可視化
qiime emperor plot   --i-pcoa core-metrics-results/bray_curtis_pcoa_results.qza   --m-metadata-file sample-metadata.tsv   --p-custom-axes DaysSinceExperimentStart   --o-visualization core-metrics-results/bray-curtis-emperor-DaysSinceExperimentStart.qzv

【附錄思路】
看測序儀,illumine是正常掉峰,其余測序儀質(zhì)量結(jié)果不規(guī)范;以及保存的資料;
去掉數(shù)據(jù)只影響豐度;
?高峰度的OTU?基于注釋結(jié)果聚類,到門或
?a多樣性看飽和度,是否分析全
?如何挖信息(個(gè)體間差異大,臨床信息,注釋文件是啥,根據(jù)信息重新分組)
?臨床基本信息,數(shù)據(jù)量,導(dǎo)致尿感是一種還是多種?原因是什么?尿培養(yǎng)和16s結(jié)果對比(一致和不一致的比例?注釋的情況?根據(jù)物種可以把原參與人群分為幾類;

mkdir temp
source /software/miniconda/activate    /software/.../qiime2-2019.4/
qiime tools export --input-path table.qza --output-path ./temp/ 
cd out
#格式轉(zhuǎn)換
biom convert -i feature-table.biom -o oyold2.txt

2.qimme2上課所有命令

#請大家在D盤下面新建文件夾qiime2,把data文件夾、gg-13-8-99-515-806-nb-classifier.qza以及sample-metadata.tsv放在qiime2文件夾中

#輸入文件準(zhǔn)備
  cd share
  ll data
#加載數(shù)據(jù)
  qiime tools import --type EMPSingleEndSequences --input-path data --output-path emp-single-end-sequences.qza

#Demultiplexing sequences
  qiime demux emp-single --i-seqs emp-single-end-sequences.qza  --m-barcodes-file sample-metadata.tsv --m-barcodes-column BarcodeSequence --o-per-sample-sequences demux.qza 

  qiime demux summarize --i-data demux.qza  --o-visualization demux.qzv 

  qiime tools view demux.qzv 

#用DADA2方法進(jìn)行質(zhì)控(耗時(shí))
  qiime dada2 denoise-single --i-demultiplexed-seqs demux.qza --p-trim-left 0 --p-trunc-len 120 --o-representative-sequences rep-seqs.qza --o-table table.qza 


#生成feature文件
  qiime feature-table summarize  --i-table table.qza --o-visualization table.qzv --m-sample-metadata-file sample-metadata.tsv 
  qiime feature-table tabulate-seqs --i-data rep-seqs.qza --o-visualization rep-seqs.qzv 
  qiime tools view table.qzv 

#phylogenetic diversity
  #多序列比對
  qiime alignment mafft --i-sequences rep-seqs.qza --o-alignment aligned-rep-seqs.qza
  #移除多變區(qū)
  qiime alignment mask --i-alignment aligned-rep-seqs.qza --o-masked-alignment masked-aligned-rep-seqs.qza
  #構(gòu)建無根樹
  qiime phylogeny fasttree --i-alignment masked-aligned-rep-seqs.qza --o-tree unrooted-tree.qza
  #無根樹轉(zhuǎn)為有根樹
  qiime phylogeny midpoint-root  --i-tree unrooted-tree.qza --o-rooted-tree rooted-tree.qza

#Alpha and beta diversity analysis
  #生成alpha diversity不同指數(shù)和beta diversity不同距離下的結(jié)果:sampling depth 一般為數(shù)據(jù)量最小的樣本的序列數(shù)
  qiime diversity core-metrics-phylogenetic   --i-phylogeny rooted-tree.qza   --i-table table.qza   --p-sampling-depth 1109   --m-metadata-file sample-metadata.tsv   --output-dir core-metrics-results

  #進(jìn)化多樣性差異分析
  qiime diversity alpha-group-significance   --i-alpha-diversity core-metrics-results/faith_pd_vector.qza   --m-metadata-file sample-metadata.tsv   --o-visualization core-metrics-results/faith-pd-group-significance.qzv
  qiime tools view core-metrics-results/faith-pd-group-significance.qz

  #均勻度差異分析
  qiime diversity alpha-group-significance   --i-alpha-diversity core-metrics-results/evenness_vector.qza   --m-metadata-file sample-metadata.tsv   --o-visualization core-metrics-results/evenness-group-significance.qzv

  #不同bodysite的unweighted unifrac距離的beta diversity 差異分析
  qiime diversity beta-group-significance   --i-distance-matrix core-metrics-results/unweighted_unifrac_distance_matrix.qza   --m-metadata-file sample-metadata.tsv   --m-metadata-column BodySite   --o-visualization core-metrics-results/unweighted-unifrac-body-site-significance.qzv   --p-pairwise

  #不同subject的unweighted unifrac距離的beta diversity 差異分析
  qiime diversity beta-group-significance   --i-distance-matrix core-metrics-results/unweighted_unifrac_distance_matrix.qza   --m-metadata-file sample-metadata.tsv   --m-metadata-column Subject   --o-visualization core-metrics-results/unweighted-unifrac-subject-group-significance.qzv   --p-pairwise

  #基于unweighted-unifrac距離的beta diversity圖形可視化
  qiime emperor plot   --i-pcoa core-metrics-results/unweighted_unifrac_pcoa_results.qza   --m-metadata-file sample-metadata.tsv   --p-custom-axes DaysSinceExperimentStart   --o-visualization core-metrics-results/unweighted-unifrac-emperor-DaysSinceExperimentStart.qzv

  #基于bray-curtis距離的beta diversity圖形可視化
  qiime emperor plot   --i-pcoa core-metrics-results/bray_curtis_pcoa_results.qza   --m-metadata-file sample-metadata.tsv   --p-custom-axes DaysSinceExperimentStart   --o-visualization core-metrics-results/bray-curtis-emperor-DaysSinceExperimentStart.qzv

#Alpha rarefaction plotting
  #稀疏曲線:反應(yīng)數(shù)據(jù)的飽和度以及組內(nèi)多樣性
  qiime diversity alpha-rarefaction   --i-table table.qza   --i-phylogeny rooted-tree.qza   --p-max-depth 4000   --m-metadata-file sample-metadata.tsv   --o-visualization alpha-rarefaction.qzv

#Taxonomic analysis(耗時(shí))

  qiime feature-classifier classify-sklearn   --i-classifier gg-13-8-99-515-806-nb-classifier.qza   --i-reads rep-seqs.qza   --o-classification taxonomy.qza  

  qiime metadata tabulate   --m-input-file taxonomy.qza   --o-visualization taxonomy.qzv

  qiime taxa barplot   --i-table table.qza   --i-taxonomy taxonomy.qza   --m-metadata-file sample-metadata.tsv   --o-visualization taxa-bar-plots.qzv

#ANCOM進(jìn)行差異分析
  #對于gut這一組的樣本進(jìn)行差異分析
  qiime feature-table filter-samples   --i-table table.qza   --m-metadata-file sample-metadata.tsv   --p-where "BodySite='gut'"   --o-filtered-table gut-table.qza
  #去掉0值
  qiime composition add-pseudocount   --i-table gut-table.qza   --o-composition-table comp-gut-table.qza
  #不同subject差異分析
  qiime composition ancom   --i-table comp-gut-table.qza   --m-metadata-file sample-metadata.tsv   --m-metadata-column Subject   --o-visualization ancom-Subject.qzv

  #合并屬水平 對gut樣本進(jìn)行差異分析
  qiime taxa collapse   --i-table gut-table.qza   --i-taxonomy taxonomy.qza   --p-level 6   --o-collapsed-table gut-table-l6.qza
  #去掉0值
  qiime composition add-pseudocount   --i-table gut-table-l6.qza   --o-composition-table comp-gut-table-l6.qza
  #不同subject中
  qiime composition ancom   --i-table comp-gut-table-l6.qza   --m-metadata-file sample-metadata.tsv   --m-metadata-column Subject   --o-visualization l6-ancom-Subject.qzv
 

#文件輸出
 #輸出feature table
 qiime tools export  table.qza --output-dir out

 cd out
 #biom格式轉(zhuǎn)換 
biom convert -i feature-table.biom -o oyold2.txt --to-tsv
qiime metadata tabulate   --m-input-file rep-seqs.qza    --m-input-file taxonomy.qza  --o-visualization tabulated-feature-metadata.qzv
qiime tools view tabulated-feature-metadata.qzv 

參考:
擴(kuò)增子分析解讀2提取barcode,質(zhì)控及樣品拆分,切除擴(kuò)增引物

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容