QIIME2宏基因組學(xué)教程--2024年春季萊頓和蘇黎世教程

最近在qiime2論壇發(fā)現(xiàn)有人發(fā)布了qiime2宏基因組的教程,這里分享一下,只是alpha版本,不成熟,大家謹(jǐn)慎了解。qiime2的專用格式對于折騰宏基因組還是有點不妥的,個人觀點,但是好在他能讓分析標(biāo)準(zhǔn)化,可追溯的話,我覺得還是利大于弊的。
地址在這:宏基因組學(xué)與QIIME 2 - 2024年春季萊頓和蘇黎世教程 - 宏基因組分析與QIIME2
警告
使用 QIIME 2 進(jìn)行的宏基因組學(xué)分析目前處于 alpha 版本。 這意味著您生成的結(jié)果應(yīng)被視為初步結(jié)果,而不是發(fā)布質(zhì)量。 此外,接口可能會發(fā)生更改,并且這些更改可能向后不兼容(這意味著在 QIIME 2 Shotgun Metagenomics 發(fā)行版的一個版本中有效的命令或文件可能不適用于該發(fā)行版的下一個版本)

整體流程圖


總的來說,還是比較全面的,和nf-meta的流程是類似的,是國外比較主流的流程,包含了基于reads的分析,組裝和基于MAG的分析。

摘錄下主要分析步驟

基于reads的分析

基于reads的物種注釋,kraken2啦,適用范圍更廣泛。

qiime moshpit classify-kraken2 \
    --i-seqs ./moshpit_tutorial/cache:workshop-reads \
    --i-kraken2-db ./moshpit_tutorial/cache:kracken_standard \
    --p-threads 40 \
    --p-confidence 0.6 \
    --p-minimum-base-quality 20 \
    --o-hits ./moshpit_tutorial/cache:workshop_kraken_db_hits \
    --o-reports ./moshpit_tutorial/cache:workshop_kraken_db_reports \
    --p-report-minimizer-data \
    --use-cache ./moshpit_tutorial/cache \
    --parallel-config slurm_config.toml \
        --verbose \
        --p-memory-mapping False ##set to False to shorten runtime
qiime moshpit estimate-bracken \
    --i-bracken-db ./moshpit_tutorial/cache:bracken_standard \
    --p-read-len 100 \
    --i-kraken-reports ./moshpit_tutorial/cache:workshop_kraken_db_reports \
    --o-reports ./moshpit_tutorial/kraken-outputs/bracken-reports.qza \
    --o-taxonomy ./moshpit_tutorial/kraken-outputs/taxonomy-bracken.qza \
    --o-table ~./moshpit_tutorial/kraken-outputs/table-bracken.qza

基于組裝的分析

megahit,同樣主流的軟件啦!

恢復(fù)宏基因組組裝基因組 (MAG) 的第一步是基因組組裝本身。有許多基因組組裝器可用,其中兩個您可以通過我們的 QIIME 2 插件使用 - 在這里,我們將使用 MEGAHIT。MEGAHIT 采用短的 DNA 測序讀數(shù),構(gòu)建簡化的 De Bruijn 圖,并生成更長的連續(xù)序列(稱為重疊群),為我們下一步的分析提供有價值的遺傳信息。

qiime assembly assemble-megahit \
    --i-seqs "./moshpit_tutorial/cache:reads_no_host" \
    --p-presets "meta-sensitive" \
    --p-num-cpu-threads 64 \
    --p-num-partitions 4 \
    --o-contigs "./moshpit_tutorial/cache:contigs" \
    --verbose

使用 QUAST 的 Contig QC

一旦讀取片段被組裝成重疊群,我們就可以使用 QUAST 來評估我們的組裝質(zhì)量。

qiime assembly evaluate-contigs \
    --i-contigs "./moshpit_tutorial/cache:contigs" \
    --p-threads 128 \
    --p-memory-efficient \
    --o-visualization "./moshpit_tutorial/results/contigs.qzv" \
    --verbose

alpha多樣性分析中,還可以使用線性混合效應(yīng)模型來管理數(shù)據(jù)集中的重復(fù)測量。

qiime longitudinal linear-mixed-effects \
  --m-metadata-file sample-metadata.tsv ./contigs/obs-features-autofmt-contigs.qza \
  --p-state-column day-relative-to-fmt \
  --p-group-columns autoFmtGroup \
  --p-individual-id-column PatientID \
  --p-metric "observed_features" \
  --o-visualization ./contigs/lme-obs-features-treatmentVScontrol-contigs.qzv

基于 MAG 的分析

讓我們開始使用各種工具和方法將重疊群分箱到 MAG 中!
讀取映射
我們首先需要對組裝步驟中獲得的重疊群進(jìn)行索引,并使用該索引將原始讀數(shù)映射到這些重疊群。然后,重疊群 binner 可以使用這種讀取映射來找出哪些重疊群來自同一基因組并將它們放在一起。

  --i-contigs  "./moshpit_tutorial/cache:contigs"  \
  --p-seed  100  \
  --p-threads  64  \
  --p-verbose  \
  --p-num-partitions  4  \
  --o-index  "./moshpit_tutorial/cache:contigs_index"  \
  --verbose
qiime  assembly  map-reads-to-contigs  \
  --i-indexed-contigs  "./moshpit_tutorial/cache:contigs_index"  \
  --i-reads  "./moshpit_tutorial/cache:reads_no_host"  \
  --p-seed  100  \
  --p-threads  64  \
  --p-num-partitions  4  \
  --o-alignment-map  "./moshpit_tutorial/cache:reads_to_contigs"  \
  --verbose

分箱

最后,我們準(zhǔn)備執(zhí)行重疊群分箱。這個過程涉及根據(jù)重疊群可能來自混合群落內(nèi)不同微生物物種或菌株的可能來源,將重疊群分類為不同的箱或組。在這里,我們將使用 MetaBAT 2 工具,該工具使用四核苷酸頻率和豐度(覆蓋率)信息將重疊群分配給各個 bin。

  --i-contigs  "./moshpit_tutorial/cache:contigs"  \
  --i-alignment-maps  "./moshpit_tutorial/cache:reads_to_contigs"  \
  --p-seed  100  \
  --p-num-threads  128  \
  --p-verbose  \
  --o-mags  "./moshpit_tutorial/cache:mags"  \
  --o-contig-map  "./moshpit_tutorial/cache:contig_map"  \
  --o-unbinned-contigs  "./moshpit_tutorial/cache:unbinned_contigs"  \
  --verbose

此步驟生成了幾個項目:

  • mags.qza:這些是我們每個樣品的實際 MAGS。

  • contig-map.qza:這是 MAG ID 與屬于給定 MAG 的重疊群 ID 之間的映射。

  • unbinned-contigs.qza:這些是無法分配給任何特定 MAG 的所有重疊群。 從這里開始,我們將重點介紹 mags.qza 工件。

使用 BUSCO 進(jìn)行 MAGs 質(zhì)量控制

這里使用 BUSCO 通過搜索基因組內(nèi)的單拷貝直系同源基因來評估 MAGs 的完整性和質(zhì)量。

  --i-bins  "./moshpit_tutorial/cache:mags"  \
  --p-lineage-dataset  bacteria_odb10  \
  --p-cpu  196  \
  --o-visualization  "./moshpit_tutorial/results/mags.qzv"  \
  --verbose```

### BUSCO QC[](https://cap-lab.bio/q2-books/80-leiden-tutorial.html#busco-qc "Permalink to this heading")

在這里,我們將查看我們的 BUSCO 結(jié)果,以評估 MAG 的完整性和質(zhì)量!

```wget  -O  busco-qc.qzv  https://polybox.ethz.ch/index.php/s/fzAA003m6UVw5je/download
  1. </details>

獲取我們的 Kraken2 報告

QIIME 2 不會阻止您使用您最喜歡的工具及其輸出!首先,讓我們從此數(shù)據(jù)集中獲取一個包含 Kraken 2 注釋 MAG 的工件。我們將用 pavian 可視化其中一些。

Kraken2 注釋報告導(dǎo)出

現(xiàn)在,讓我們導(dǎo)出這個 QIIME 工件并進(jìn)行探索!

  --input-path  kraken2-reports-mags-derep.qza  \
  --output-path  kraken2-reports-mags-derep

Provenance 重播

如果不回顧我們在本教程中運(yùn)行的所有命令,你們中有多少人有信心從內(nèi)存中重新運(yùn)行我們的分析?如果你對此沒有信心,你并不孤單!很難記住您為過去的分析運(yùn)行的確切命令(或試圖找出其他人從外部分析中運(yùn)行的命令)是很常見的。即使你寫下了你所采取的所有步驟,人類也會犯錯,我們的記憶也不完美。

每個 QIIME 2 結(jié)果(即 Artifact 或 Visualization)都包含可參考的來源,這些來源可以用作參考來重建用于生成所述結(jié)果的命令。讓我們以基于讀取的分析中的可視化之一為例,看看與其中一個可視化相關(guān)聯(lián)的來源!

雖然使用 Provenance 手動重建用于生成結(jié)果的命令對于一兩個結(jié)果來說是一個合理的工作流程,但我們需要一個自動化程度更高的解決方案來重建命令以進(jìn)行更大規(guī)模的分析,例如我們在本研討會中運(yùn)行的分析。幸運(yùn)的是,Provenance Replay 可以幫我們處理這個問題!

首先,我們將對本教程中生成的所有基于讀取的結(jié)果運(yùn)行 provenance replay。我們可以在整個目錄上運(yùn)行 provenance replay。這將為我們提供一個重播補(bǔ)充,其中包含用于生成每個結(jié)果的所有上游命令、與使用的每個命令相關(guān)的任何相關(guān)引用(以 BibTex 格式)以及每個命令中使用的記錄元數(shù)據(jù)。

--in-fp  ./reads  \
--out-fp  reads-replay-output

您可以自己嘗試為所有基于 contig 的結(jié)果生成重播補(bǔ)充,并重建該分析中使用的一些命令!

由 Bokulich 和 Caporaso Labs? 版權(quán)所有 2024。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容