QIIME基礎(chǔ)應(yīng)用(一)

一、數(shù)據(jù)準(zhǔn)備

1、Mapping文件

Mapping文件為描述測序樣本信息的文件,“數(shù)據(jù)的數(shù)據(jù)”,文件格式為.txt,需手動建立,其基本格式如下:


其中前三列與最后一列為必備列,分別為樣品名,Barcode序列,引物序列,以及樣品描述信息,其余列可自行添加用于樣品分組。

準(zhǔn)備好的Mapping文件需使用validate_mapping_file.py檢驗(yàn)其正確性:

validate_mapping_file.py -m Fasting_Map.txt -o validate_mapping_file_output

2、測序結(jié)果文件

一般情況下,我們得到的是測序公司提供的已分割好的數(shù)據(jù),測序公司會提供已拼接完成的.fastq格式文件,每個(gè)樣品單獨(dú)一個(gè)文件。

將測序文件單獨(dú)放在某一文件夾下,進(jìn)行初步的質(zhì)控、文件合并以及格式整理以用作下一步分析,該步驟通過multiple_split_libraries_fastq.py命令實(shí)現(xiàn)。

multiple_split_libraries_fastq.py -i input_files -o output_folder --demultiplexing_method sampleid_by_file --read_indicator _R1_ --sampleid_indicator _

其中--read_indicator參數(shù)為序列文件名中代表性的特征字符,用于區(qū)分該文件夾下其他文件;--sampleid_indicator參數(shù)為序列文件名中某一字符,其用途為該字符前面的字符將作為后續(xù)分析的樣品ID,例如sample1_L001_R1_001.fastq.gz,_R1_為表征該文件為序列文件的特征字符, _之前的sample1作為該文件對應(yīng)樣品的樣品ID。

該步驟運(yùn)行結(jié)果可得到一個(gè).fasta格式文件,包含所有樣品所有序列,其序列名基本格式為

><sample_id>_<unique_seq_id>

二、OTU劃分

可以利用上步得到的.fasta格式文件直接劃分OTU,可使用pick_de_novo_otus.py命令:

pick_de_novo_otus.py -i $PWD/seqs.fna -o $PWD/uclust_otus/

該命令為一workflow,具體包含以下7條命令:

1、pick_otus.py

pick_otus.py -i seqs.fasta -o picked_otus_defaul

第一步為OTU劃分,-m參數(shù)設(shè)置劃分方法,默認(rèn)采用uclust方法,-s設(shè)置相似度閾值,默認(rèn)值為0.97。該步驟所得結(jié)果文件為:seqs_otus.txt與seqs_otus.log文件。seqs_otus.log為日志文件,記錄相關(guān)參數(shù),seqs_otus.txt文件每行包含OTU_ID以及該OTU下包含的序列名,基本格式如下:

2、pick_rep_set.py

pick_rep_set.py -i seqs_otus.txt -f seqs.fasta -o rep_set1.fasta

第二步為挑選出每個(gè)OTU的代表序列,所有OTU均有一條代表序列,合并為一個(gè)文件,序列名為>OTU_ID sequence_ID文件基本形式如下:

3、align_seqs.py

align_seqs.py -i $PWD/unaligned.fna -t $PWD/core_set_aligned.fasta.imputed -o $PWD/pynast_aligned_defaults/

第三步是對上一步得到的代表序列進(jìn)行對齊操作(Alignment),得到一個(gè)已對齊的.fasta文件,-m參數(shù)設(shè)置方法,默認(rèn)方法為PyNAST。

4、assign_taxonomy.py

assign_taxonomy.py -i repr_set_seqs.fasta -r ref_seq_set.fna -t id_to_taxonomy.txt

第四步是進(jìn)化分類,根據(jù)上步得到的代表序列,確定每個(gè)OTU的進(jìn)化分類,-m參數(shù)設(shè)置方法,默認(rèn)采用uclust consensus taxonomy assigner ,也可以設(shè)置采用RDP方法進(jìn)行分類。該步可得到一log文件和Assignment文件,其形式如下:

5、filter_alignment.py

filter_alignment.py -i seqs_rep_set_aligned.fasta -o filtered_alignment/

第五步是對第三步得到的Alignment文件進(jìn)行剪切,去掉alignment序列中的空格(Gaps),用于下一步構(gòu)建進(jìn)化樹。

6、make_phylogeny.py

make_phylogeny.py -i $PWD/aligned.fasta -o $PWD/rep_phylo.tre

利用上步得到的文件構(gòu)建進(jìn)化樹,-m參數(shù)設(shè)置建樹方法,默認(rèn)采用fasttree。

7、make_otu_table.py

make_otu_table.py -i otu_map.txt -t tax_assignments.txt -o otu_table.biom

最后一步是生成.biom格式的OTU table,OTU table每一列為一樣品,每一行為一OTU以及該OTU在各樣品中出現(xiàn)的次數(shù)。輸入文件為第一步得到的文件。

由于在下一步驟中還需進(jìn)行質(zhì)量控制,所以主要用于下游統(tǒng)計(jì)分析的第5、6兩步可以暫時(shí)跳過。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容