一、數(shù)據(jù)準(zhǔn)備
1、Mapping文件
Mapping文件為描述測序樣本信息的文件,“數(shù)據(jù)的數(shù)據(jù)”,文件格式為.txt,需手動建立,其基本格式如下:

其中前三列與最后一列為必備列,分別為樣品名,Barcode序列,引物序列,以及樣品描述信息,其余列可自行添加用于樣品分組。
準(zhǔn)備好的Mapping文件需使用validate_mapping_file.py檢驗(yàn)其正確性:
validate_mapping_file.py -m Fasting_Map.txt -o validate_mapping_file_output
2、測序結(jié)果文件
一般情況下,我們得到的是測序公司提供的已分割好的數(shù)據(jù),測序公司會提供已拼接完成的.fastq格式文件,每個(gè)樣品單獨(dú)一個(gè)文件。
將測序文件單獨(dú)放在某一文件夾下,進(jìn)行初步的質(zhì)控、文件合并以及格式整理以用作下一步分析,該步驟通過multiple_split_libraries_fastq.py命令實(shí)現(xiàn)。
multiple_split_libraries_fastq.py -i input_files -o output_folder --demultiplexing_method sampleid_by_file --read_indicator _R1_ --sampleid_indicator _
其中--read_indicator參數(shù)為序列文件名中代表性的特征字符,用于區(qū)分該文件夾下其他文件;--sampleid_indicator參數(shù)為序列文件名中某一字符,其用途為該字符前面的字符將作為后續(xù)分析的樣品ID,例如sample1_L001_R1_001.fastq.gz,_R1_為表征該文件為序列文件的特征字符, _之前的sample1作為該文件對應(yīng)樣品的樣品ID。
該步驟運(yùn)行結(jié)果可得到一個(gè).fasta格式文件,包含所有樣品所有序列,其序列名基本格式為
><sample_id>_<unique_seq_id>
二、OTU劃分
可以利用上步得到的.fasta格式文件直接劃分OTU,可使用pick_de_novo_otus.py命令:
pick_de_novo_otus.py -i $PWD/seqs.fna -o $PWD/uclust_otus/
該命令為一workflow,具體包含以下7條命令:
1、pick_otus.py
pick_otus.py -i seqs.fasta -o picked_otus_defaul
第一步為OTU劃分,-m參數(shù)設(shè)置劃分方法,默認(rèn)采用uclust方法,-s設(shè)置相似度閾值,默認(rèn)值為0.97。該步驟所得結(jié)果文件為:seqs_otus.txt與seqs_otus.log文件。seqs_otus.log為日志文件,記錄相關(guān)參數(shù),seqs_otus.txt文件每行包含OTU_ID以及該OTU下包含的序列名,基本格式如下:

2、pick_rep_set.py
pick_rep_set.py -i seqs_otus.txt -f seqs.fasta -o rep_set1.fasta
第二步為挑選出每個(gè)OTU的代表序列,所有OTU均有一條代表序列,合并為一個(gè)文件,序列名為>OTU_ID sequence_ID文件基本形式如下:

3、align_seqs.py
align_seqs.py -i $PWD/unaligned.fna -t $PWD/core_set_aligned.fasta.imputed -o $PWD/pynast_aligned_defaults/
第三步是對上一步得到的代表序列進(jìn)行對齊操作(Alignment),得到一個(gè)已對齊的.fasta文件,-m參數(shù)設(shè)置方法,默認(rèn)方法為PyNAST。
4、assign_taxonomy.py
assign_taxonomy.py -i repr_set_seqs.fasta -r ref_seq_set.fna -t id_to_taxonomy.txt
第四步是進(jìn)化分類,根據(jù)上步得到的代表序列,確定每個(gè)OTU的進(jìn)化分類,-m參數(shù)設(shè)置方法,默認(rèn)采用uclust consensus taxonomy assigner ,也可以設(shè)置采用RDP方法進(jìn)行分類。該步可得到一log文件和Assignment文件,其形式如下:

5、filter_alignment.py
filter_alignment.py -i seqs_rep_set_aligned.fasta -o filtered_alignment/
第五步是對第三步得到的Alignment文件進(jìn)行剪切,去掉alignment序列中的空格(Gaps),用于下一步構(gòu)建進(jìn)化樹。
6、make_phylogeny.py
make_phylogeny.py -i $PWD/aligned.fasta -o $PWD/rep_phylo.tre
利用上步得到的文件構(gòu)建進(jìn)化樹,-m參數(shù)設(shè)置建樹方法,默認(rèn)采用fasttree。
7、make_otu_table.py
make_otu_table.py -i otu_map.txt -t tax_assignments.txt -o otu_table.biom
最后一步是生成.biom格式的OTU table,OTU table每一列為一樣品,每一行為一OTU以及該OTU在各樣品中出現(xiàn)的次數(shù)。輸入文件為第一步得到的文件。
由于在下一步驟中還需進(jìn)行質(zhì)量控制,所以主要用于下游統(tǒng)計(jì)分析的第5、6兩步可以暫時(shí)跳過。