本節(jié)起所有命令都是基于macOS10.13.6和Qiime1.9.1。本篇主要參考博文https://blog.csdn.net/leadingsci/article/details/80772454
侵刪
FASTA與FASTQ文件有什么區(qū)別?
FASTA:FASTA格式是一種用于記錄核酸序列或肽序列的文本格式,其中的核酸或氨基酸均以單個(gè)字母編碼呈現(xiàn),該格式同時(shí)還允許在序列之前定義名稱和編寫注釋。
FASTQ:FASTQ格式是一種保存生物序列(通常為核酸序列)及其測(cè)序質(zhì)量得分信息的文本格式,序列與質(zhì)量得分皆由單個(gè)ASCII字符標(biāo)示。具體格式介紹可以見(jiàn)之前的文章:FASTQ格式說(shuō)明
通常來(lái)講,我們不論是自己測(cè)序得到的或者是從公司獲得的測(cè)序文件都是FASTQ格式。但是如果我們從GEO數(shù)據(jù)庫(kù)下載其他人的數(shù)據(jù)時(shí),有時(shí)候可能會(huì)下載到不含測(cè)序質(zhì)量的FASTA格式。
什么是Barcode?
因?yàn)闇y(cè)序儀的通量很高,一臺(tái)測(cè)序儀擁有多個(gè)數(shù)據(jù)量可以達(dá)到千萬(wàn)級(jí)別的文庫(kù),并且通過(guò)index區(qū)分不同的文庫(kù)。而我們獲得16S的數(shù)據(jù)之后可以發(fā)現(xiàn)每個(gè)樣本的數(shù)據(jù)量很?。◤奈募笮【涂梢钥闯鰜?lái)),因此實(shí)際上我們是將多個(gè)樣品混合在一起構(gòu)建成一個(gè)測(cè)序文庫(kù),而不是一個(gè)樣品單獨(dú)成為一個(gè)測(cè)序文庫(kù)。
那么為了區(qū)分在同一個(gè)文庫(kù)中來(lái)自不同樣品的序列,我們就需要給序列貼上唯一的標(biāo)識(shí)符,這個(gè)標(biāo)識(shí)符就是在序列引物外側(cè)的Barcode了。通常barcode的長(zhǎng)度為12bp。
原始測(cè)序數(shù)據(jù)有哪些?
通常通過(guò)MiSeq儀器測(cè)序會(huì)獲得三個(gè)文件。包含'_R1_' 的是forward 序列,包含'_R3_'的是reverse序列,包含'_R2_'的是barcode序列。為了確保無(wú)誤,可以確認(rèn)一下含有R2的文件大小是否小于其他兩個(gè)文件。
如果獲得的是來(lái)自于公司的文件,通常公司已經(jīng)進(jìn)行過(guò)分樣處理。所謂的分樣處理,就是將forward 序列或reverse序列按照樣本來(lái)源即根據(jù)Barcode進(jìn)行分類并切除引物,最終形成單個(gè)樣品自己的forward 序列和reverse序列。因此,我們最后獲得的可能是每個(gè)樣本的forward 序列和reverse序列,而沒(méi)有上述的barcode文件及整合的forward 序列和reverse序列文件。
導(dǎo)入序列文件
我們一般從公司獲得都是雙端測(cè)序已經(jīng)除去barcode和引物的,按照分樣(根據(jù)樣品分類)完畢的數(shù)據(jù)。所以第一步我們通過(guò)flash軟件對(duì)R1和R2序列數(shù)據(jù)進(jìn)行拼接。
合并序列
#安裝flash軟件
conda install flash
#查看使用方法
flash -h
#拼接序列 2>&1表示將標(biāo)準(zhǔn)錯(cuò)誤重新定向到標(biāo)準(zhǔn)輸出
#大家可以對(duì)比有無(wú) >joined/1.log 會(huì)發(fā)現(xiàn)沒(méi)有這段代碼表示程序運(yùn)行的結(jié)果輸出到屏幕,有則生成文件1.log
#可以自行修改默認(rèn)參數(shù)具體見(jiàn)flash -h
mkdir joined
flash rawdata/1_R1_.fastq.gz rawdata/1_R2_.fastq.gz -o 1 -d joined/ >joined/1.log 2>&1
flash rawdata/2_R1_.fastq.gz rawdata/2_R2_.fastq.gz -o 2 -d joined/ >joined/2.log 2>&1
輸出結(jié)果:
-1.extendedFrags.fastq 拼接后的序列
-1.notCombined_1.fastq R1中沒(méi)有成功拼接的序列
-1.notCombined_2.fastq R2中沒(méi)有成功拼接的序列
-1.hist 拼接序列的長(zhǎng)度的直方圖(Numeric)
-1.histogram 拼接序列的長(zhǎng)度的直方圖(Visual)
-1.log 程序運(yùn)行日志
保留合并后文件和mapping文件
mkdir 1
mv joined/1.extendedFrags.fastq map/1.txt 1/
mkdir 2
mv joined/2.extendedFrags.fastq map/2.txt 2/
合并后序列質(zhì)控
#具體參數(shù)可以見(jiàn)split_libraries_fastq.py -h
split_libraries_fastq.py -i 1/1.extendedFrags.fastq -m 1/1.txt -q 30 --barcode_type not-barcoded --sample_id 1 -o 1 --store_demultiplexed_fastq
split_libraries_fastq.py -i 2/2.extendedFrags.fastq -m 2/2.txt -q 30 --barcode_type not-barcoded --sample_id 2 -o 2 --store_demultiplexed_fastq
注意:這一步?jīng)]有-m參數(shù)也可以,但是要注意--sample_id這個(gè)參數(shù)后面與mapping中的要求一致,只能使用“.”和字母數(shù)字,否則后續(xù)生成的文件會(huì)出錯(cuò)。
輸出文件:

合并所有的fna文件
#利用cat命令
cat */*.fna> seq.fna
導(dǎo)入其他格式的序列文件
導(dǎo)入其他格式的序列文件可以參考qiime1的教程。