筆記內(nèi)容:
拿到原始數(shù)據(jù)后,在做上游分析之前,需要了解和注意的:
- 16s rRNA是什么,測(cè)它有什么用
- 序列文件(raw sequence data)是怎么來的?
- raw sequence data的簡(jiǎn)要介紹
- checklist: 拿到raw sequence data后,需要check的事情
16s rRNA是什么,測(cè)它有什么用
細(xì)菌的核糖體RNA(rRNA)按照沉降系數(shù)分為5S, 16S, 23S三種。16s rRNA是微生物核糖體RNA的一個(gè)亞基,16s rDNA是編碼該亞基的基因,存在于所有細(xì)菌染色體基因中。測(cè)序是將16S rDNA擴(kuò)增出來,而不是研究RNA。
將翻譯16S rRNA的DNA擴(kuò)增出來測(cè)序,目的為識(shí)別樣本中有哪些原核生物物種(細(xì)菌/古菌),研究物種多樣性。包括他們的相對(duì)豐度及物種構(gòu)成。
為什么可以根據(jù)16S rRNA來識(shí)別其物種?16S rRNA測(cè)序是測(cè)其上若干個(gè)可變區(qū)。這些可變區(qū)是species-specific的,可以根據(jù)這些可變區(qū)的序列特征識(shí)別出其物種。同時(shí)可變區(qū)中穿插著一些保守區(qū)。保守區(qū)則在不同物種之中變化不大,不能用于特異的識(shí)別其屬于哪一個(gè)物種。

灰色部分為可變區(qū)
raw sequence data是怎么來的?
Illumina二代測(cè)序的具體過程可以通過官方視頻了解,十分詳細(xì)。大概是:
- 采集樣品(如糞便,皮膚等), 提取微生物DNA
- 擴(kuò)增DNA:通過橋式擴(kuò)增,得到大量擴(kuò)增的DNA片段
- 測(cè)序:將帶熒光標(biāo)記的疊氮基團(tuán)結(jié)合到待測(cè)鏈上,得到各堿基對(duì)應(yīng)的特定熒光,以此得到測(cè)序結(jié)果。
- output: 測(cè)序得到n個(gè)reads,被output成fastq文件,根據(jù)primer和barcode來整理這些reads,得到各個(gè)樣本的R1和R2,再進(jìn)行后續(xù)分析。
參考wiki
參考illumina官網(wǎng)
官網(wǎng)視頻是youtube的,這里是一個(gè)B站的
另一個(gè)B站視頻
raw sequence data的簡(jiǎn)要介紹
raw sequence data的fastq格式文件,有固定的格式。參考https://en.wikipedia.org/wiki/FASTQ_format


列舉工作中常見的兩種雙端測(cè)序得到的raw seqence data:
-
未分樣本,按批次分文件的下機(jī)序列數(shù)據(jù):
批次a_R1.fastq.gz,批次a_R2.fastq.gz
批次b_R1.fastq.gz,批次b_R2.fastq.gz...
這樣的文件會(huì)附一個(gè)mapping file, 提供了各個(gè)樣本的barcode,F(xiàn)orwardPrimer及ReversePrimer,如下所示。有的只有一邊barcode,有的有雙barcode,下表為雙barcode的例子:
| sampleID | ForwardBarcode | ForwardPrimer | ReverseBarcode | ReversePrimer |
|---|---|---|---|---|
| sample1 | ATGCATCG | AGAGTTTGATCMTGGCTCAG | TAGGACCG | GCTGCCTCCCGTAGGAGT |
| sample2 | ATGCATCG | AGAGTTTGATCMTGGCTCAG | AAGCACTC | GCTGCCTCCCGTAGGAGT |
| ... | ... | ... | ... | ... |

示意圖

fastq格式:比方說這是a批次的R1和R2
-
按樣本分好各文件的序列數(shù)據(jù):
sample1_R1.fastq.gz,sample1_R2.fastq.gz
sample2_R1.fastq.gz,sample2_R2.fastq.gz...
這種data不是很raw,是將1中的下機(jī)數(shù)據(jù)按照mapping file中樣本的信息分好,則得到這樣的文件。由于分好樣本了,基本不需要mapping file。但如果沒有去除adapter和primer,你需要找測(cè)序的人要adapter和primer,并且grep一下看看到底有沒有。
其fastq格式和上面的差不多。在不同的流程和軟件處理的過程中,其header會(huì)根據(jù)分析需求做出改變。
check list:拿到raw sequence data后,開始上游分析前
- 手頭的數(shù)據(jù)測(cè)的是16s的哪個(gè)區(qū)域?v1-v2?v3-v4?v4?,check對(duì)應(yīng)的primer. 將For和Rev的primer在R1和R2的序列中都grep一下。checkR1的file中是否存在ReversePrimer,R2的file中是否存在ForwardPrimer。
如果存在這種“互換”的情況,需要把它們換回來。并且記得將header中R1,R2的信息更新。

image.png
- raw data分好樣本了嗎?沒有的話需要根據(jù)barcode和primer來分樣本,跟測(cè)序合作者要mapping file
mapping file獲取之后,隨機(jī)抽取一些barcode和primer檢查,防止出現(xiàn)1中的問題。以及要檢查primer前的的序列是否真的是barcode。barcode前面是否還有其它前綴序列。
- 分好樣本的為XXR1.fastq, XXR2.fastq這樣的格式,不論是你自己分的還是raw data給到你就是這個(gè),都要check primer和barcode是否還在上面,決定后面是否需要cutadapt。自己cutadapt之后也要check一下,以防cut錯(cuò)了。
- 在R1和R2中隨機(jī)抽取幾條blast看一下方向,是否與R1(+), R2(-)一致。也是防止R1和R2發(fā)生“互調(diào)”的問題。
- 遇到坑了再補(bǔ)充