引言
本系列講解 空間轉(zhuǎn)錄組學(xué) (Spatial Transcriptomics) 相關(guān)基礎(chǔ)知識(shí)與數(shù)據(jù)分析教程,持續(xù)更新,歡迎關(guān)注,轉(zhuǎn)發(fā),文末有交流群!
背景
基于測(cè)序的空間轉(zhuǎn)錄組學(xué)(ST)平臺(tái)通過使用下一代測(cè)序(NGS)技術(shù),結(jié)合空間條形碼,在組織的不同空間位置上對(duì)基因表達(dá)進(jìn)行定量分析。在平臺(tái)制造和樣本制備過程中,空間位置信息被編碼,并與測(cè)序過程中檢測(cè)到的轉(zhuǎn)錄本相關(guān)聯(lián)。這種關(guān)聯(lián)體現(xiàn)在NGS平臺(tái)測(cè)序生成的序列讀取結(jié)構(gòu)中。
為了進(jìn)行空間數(shù)據(jù)分析,需要將原始測(cè)序數(shù)據(jù)經(jīng)過一系列預(yù)處理步驟,轉(zhuǎn)化為有用的數(shù)據(jù)格式,通常是計(jì)數(shù)矩陣。通過計(jì)數(shù)矩陣,我們可以分析目標(biāo)組織中的基因表達(dá)情況。這些預(yù)處理步驟因平臺(tái)而異,但基本流程是從一系列“讀取序列”開始,最終生成適用于下游分析工具(如Squidpy、Seurat或基于SpatialExperiment對(duì)象的Bioconductor工作流程)的空間數(shù)據(jù)格式。
序列和測(cè)序
在轉(zhuǎn)錄組學(xué)中,“讀取序列”是指從RNA分子逆轉(zhuǎn)錄而來的cDNA片段的核苷酸序列。這些轉(zhuǎn)錄本的豐度反映了基因表達(dá)水平,而這正是轉(zhuǎn)錄組學(xué)分析的核心目標(biāo)。空間轉(zhuǎn)錄組學(xué)的優(yōu)勢(shì)在于能夠?qū)⒆x取序列與RNA分子的起源位置相關(guān)聯(lián),從而揭示基因表達(dá)的空間分布。生成讀取序列的過程通常包括以下幾個(gè)步驟:
- RNA提取
- 逆轉(zhuǎn)錄
- cDNA片段化
- 接頭連接
- PCR擴(kuò)增
由于PCR擴(kuò)增步驟的存在以及RNA提取過程中的不完美性,讀取序列的豐度只能作為基因表達(dá)的相對(duì)指標(biāo),而不能作為絕對(duì)值。因此,在進(jìn)行差異表達(dá)分析等下游分析之前,需要對(duì)數(shù)據(jù)進(jìn)行歸一化處理。在歸一化之前,讀取序列需要經(jīng)過一系列預(yù)處理步驟,構(gòu)建計(jì)數(shù)矩陣或其他等效數(shù)據(jù)結(jié)構(gòu),以便用于后續(xù)分析。
序列結(jié)構(gòu)
在大多數(shù)基于測(cè)序的空間技術(shù)中,讀取序列通常以“配對(duì)末端”的形式記錄,即DNA片段的兩端分別被測(cè)序,并分別存儲(chǔ)在不同的文件中,通常是.fastq格式的文件。其中一個(gè)文件(通常是讀取1)包含條形碼序列,而根據(jù)是否事先對(duì)讀取序列進(jìn)行了修剪,它還可能包含連接序列或其他結(jié)構(gòu)序列。另一個(gè)文件則包含我們需要與參考基因組或轉(zhuǎn)錄組(或探針集)進(jìn)行比對(duì)以確定表達(dá)基因的轉(zhuǎn)錄本(或探針)序列。
以下是BGI STOmics Stereo-seq用戶手冊(cè)中提供的一個(gè)讀取序列結(jié)構(gòu)示例:
在這里,我們可以看到讀取1是從序列左端開始的前50bp,而讀取2是從序列右端開始的最后100bp。
讀取1中包含了25bp的坐標(biāo)ID(CID)、一個(gè)15bp的固定連接序列,以及一個(gè)10bp的分子ID(MID)。
讀取2僅包含一個(gè)100bp長(zhǎng)的轉(zhuǎn)錄本片段。
另一個(gè)例子來自10X Visium CytAssist試劑盒,用于展示基于探針的文庫的結(jié)構(gòu):
在.fastq文件中,每個(gè)讀取序列都包含一個(gè)對(duì)應(yīng)的序列標(biāo)題和質(zhì)量評(píng)分。這里提供了一個(gè)示例(同樣來自BGI STOmics Stereo-seq用戶手冊(cè)),用于說明:

兩條讀取序列的第一行是“標(biāo)題”或“名稱”,用于唯一標(biāo)識(shí)每條讀取序列,并可能包含一些額外信息,例如讀取序列來自測(cè)序儀的哪一條泳道。此外,標(biāo)題部分還可以插入工具生成的附加元數(shù)據(jù),以“注釋”的形式呈現(xiàn)。第二行是測(cè)序轉(zhuǎn)錄本的堿基序列,如前文所述。第三行是一個(gè)間隔行,通常只包含一個(gè)“+”字符,盡管有時(shí)會(huì)在這里重復(fù)標(biāo)題中的讀取序列標(biāo)識(shí)符和注釋。第四行是序列中每個(gè)堿基的讀取質(zhì)量評(píng)分。質(zhì)量評(píng)分的衡量標(biāo)準(zhǔn)會(huì)因測(cè)序儀的版本以及是否使用Q4或Q40文件而有所不同。Q分?jǐn)?shù)是基于p值的對(duì)數(shù)形式,用于衡量對(duì)堿基判定的置信度。p值的確切計(jì)算方法以及讀取序列被判定為不可靠的閾值因平臺(tái)而異,因此如果這些統(tǒng)計(jì)信息對(duì)你的分析很重要,建議仔細(xì)檢查你所使用的工具。
本文由mdnice多平臺(tái)發(fā)布