一、什么是單細(xì)胞測(cè)序?
如果簡(jiǎn)單地說,單細(xì)胞測(cè)序就是獲取單個(gè)細(xì)胞遺傳信息的測(cè)序技術(shù),似乎沒有多大的幫助。為了理解這個(gè)問題,咱們不妨先來了解一下測(cè)序技術(shù)到底可以做些什么。
目前,測(cè)序可以回答以下6類問題:
1. DNA的序列:ATCG怎么排列,以及各序列的豐度;
2. DNA的表觀遺傳修飾:比如甲基化、羥甲基化,以及組蛋白的各種修飾;
3. RNA的序列:AUCG怎么排列,以及各序列的豐度;
4. RNA的表觀遺傳修飾:比如近年很火的m6A修飾;
5. 染色質(zhì)的結(jié)構(gòu):3C、4C、5C等各種C;
6. 其他魔性應(yīng)用:比如DNA損傷位置、蛋白-蛋白相互作用等。
單細(xì)胞測(cè)序,就是想辦法在單細(xì)胞層面去回答以上6類問題。
二、為什么要使用單細(xì)胞測(cè)序?
如果把這個(gè)問題換個(gè)姿勢(shì)來問,那就變成,為什么非用單細(xì)胞測(cè)序不可?
世界上沒有兩片相同的葉子。對(duì)于多細(xì)胞生物來說,細(xì)胞與細(xì)胞之間是有差異的。當(dāng)然了,這個(gè)差異可大可小。
比如說,受精卵從一個(gè)細(xì)胞開始分裂,并逐漸形成囊胚,最終發(fā)育成個(gè)體的時(shí)候,細(xì)胞與細(xì)胞之間的差異會(huì)越來越大:有的分化成神經(jīng)元,有的分化成骨骼肌,各自表達(dá)著不同的遺傳信息,承擔(dān)著不同的生理功能。
又比如在腫瘤組織中,腫塊中心的細(xì)胞,腫塊周圍的細(xì)胞,淋巴轉(zhuǎn)移灶的細(xì)胞,以及遠(yuǎn)端轉(zhuǎn)移的細(xì)胞,其基因組和轉(zhuǎn)錄組等遺傳信息,是存在差異的。而這種差異,在臨床上,可以決定該腫瘤對(duì)某種療法是否有效。
這就是所謂的遺傳信息的異質(zhì)性。
傳統(tǒng)的研究方法,是在多細(xì)胞水平進(jìn)行的。因此,最終得到的信號(hào)值,其實(shí)是多個(gè)細(xì)胞的平均,丟失了異質(zhì)性的信息。為了讓大家能夠更加直觀地理解這個(gè)問題,我們不妨來看下面這張圖:

為了檢測(cè)某個(gè)蛋白質(zhì)的表達(dá)量,我們可以用Western blot和流式細(xì)胞術(shù)來實(shí)現(xiàn)。但是,用Western blot的話,我們并沒有辦法區(qū)分上述的情況:目的蛋白只在10%的細(xì)胞中強(qiáng)表達(dá),還是在50%的細(xì)胞里中等表達(dá),還是在所有細(xì)胞中弱表達(dá)呢?因?yàn)樽罱K電泳跑出來,就是一條差不多強(qiáng)度的帶。但如果用流式細(xì)胞術(shù)這種在單細(xì)胞水平對(duì)熒光強(qiáng)度加以測(cè)定的技術(shù),就能區(qū)分上述的情況了。
同樣道理,單細(xì)胞測(cè)序能夠檢出混雜樣品測(cè)序所無法得到的異質(zhì)性信息。而這將帶領(lǐng)整個(gè)遺傳學(xué)領(lǐng)域進(jìn)入新的次元。
三、如何實(shí)現(xiàn)單細(xì)胞測(cè)序?
目前主要有兩種策略來實(shí)現(xiàn)單細(xì)胞測(cè)序。
第一種,也就是目前大多數(shù)人所想象的那樣,將單個(gè)細(xì)胞分離出來,并獨(dú)立構(gòu)建測(cè)序文庫,最終進(jìn)行測(cè)序的路線。我們可以通過流式細(xì)胞術(shù)(含微流體芯片),或者激光捕獲顯微切割(LCM:激光捕獲顯微切割技術(shù))來實(shí)現(xiàn)。流式細(xì)胞術(shù)估計(jì)大家比較熟悉,就不多講了,它主要運(yùn)用于細(xì)胞樣品。對(duì)于組織切片樣品來說,主要是通過LCM來獲取單細(xì)胞,原理可以見下面的示意圖。

不過,將單細(xì)胞挨個(gè)分離出來再分別建庫測(cè)序,通量非常低,這主要受成本的限制。隨著待測(cè)單細(xì)胞的個(gè)數(shù)的增長(zhǎng),測(cè)序的成本也會(huì)幾乎呈線性提升。通常做十幾二十來個(gè)細(xì)胞,就要燒掉很多錢了。然而,這數(shù)十個(gè)細(xì)胞,就足夠說明問題了嗎?
為了克服這個(gè)困難,近年來多采取第二種策略:基于標(biāo)簽(barcode)的單細(xì)胞識(shí)別。它的主要思想是,給每個(gè)細(xì)胞加上獨(dú)一無二的DNA序列,這樣在測(cè)序的時(shí)候,就把攜帶相同barcode的序列視為來自同一個(gè)細(xì)胞了。這種策略,可以通過一次建庫,測(cè)得數(shù)百上千個(gè)單細(xì)胞的信息。
不過,針對(duì)具體的測(cè)序類型,給細(xì)胞加barcode的方案是有不小的區(qū)別的。對(duì)于RNA(轉(zhuǎn)錄組mRNA)來說,會(huì)比較容易理解一些。由于mRNA測(cè)序前需要做逆轉(zhuǎn)錄,那么我們只需要在poly T引物的5’端加入barcode即可。具體可見下面的示意圖(來自文獻(xiàn)doi:10.1038/nprot.2016.154):

首先將單細(xì)胞懸液樣品和帶有barcode的水凝膠珠子,通過微流體芯片,包裹在一個(gè)油滴之中。在油滴中進(jìn)行逆轉(zhuǎn)錄之后,每一個(gè)單細(xì)胞的cDNA文庫,就帶上了獨(dú)一無二的barcode了(藍(lán)色部分)。最后,我們?cè)賹⑺械膯渭?xì)胞cDNA文庫混在一起測(cè)序,再通過程序識(shí)別barcode,區(qū)分單細(xì)胞。
如果測(cè)序?qū)ο笫荄NA,比如全基因組,就需要用別的方式來加barcode。目前主要是通過一種經(jīng)過改造的高效轉(zhuǎn)座酶(transposase)Tn5來實(shí)現(xiàn)。

基因轉(zhuǎn)座是指轉(zhuǎn)座子DNA從一個(gè)染色體座位“跳躍”到另外一個(gè)座位的過程。在這個(gè)過程中,有轉(zhuǎn)座酶的參與。單細(xì)胞的DNA測(cè)序就利用了這個(gè)特性,將barcode DNA預(yù)先和轉(zhuǎn)座酶Tn5組裝好,再通過上述的微流體技術(shù),將細(xì)胞和轉(zhuǎn)座復(fù)合物包裹在一個(gè)油滴之中。隨后,轉(zhuǎn)座酶會(huì)把barcode插入到基因組DNA之中。這個(gè)過程在文獻(xiàn)中也被成為tagmentation。
不過,基于Tn5的barcode復(fù)雜度(即能有多少獨(dú)一無二的barcode)還是比較有限的。為了保證tagmentation的效率,上圖中紅色的barcode區(qū)域不可以過長(zhǎng)。同時(shí),為了避免測(cè)序錯(cuò)誤帶來的誤識(shí)別(如偶爾測(cè)錯(cuò)了一個(gè)堿基,但卻被當(dāng)成另外一個(gè)barcode),barcode的復(fù)雜度也不是4的n次方那么高,需要引入校正機(jī)制。具體就不展開講了??偟貋碚f,僅靠Tn5來做單細(xì)胞,一次往往僅能識(shí)別數(shù)十到數(shù)百個(gè)單細(xì)胞。
為了提高復(fù)雜度,即一次能夠捕獲的單細(xì)胞數(shù)目,目前的解決方案是走組合索引(combinatorial indexing)路線。(見下圖,來自文獻(xiàn)doi:10.1038/nmeth.4154)

它的主要思路是,通過兩步反應(yīng),加兩次標(biāo)簽。首先,將單細(xì)胞懸液放在多孔板中,并用轉(zhuǎn)座酶Tn5給細(xì)胞加第一個(gè)barcode,這里每個(gè)孔中的barcode是不同的。然后,再將樣品混合起來,通過流式細(xì)胞術(shù),將少量的細(xì)胞分選到含有建庫PCR引物的多孔板中。而這些引物是帶有第二輪barcode的。因此,經(jīng)過Tn5的轉(zhuǎn)座,和PCR加標(biāo)簽,絕大部分的細(xì)胞就能帶上獨(dú)一無二的barcode了。
讀到這里,肯定有人發(fā)現(xiàn)這個(gè)方案存在的問題。舉個(gè)例子,萬一在流式分選時(shí),在第一個(gè)孔里分了兩個(gè)或以上橙色細(xì)胞,然后又通過PCR被加上了紅色的標(biāo)簽,那這兩個(gè)單細(xì)胞就無法被區(qū)分開來了。
確實(shí)如此,combinatorial indexing大概會(huì)有10%的撞車率(collision rate),即約有10%的機(jī)會(huì)把兩個(gè)單細(xì)胞被誤認(rèn)為是同一個(gè)。這個(gè)數(shù)值的高低,取決于第一步tagmentation的復(fù)雜度(復(fù)雜度越高,撞車率越低),以及在分選時(shí),分到每一個(gè)孔里的細(xì)胞數(shù)量(數(shù)量越低,撞車率越低)。但是,combinatorial indexing卻能一次識(shí)別數(shù)千個(gè)單細(xì)胞,將通量提升數(shù)十至上百倍。魚與熊掌,就看實(shí)驗(yàn)者的取舍了。