Single Cell RNA-seq Analysis 學(xué)習(xí)記錄(一):原理理解

前言

這次學(xué)習(xí)的本體是來(lái)自劍橋大學(xué): Vladimir Kiselev, Tallulah Andrews, Davis McCarthy and Martin Hemberg幾位大佬建立的course→Analysis of single cell RNA-seq data以及來(lái)自哈佛大學(xué)醫(yī)學(xué)院的 McCarroll Lab的Computational resources的CookBook

University of Cambridge
Harvard Medical School

NOTIFICATION!:10月30號(hào)和11月1號(hào)有了重大更新,目前僅介紹最新的background,方法學(xué)等更新和學(xué)習(xí)后再論述

取得翻譯許可
Sure, feel free to translate and adapt the course to your audience. It is under GPL-3 license.
——Vladimir Kiselev

正文

第二代測(cè)序技術(shù)的發(fā)展給生物學(xué)的研究帶來(lái)了極大突破。高通量測(cè)序現(xiàn)已被用于研究的各個(gè)領(lǐng)域,Bulk RNA-seq作為其中的突出代表,在比較轉(zhuǎn)錄組學(xué),疾病研究中發(fā)揮著極大的作用。然則其功能依然有著相對(duì)薄弱的地方,例如表達(dá)水平是一群細(xì)胞的相對(duì)平均水平,對(duì)于復(fù)雜的表達(dá)時(shí)刻變化的系統(tǒng)無(wú)法使用,對(duì)于基因表達(dá)的特性也無(wú)法研究。

所以single cell RNA-seq的技術(shù)也應(yīng)運(yùn)而生,這種技術(shù)首先由M Azim Surani及湯富酬創(chuàng)建于2009年,發(fā)表于NATURE METHOD:Tang, Fuchou, Catalin Barbacioru, Yangzhou Wang, Ellen Nordman, Clarence Lee, Nanlan Xu, Xiaohui Wang, et al. 2009. “mRNA-Seq Whole-Transcriptome Analysis of a Single Cell.” Nat. Methods 6 (5): 377–82.
但是直到14年隨著方法的成熟與測(cè)序成本的降低這種方法才漸漸的進(jìn)入大家的視野。

Single-cell 工作流程 OVERVIEW

ingle cell sequencing (taken from Wikipedia)

原理

以Nanoliter Droplets方法為例:
Highly Parallel Genome-wide Expression Profiling of Individual Cells Using Nanoliter Droplets

overview

首先是組織處理得到單細(xì)胞,包裹在單個(gè)的microparticle里面,而microparticle里面又存有包含polyT的beads,于是可以結(jié)合mRNA反轉(zhuǎn)成為cDNA,建成pool進(jìn)行PCR擴(kuò)增,最后混合所有的STAMPs高通量測(cè)序得到數(shù)據(jù)。

microparticle

每個(gè)micro particle上面的序列由四個(gè)部分組成:

  1. 一段一樣的序列,PCR handle用于后續(xù)的PCR擴(kuò)增
  2. bead特異性的barcode,10 - 12bp,用來(lái)區(qū)分單個(gè)細(xì)胞,理論上存在4^12 (16,777,216)個(gè)barcode,也就是說(shuō)最多可以處理1600W個(gè)細(xì)胞
  3. UMI,Unique Molecular Identifier,4 - 8bp,每個(gè)beads上理論存在4^8 (65,536)個(gè)UMI,用來(lái)區(qū)分transcripts,理論上可以區(qū)分6W個(gè)轉(zhuǎn)錄本
  4. 30bp的oligo-dT,用來(lái)捕捉mRNA完成反轉(zhuǎn)錄

數(shù)據(jù)分析流程

這個(gè)課程呢,主要關(guān)注scRNA-seq的到的數(shù)據(jù)處理,mark黃色的部分呢,是適用于高通量測(cè)序的數(shù)據(jù)處理流程;mark橙色的部分呢,則是需要利用已有的處理RNA-seq的工具和一些新開發(fā)的區(qū)分scRNA-seq的方法;mark藍(lán)色的部分,就是需要專門的處理scRNA-seq的軟件來(lái)探究這里面的生物學(xué)意義了。

Flowchart of the scRNA-seq analysis

現(xiàn)有挑戰(zhàn)

單細(xì)胞RNA測(cè)序區(qū)別于混池RNA測(cè)序的地方在于每個(gè)測(cè)序庫(kù)(sequencing library)都代表著一個(gè)單細(xì)胞,所以我們應(yīng)該將著眼點(diǎn)放在比較單個(gè)不同細(xì)胞上(或細(xì)胞群),這種測(cè)序庫(kù)(sequencing library)的差異來(lái)源于一下兩個(gè)方面:

  • Amplification:擴(kuò)增偏差,單個(gè)細(xì)胞初始轉(zhuǎn)錄本的捕捉效率和低輸入會(huì)導(dǎo)致這樣的偏差
  • Gene ‘dropouts’ :基因丟失,有些基因會(huì)在某個(gè)細(xì)胞里檢測(cè)到具有中等表達(dá)水平卻在其它細(xì)胞里面沒有被發(fā)現(xiàn)

以上兩點(diǎn)也正式目前研究較多的領(lǐng)域,大家都致力于消除這些偏差使得數(shù)據(jù)更具有可分析性

實(shí)驗(yàn)方法

Overview of experimental methods for generating scRNA-seq data

目前單細(xì)胞測(cè)序領(lǐng)域非?;馃幔┠陙?lái)涌現(xiàn)出很多測(cè)序方法,包括但不限于:

  • CEL-seq
  • CEL-seq2
  • Drop-seq (原理介紹使用的方法)
  • InDrop-seq
  • MARS-seq
  • SCRB-seq
  • Seq-well
  • Smart-seq
  • Smart-seq2
  • SMARTer
  • STRT-seq

但是即使測(cè)序辦法繁多豐富,但根底里是需要面對(duì)兩個(gè)問題:quantification(定量)和 capture(捕捉)

Quantification(定量)

關(guān)于quantification(定量),目前存有著兩種處理方式:full-length(全長(zhǎng)) and tag-based(標(biāo)簽依賴)
full-length的處理方法旨在對(duì)每個(gè)轉(zhuǎn)錄本獲取統(tǒng)一的測(cè)序覆蓋度,相反tag-based處理方法只捕捉mRNA的5'或3'端,定量處理方法的選擇取決于你后期想要分析的目的。
理論上,full-length的處理可以提供一個(gè)相對(duì)平均的測(cè)序覆蓋度,但是就目前的結(jié)果來(lái)說(shuō)還是存在著很多bias。
而tag-based的優(yōu)勢(shì)在于它可以結(jié)合UMI(前面介紹過(guò))來(lái)提高定量的水平,缺點(diǎn)在于未捕捉完全的轉(zhuǎn)錄本序列,在比對(duì)的時(shí)候無(wú)法區(qū)分iosform (Archer et al. 2016)

Capture(捕捉)

捕捉RNA的策略決定了你的產(chǎn)出,細(xì)胞如何被選擇包括是否攜帶額外信息都值得大做文章。三個(gè)被廣泛運(yùn)用的方法包括:

  • microwell-based
  • microfluidic-based
  • droplet-based
microwell-based

簡(jiǎn)單來(lái)說(shuō),這種方法就是把單個(gè)細(xì)胞利用laser capture或者example pipette的技術(shù)分離到微流體孔里面。這種技術(shù)的既有優(yōu)勢(shì)在于可以結(jié)合FACS分選技術(shù),根據(jù)細(xì)胞表面marker挑選出的合適的細(xì)胞亞群,并且可以對(duì)細(xì)胞形態(tài)進(jìn)行記錄,找出并丟棄損傷細(xì)胞或粘連的非單個(gè)細(xì)胞。這個(gè)技術(shù)的缺陷在于由于分選的局限性導(dǎo)致的低通量,和相匹配的較大的工作量。


Image of microwell plates (image taken from Wikipedia)
microfluidic-based

以Fluidigm’s C1舉例,其提供了一個(gè)整合的細(xì)胞捕獲系統(tǒng),并可以執(zhí)行建庫(kù)前的反應(yīng),所以相對(duì)于microwell-based方法有更高的通量。
但其弊端在于其只能捕獲10%左右的細(xì)胞,所以不太適合應(yīng)用于有較少樣品量或者樣品較為珍惜的情況。

Image of a 96-well Fluidigm C1 chip (image taken from Fluidigm)
droplet-based

這種技術(shù)就是我以上介紹的原理的例子,通過(guò)納升級(jí)別的攜帶beads的小液滴,捕獲單個(gè)細(xì)胞,并在液滴內(nèi)完成建庫(kù),其優(yōu)勢(shì)在于可以定量的鑒別每個(gè)cell內(nèi)的轉(zhuǎn)錄本數(shù)量,劣勢(shì)在于測(cè)序深度低,往往一個(gè)細(xì)胞只有小幾千個(gè)轉(zhuǎn)錄本被檢測(cè)到。


Schematic overview of the drop-seq method (Image taken from Macosko et al)

What platform to use for my experiment?

老生常談
適合的即是最好的。

你所選用的決定于你想要研究什么樣的生物學(xué)問題。
假如想要定義一個(gè)組織內(nèi)細(xì)胞的組成成分,那么droplet-based方法是較為有效的,因?yàn)樗梢圆蹲降较鄬?duì)大數(shù)量級(jí)的細(xì)胞。
換一個(gè)方面來(lái)說(shuō),加入想要去研究一群數(shù)量有限而又知道細(xì)胞表面分子marker的細(xì)胞,那么FACS分選接測(cè)序才是較好的方案。
想要研究可變剪切轉(zhuǎn)錄本,自然需要全長(zhǎng)測(cè)序的實(shí)驗(yàn)方案,這個(gè)時(shí)候tag標(biāo)簽和UMI就成了異常雞肋的存在(當(dāng)然在定量中還是舉足輕重的,要看如何取舍了)。
Enard團(tuán)隊(duì)(Ziegenhain et al. 2017) 和Teichmann團(tuán)隊(duì) (Svensson et al. 2017) 的通過(guò)對(duì)同一個(gè)樣本(mESCs)的測(cè)序和分析比較了現(xiàn)存于市場(chǎng)上的幾種測(cè)序方法,在控制細(xì)胞輸入數(shù)量和測(cè)序深度的時(shí)候,作者得以探究的不同實(shí)驗(yàn)方案特有的敏感性/噪音水平/花費(fèi),結(jié)論可見下圖:

overview

可以發(fā)現(xiàn),不同的實(shí)驗(yàn)方案至多會(huì)造成兩倍的實(shí)驗(yàn)差距,實(shí)驗(yàn)方案的抉擇從一開始就決定了你的實(shí)驗(yàn)結(jié)果的好壞。
針對(duì)檢測(cè)準(zhǔn)確性和敏感性的探究則使用了人工合成的已知濃度的spike-in來(lái)進(jìn)行。


overview

當(dāng)然啦,隨著時(shí)間的進(jìn)展,實(shí)驗(yàn)方法的提高和數(shù)據(jù)分析手段的開發(fā),我們對(duì)于這些單細(xì)胞測(cè)序方法會(huì)有更深層次的了解,但就目前而言,這個(gè)研究可以很好的幫助科研工作者選擇他適合的工具并完成他的目的。


日常Bob鎮(zhèn)樓
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容