--- 大師,大師,我想學習單細胞
··· 閉上眼睛跟我來
單細胞轉(zhuǎn)錄組數(shù)據(jù)分析系列教程
- sc-RAN-seq 數(shù)據(jù)分析||Seurat新版教程:Guided Clustering Tutorial
- sc-RAN-seq 數(shù)據(jù)分析||Seurat新版教程: Integrating datasets to learn cell-type specific responses
- sc-RAN-seq 數(shù)據(jù)分析||Seurat新版教程: Using sctransform in Seurat
- 單細胞轉(zhuǎn)錄組數(shù)據(jù)分析||Seurat新版教程:Differential expression testing
- 單細胞轉(zhuǎn)錄組 數(shù)據(jù)分析||Seurat新版教程:New data visualization methods in v3.0
- 單細胞轉(zhuǎn)錄組數(shù)據(jù)分析||Seurat并行策略
- Seurat Weekly NO.0 || 開刊詞
- Seurat Weekly NO.1 || 到底分多少個群是合適的?!
- Seurat Weekly NO.2 || 我該如何取子集
- 你到底想要什么樣的umap/tsne圖?
- scRNA-seq擬時分析 || Monocle2 踩坑教程
- scRNA-seq數(shù)據(jù)分析 || Monocle3

Every cell is unique—it occupies an exclusive position in space, carries distinct errors in its copied genome and is subject to programmed and induced changes in gene expression. Yet most DNA and RNA sequencing is performed on tissue samples or cell populations, in which biological differences between cells can be obscured by averaging or mistaken for technical noise.
---
簡史
其實單細胞測序已有十年的歷史了,十年來,通量不斷提升,成本不斷降低,已經(jīng)到了“舊時王謝堂前燕,飛入尋常百姓家”的歷史階段。不信請看《Nature Methods》2013年度技術(shù);《Nature》2017年7月刊的封面推薦 ;《Science》2018十大科學突破榜首。2019年就國內(nèi)的情形的來看,大大小小的測序公司開始布局單細胞測序市場,高通量價格戰(zhàn)不日將拉開序幕。單細胞測序技術(shù)將伴隨著高通量技術(shù)給臨床以及學術(shù)界帶來新的革命。
為什么說他已經(jīng)基本成熟了,因為單細胞測序分析三要素:軟件、數(shù)據(jù)庫、流程(R包,Python庫等)已經(jīng)準備齊全了。一個剛剛考上研究生的年輕人只要拿到測序數(shù)據(jù)就可以做基本的分析,因為高通量技術(shù)的發(fā)展給單細胞測序天然培養(yǎng)了用戶群。比如最近一直被大家學習的在線課程Analysis of single cell RNA-seq data 在公眾號,簡書,知乎已經(jīng)有大量的學習筆記產(chǎn)生了。

那么,為什么要使用單細胞測序?
單細胞基因組測序通過在單個細胞水平上進行測序,解決了用組織樣本無法獲得不同細胞間的異質(zhì)性信息或樣本量太少無法進行常規(guī)測序的難題,為科學家研究單個細胞的行為、機制等提供了新的方向。單細胞基因組測序主要包括四個步驟:單細胞分離→全基因組擴增→高通量測序→數(shù)據(jù)分析。其中,單細胞分離及全基因組擴增對最終結(jié)果的準確性起到了關鍵作用。另一種是提取RNA,構(gòu)建轉(zhuǎn)錄本調(diào)查不同細胞轉(zhuǎn)錄水平的差異。也就是單細胞測序分為:單細胞全基因組測序和單細胞轉(zhuǎn)錄組測序。
世界上沒有兩片相同的葉子。對于多細胞生物來說,在不同的發(fā)育階段細胞與細胞之間是有差異的。當然了,這個差異可大可小。
比如說,受精卵從一個細胞開始分裂,并逐漸形成囊胚,最終發(fā)育成個體的時候,細胞與細胞之間的差異會越來越大:有的分化成神經(jīng)元,有的分化成骨骼肌,各自表達著不同的遺傳信息,承擔著不同的生理功能。
又比如在腫瘤組織中,腫塊中心的細胞,腫塊周圍的細胞,淋巴轉(zhuǎn)移灶的細胞,以及遠端轉(zhuǎn)移的細胞,其基因組和轉(zhuǎn)錄組等遺傳信息,是存在差異的。而這種差異,在臨床上,可以決定該腫瘤對某種療法是否有效。這就是所謂的遺傳信息的異質(zhì)性。
理解單細胞水平的遺傳信息異質(zhì)性,為我們理解遺傳、發(fā)育、疾病機理打開了新的大門。

在科研界單細胞測序技術(shù)也是火的不行。根據(jù)小張聊科研的調(diào)查,以singe cell RNA seq為關鍵詞搜索,通過pubmed的文章檢索 ,在搜索到的1469篇文章中,10分以上的文章有367篇(占比24.98%),5-10分的文章有300篇(占比20.42%),也就是說5分以上的文章占到了45.40%,這個比例可以說是非常高了。
流程

現(xiàn)在有許多處理單細胞測序的流程,比如13年的SAMRT-seq2,12年的CELL-seq,15年的Drop-seq。有一些做單細胞的平臺,包括Fluidigm C1、Wafergen ICELL8、10X Genomics Chromium。發(fā)展到現(xiàn)在常用的就是SAMRT-seq2和10XGenomics流程了。

10X Genomics起源自Drop-Seq技術(shù), 橫向孔道逐個導入凝膠微珠Gel beads,第一個縱向道輸入細胞。當凝膠微珠和細胞碰撞會被吸附在微珠上,然后通過微流控技術(shù)運送到第二個縱向通道(“油管”)。這時就會形成一個個的油滴GEMs(一個油滴就是一個凝膠微珠,也就是一個單細胞),然后收集在EP管中。每一個凝膠微珠都布滿了不同的Barcode和UMI連接的序列,然后再加上PolyT就形成了像“刺”一樣的捕獲抓手,隨后細胞裂解,利用3'端 poly(A) 堿基互補特定抓取mRNA構(gòu)建轉(zhuǎn)錄文庫。據(jù)說可以7分鐘內(nèi)完成100~80,000個細胞的捕獲

在Smart-Seq2方案中,人們在包含游離dNTP和帶有通用5’ 錨定序列的oligo(dT)寡核苷酸的緩沖液中裂解單細胞。之后開展逆轉(zhuǎn)錄,這個反應也在cDNA的3’端添加2-5個無模板的C核苷酸。然后加入模板轉(zhuǎn)換寡核苷酸(TSO),它攜帶了兩個核糖鳥苷和一個修飾鳥苷,在3’端產(chǎn)生LNA,作為最后一個堿基。在第一鏈反應后,利用有限的循環(huán)擴增cDNA。然后通過Tagmentation,利用擴增出的cDNA快速有效地構(gòu)建測序文庫。
優(yōu)點:
- 使用低至50 pg的起始材料。
- 不需要知道m(xù)RNA的序列。
- 不再需要純化步驟。
- 轉(zhuǎn)錄本的覆蓋度改善。
- 高水平的可定位序列。
缺點:
- 并非鏈特異的。
- 只測序poly(A)+ RNA。
這些方案利用現(xiàn)成的試劑,讓研究人員能夠更低成本、更大規(guī)模地開展復雜的單細胞分析。它的組分和原理向大家公開,讓研究人員可進一步對其進行改良。在此之后,許多單細胞測序的新成果涌現(xiàn)。

測序結(jié)束之后就是數(shù)據(jù)的分析了,總體數(shù)據(jù)分析流程如下圖所示,前面三步(黃色)對于任何高通量測序數(shù)據(jù)是通用的,緊隨其后的四步(橙色)是要將傳統(tǒng)RNA-Seq分析中已有的方法和新開發(fā)的方法結(jié)合起來解決scRNA-seq的技術(shù)差異問題,最后的部分(藍色)是使用專門為scRNA-seq開發(fā)的方法來進行生物分析解讀。

作為一個生物信息學分析流程我們可以清楚地看到,這里面的分析三要素:軟件(質(zhì)控,比對等)、數(shù)據(jù)庫(比對、注釋等,如KEGG,GO等)、流程(R包,Python庫等搭建的pipeline用于數(shù)據(jù)分析)。用于單細胞測序分析的軟件、數(shù)據(jù)庫和流程每一項都可以寫一篇文章了,這項工作已經(jīng)有很好的總結(jié)性的文章了。下面主要介紹一下質(zhì)控之后,得到表達矩陣的數(shù)據(jù)分析方法。
方法

由于每個單細胞都是獨特的,不可能開展重復實驗并評估噪音。因此,必須采取一些質(zhì)量控制手段,以確保數(shù)據(jù)的可靠性。專家建議,向每個細胞裂解液中加入已知序列和數(shù)量的合成mRNA,如外源RNA對照聯(lián)盟(ERCC)開發(fā)的加標RNA。這些RNA的讀數(shù)將提供樣本間差異的信息。
- 過濾
根據(jù)基因的表達量等特征,對細胞進行過濾,通常的做法就是指定一個閾值,比如要求一個細胞中檢測到的基因數(shù)必須大于100,才可以進入到下游分析,如果小于這個數(shù)字,就過濾掉該細胞。需要強調(diào)的是,在設定過濾的閾值時,需要人為判斷,這樣的設定方式會受到主觀因素的干擾,所以往往都會指定一個非常小的過濾范圍,保證只過濾掉極少數(shù)的離群值點。
- 歸一化

- 聚類分析
聚類分析用于識別細胞亞型(如細胞異質(zhì)性、細胞分化周期的判定等),如在R包Seurat中,不是直接對所有細胞進行聚類分析,而是首先進行PCA主成分分析,然后挑選貢獻量最大的幾個主成分(也相當于做了特征選擇),用挑選出的主成分的值來進行聚類分析。2019年的Nature Review上面發(fā)表了一篇文章來討論單細胞測序數(shù)據(jù)聚類遇到的挑戰(zhàn),聚類分析是后續(xù)分析的起點,聚類方法的選擇顯得格外重要,同時也是對已有聚類算法的挑戰(zhàn)。
常用的有圖聚類和k-means聚類算法。
-
t-SNE降維分析
多維空間的概念
t-SNE是目前來說效果最好的數(shù)據(jù)降維與可視化方法,但是它的缺點也很明顯,比如:占內(nèi)存大,運行時間長。但是,當我們想要對高維數(shù)據(jù)進行分類,又不清楚這個數(shù)據(jù)集有沒有很好的可分性(即同類之間間隔小,異類之間間隔大),可以通過t-SNE投影到2維或者3維的空間中觀察一下。如果在低維空間中具有可分性,則數(shù)據(jù)是可分的;如果在高維空間中不具有可分性,可能是數(shù)據(jù)不可分,也可能僅僅是因為不能投影到低維空間。

- 差異表達分析(Differential expression analysis)
細胞很多,每個細胞的基因也有很多,那么那些基因才是有意義的呢?需要一些統(tǒng)計手段來把這些基因識別出來,這就是差異表達分析,針對單細胞測序(特別是scRNA-seq)數(shù)據(jù)的特點,已經(jīng)開發(fā)的算法和軟件見下圖:

- mark基因識別
通過差異分析來識別每個cluster下的標記基因,將該cluster下的細胞作為一組,其他cluster下的細胞作為另一組,然后進行差異分析。
- 富集分析
一般提到富集分析,首先想到的就是GO、KEGG這兩把刷子,然后還需要知道兩個重要概念:前景基因、背景基因
前景基因:你關注的要重點研究的基因集;
背景基因:所有的基因集
比如做轉(zhuǎn)錄組測序,一般都要設置處理組和對照組,前景基因是處理和對照的差異基因,背景基因就是兩組樣本的全部表達基因。
另外還有一種是Gene Set Enrichment Analysis 基因集富集分析,用于評估一個基因集的基因在表型相關度排序中的分布趨勢,進而判斷它們對表型的貢獻。

- 蛋白互作網(wǎng)絡分析
蛋白互作網(wǎng)絡(protein protein interaction network,PPI network)分析有助于從系統(tǒng)的角度研究疾病分子機制、發(fā)現(xiàn)新藥靶點等等。一個常用的PPI數(shù)據(jù)庫是STRING數(shù)據(jù)庫。STRING數(shù)據(jù)庫是一個搜索已知蛋白質(zhì)之間和預測蛋白質(zhì)之間相互作用的數(shù)據(jù)庫,該數(shù)據(jù)庫可應用于2031個物種,包含960萬種蛋白和1380萬中蛋白質(zhì)之間的相互作用。蛋白質(zhì)之間的相互作用包括了直接的物理相互作用和間接的功能相關性。

- 單細胞多組學分析
以上介紹的其實都是基于高通量的單細胞轉(zhuǎn)錄組分析思路,開創(chuàng)性的單細胞分析現(xiàn)在能夠?qū)蚪M、表觀基因組、轉(zhuǎn)錄組、蛋白質(zhì)組和代謝組譜系進行分析。Cell旗下的Trends inBiotechnology早在2016年就綜述了為同一的細胞提供復雜的譜系,將不同維度的分析組合成多組學分析的方法。單細胞多組學分析測量同一細胞內(nèi)的細胞狀態(tài)的不同方面的能力有望揭開細胞的基因組、表觀基因、轉(zhuǎn)錄組、蛋白質(zhì)組與代謝組之間的相關聯(lián)系;可以揭示DNA甲基化、染色質(zhì)于轉(zhuǎn)錄起始之間的復雜關系。同時這篇文章也給予單細胞多組學(單細胞系統(tǒng)生物學)極高的評價。一篇評論文章稱:單細胞系統(tǒng)生物學是一個令人興奮的新領域,關注單細胞作為生物學的核心將為基礎科學提供見解,在生物技術(shù)和生物醫(yī)學方法提供有效的應用機會。
新的分析點:
? 批次效應矯正
? RNA velocity分析
? 細胞間通信
? 分析百萬單細胞的軟件
挑戰(zhàn)
- 測序
比較不同細胞(不同測序文庫)的結(jié)果需要格外注意。文庫之間差異的主要來源是:
- 擴增效率和擴增偏好性(部分文庫可擴增多達100萬倍)
- 基因 ‘dropouts’: 基因在一個細胞中呈現(xiàn)中等表達水平,但在另一個細胞中未檢測到表達,這可能來源于scRNA-seq中RNA總量低導致的擴增建庫丟失或RNA表達的隨機性。
取自于單獨一個細胞的低轉(zhuǎn)錄本總量是這兩個文庫差異的一個主要原因。提高轉(zhuǎn)錄本捕獲效率和降低擴增偏好可以降低差異,是目前活躍的研究方向。從后續(xù)課程學習中也可以看 到,合適的標準化和校正方法也可以抵消一部分文庫構(gòu)建引入的噪音。
- 分析
本身高通量測序數(shù)據(jù)給傳統(tǒng)的數(shù)據(jù)分析(主要是統(tǒng)計學)就帶來了挑戰(zhàn),如高緯度、非正態(tài)、高噪聲等。單細胞帶著這些特點加上其較高的通量(一次可測個細胞)、多個數(shù)據(jù)庫的注釋結(jié)果等特點,使得單細胞測序數(shù)據(jù)的分析對數(shù)學知識和計算機資源有著更高的要求。
- 成像技術(shù)
當前,光學顯微鏡,尤其是熒光顯微鏡仍然被許多生物學家經(jīng)常使用。然而作者們認為傳統(tǒng)的光學顯微鏡有一個主要的局限:由于受到衍射現(xiàn)象的影響,無法解析距離小于半個光波的物體。無論使用多高的放大倍數(shù),衍射均使得成像看起來模糊,相互重疊。
盡管在過去的幾年里,超分辨率顯微鏡領域取得了大量的成果,空間分辨率不斷提高,然而由于需要高時間分辨率活細胞成像仍是一個挑戰(zhàn)。
- 走向臨床
除了技術(shù),主要表現(xiàn)在操作規(guī)范以及法律法規(guī)上。
名詞解釋
spike-in control是常用的評估技術(shù)差異的方法, Lun et al.的研究發(fā)現(xiàn)spike-in control 在確定測序過程中的empty Wells和的dead cells有重要作用,因為高的ERCC含量與低質(zhì)量數(shù)據(jù)相關,并且通常是排除的標準。
Spike-in:A molecule or a set of molecules introduced to the sample in order to calibrate measurements and account for technical variation; commonly used examples include external RNA control consortium (ERCC) controls (Ambion/Thermo Fisher Scientific) and Spike-in RNA variant control mixes。一個分子或一組分子引入到樣品中以校準測量并解釋技術(shù)變化;常用的例子包括外部RNA控制聯(lián)合體(Ercc)和spike-in RNA變體控制混合物。nGene代表的是在該細胞中共檢測到的表達量大于0的基因個數(shù),nUMI代表的是該細胞中所有基因的表達量之和,mito.percent代表的是線粒體基因表達量的百分比,一般通過小提琴圖來展示對應的分布
參考:
單細胞測序的知識
單細胞測序綜述
單細胞測序掃盲:是什么?為什么?怎么做?
單細胞RNA測序技術(shù)之入門指南
Single-cell RNA sequencing technologies and bioinformatics pipelines
Seurat:用于分析10X單細胞轉(zhuǎn)錄組數(shù)據(jù)的R包
單細胞轉(zhuǎn)錄組3大R包之Seurat
單細胞轉(zhuǎn)錄組3大R包之scater
單細胞轉(zhuǎn)錄組3大R包之monocle2
單細胞測序技術(shù)之研究必看8篇經(jīng)典綜述
單細胞測序平臺如何選?5種大規(guī)模單細胞測序平臺性能詳解
Analysis of single cell RNA-seq data
Hemberg-lab單細胞轉(zhuǎn)錄組數(shù)據(jù)分析(一)
單細胞基因組測序:從實驗到分析,步步解析
全網(wǎng)第一個單細胞轉(zhuǎn)錄組數(shù)據(jù)分析實戰(zhàn)視頻教程
用這個技術(shù)發(fā)表的文章中,每4篇中就有1篇10分+,還不趕快了解一下!
干貨│一分鐘讀懂單細胞測序
Full-length RNA-seq from single cells using Smart-seq2
單個細胞的測序?Single Cell!
單細胞RNA測序技術(shù)回顧(一):Smart-seq
技術(shù)分享 | 單細胞RNA測序的實驗設計參考
單細胞轉(zhuǎn)錄組數(shù)據(jù)處理綜述
List of software packages for single-cell data analysis, including RNA-seq, ATAC-seq, etc.
數(shù)據(jù)降維與可視化——t-SNE
Conquer-對單細胞數(shù)據(jù)差異表達分析的重新審視
富集分析Enrich me again!
蛋白互作網(wǎng)絡(PPI)分析——STRING數(shù)據(jù)庫
Fluidigm發(fā)布單細胞多組學分析的新方案
綜述】如何同時對單細胞進行多組學研究
Nature methods:單細胞成像新技術(shù)
2015重大技術(shù)進展:單細胞分析、成像
Science:開發(fā)出單細胞生物發(fā)光成像系統(tǒng)
耶魯大學樊榮教授:做單細胞測序技術(shù)臨床轉(zhuǎn)化的拓荒者
Single-cell Transcriptome Study as Big Data
Challenges in unsupervised clustering
of single-cell RNA-seq data
