在別人的電子書,你的電子書,都在bookdown一文中推薦過這一篇教程(https://hemberg-lab.github.io/scRNA.seq.course),從2016年一直更新到2018年,是入門單細胞分析的十分適合的文檔。為了進一步促進學習,生信寶典申請并組織翻譯這篇教程,將在公眾號陸續(xù)推出。最后會有整合版以網(wǎng)頁和PDF格式發(fā)布于易生信平臺。
關于課程
采用高通量測序技術獲取單細胞水平的全轉(zhuǎn)錄組數(shù)據(jù)又稱scRNA-seq已應用越來越廣泛。scRNA-seq的優(yōu)勢是其同時具有單細胞水平的分辨率和基因組范圍的檢測能力,可以解決其他方法如bulk RNA-seq或單細胞RT-qPCR解決不了的問題。然而,分析單細胞數(shù)據(jù)需要新的方法,以前用于bulk RNA-seq的一些計算方法的理論假設也不再適用。
在這個課程,我們討論scRNA-seq可以解決的問題,以及可用的計算和統(tǒng)計學方法。原版課程是劍橋大學生物信息培訓中心授課所用, 但文字版教材適用于任何對scRNA-seq分析感興趣的人。課程每年兩次,材料在開課前更新。
計算工具的數(shù)量增加很快,我們盡力更新至最新技術。這個課程的一個主要限制是我們傾向于使用在R里面實現(xiàn)并且速度相對快的工具 (其他語言實現(xiàn)的工具也通用,關鍵是理解原理)。另外,我們傾向于使用自己或朋友、同事開發(fā)的工具。(譯者注:無可厚非,一是更了解,二是更容易獲取幫助。我們也更傾向于使用自己的繪圖工具ImageGP。)
視頻
視頻課錄制于2017年11月,那時課程章節(jié)更少一些。視頻在Youtube上,https://www.youtube.com/embed/56n77bpjiKo?list=PLEyKDyF1qdOYAhwU71qlrOXYsYHtyIu8n。
GitHub
https://github.com/hemberg-lab/scRNA.seq.course
Docker 鏡像 (RStudio)
課程可以通過安裝了所有依賴包的RStudio的Docker鏡像重現(xiàn)。
確保你的電腦已安裝了Docker,如果沒有,請參照Docker基礎。運行下面命令啟動Docker鏡像:
docker run -d -p 8787:8787 quay.io/hemberg-group/scrna-seq-course-rstudio
這條命令會下載docker鏡像 (看網(wǎng)速快慢,需要一些時間)。下載完成后,會啟動Rstudio服務器版 (里面包含了依賴的程序包和數(shù)據(jù))。
接下來就可以在基因組瀏覽器訪問localhost:8787,使用用戶名和密碼rstudio:rstudio登錄網(wǎng)頁版Rstudio (R語言學習 - 入門環(huán)境Rstudio)。
更多關于運行RStudio docker鏡像的選項見https://hub.docker.com/r/rocker/rstudio-stable/.
譯者注:如果您參加過我們的易生信課程,這些操作都應該比較熟悉了。需要注意的是:1. 確認8787端口有無被占用,尤其是自己在服務器運行過Rstudio server時。2. 如果服務器有外網(wǎng)IP,可以在任何電腦的瀏覽器輸入IP:8787訪問。
譯者注:如果不習慣Docker,或沒有管理員權限,自己在Windows下安裝依賴包也不費事。
手動安裝
如果不使用Docker鏡像,需要克隆或下載course GitHub repository并且在下載后的文件夾中啟動R session。并且需要安裝課程的docker文件: Dockerfile1 和 Dockerfile2中列出的所有包.
許可
所有課程材料遵循 GPL-3協(xié)議. 任何人都可以閱讀這份材料來學習scRNA-seq數(shù)據(jù)分析. 如果應用于教學,除了提供合適的引用外,還請聯(lián)系我們 (英文版:Vladimir Kiselev (vladimir.yu.kiselev@gmail.com),中文版 易生信 train@ehbio.com。)。
課程基礎
課程適用于有Linux/Unix和R基礎的朋友 (藍字可點擊)。
另外,我們也假設您對常規(guī)轉(zhuǎn)錄組的比對和分析,以及常用的計算工具比較熟悉 (39個轉(zhuǎn)錄組分析工具,120種組合評估(轉(zhuǎn)錄組分析工具哪家強-導讀版))。
否則,我們推薦先參加Introduction to RNA-seq and ChIP-seq data analysis 或 Analysis of high-throughput sequencing data with Bioconductor,然后再參加這個課程。
譯者注:生物信息程序基礎和常規(guī)轉(zhuǎn)錄組分析的中文版視頻課程見:易生信原創(chuàng)課程 (如果是微信公眾號,后臺回復 培訓獲取)。
聯(lián)系我們
如果您有任何 評論, 問題 或 建議 請跟我們聯(lián)系。(英文版:Vladimir Kiselev (vladimir.yu.kiselev@gmail.com),中文版 易生信 train@ehbio.com。)。
單細胞RNA-seq簡介
混合RNA-seq
2000年末的重大技術突破,取代微陣列表達芯片被廣泛使用
通過混合大量細胞獲取足夠RNA用于建庫測序,來定量每個基因的平均表達水平
用于比較轉(zhuǎn)錄組,例如比較不同物種的同一組織樣本
量化整體表達特征,如疾病研究中的表達模式
研究異質(zhì)系統(tǒng)方面還有力所不及之處,例如對早期發(fā)育的研究,復雜組織(大腦)的研究
在基因表達隨機性研究方面心有余而力不足
scRNA-seq
是一項由湯富酬等人在2009年首次發(fā)表的新技術。文章發(fā)表于
Nature Method,測序了7個單細胞,兩個卵裂球,兩個野生型卵子,兩個Dicer敲除的卵 子,一個Ago2敲除的卵子。這項技術在2013年被Nature評為年度技術,更簡便的操作流程和較低的測序成本促成單細胞技術的廣泛流行。2018年底,單細胞技術應用于胚胎發(fā)育追蹤評為Science年度突破。
檢測每個基因在大量細胞中的表達水平分布。
可以研究細胞類型特異性轉(zhuǎn)錄調(diào)控的新型生物問題,例如細胞類型鑒定,細胞應答的異質(zhì)性,細胞表達的隨機性,細胞間基因調(diào)控網(wǎng)絡的推斷等
研究中細胞數(shù)目范圍從100個變到10^6個且每年遞增。
目前有許多不同的單細胞Protocol,例如
SMART-seq2,CELL-seq和Drop-seq。還有商業(yè)平臺,包括 Fluidigm C1, Wafergen ICELL8和the 10X Genomics Chromium。
Bulk RNA-seq技術中一些計算分析方法可應用于單細胞分析。
多數(shù)情況下單細胞計算分析需要調(diào)整現(xiàn)有方法或者開發(fā)新方法
工作流程
總體而言,scRNA-seq的實驗方案和bulk RNA-seq的相似。我們將在下一節(jié)一起討論一些最通用的方法。
計算分析
本課程內(nèi)容是scRNA-seq實驗中得到的數(shù)據(jù)進行計算分析??傮w流程如下圖所示,前面三步(黃色)對于任何高通量測序數(shù)據(jù)是通用的,緊隨其后的四步(橙色)是要將傳統(tǒng)RNA-Seq分析中已有的方法和新開發(fā)的方法結合起來解決scRNA-seq的技術差異問題,最后的部分(藍色)是使用專門為scRNA-seq開發(fā)的方法來進行生物分析解讀。
scRNA-seq分析的綜述有幾篇,包括 Computational and Analytical Challenges in Single-Cell Transcriptomics.” Nat Rev Genet 16 (3) 。
目前還有其他平臺可以執(zhí)行上述流程圖中的一步或多步操作:
Falco:是一個單細胞RNA-seq的云處理平臺,更像是一個流程部署和管理工具,一年多未更新了,一般也用不上。能部署的應該都有自己 的一套部署工具,初學者不需要學這么復雜的。有精力,可以學習下其部署理念應用于自己的流程。
SCONE(Single-Cell Overview of Normalized Expression):單細胞RNA-seq質(zhì)量控制和標準化的R包 (一年多沒更新了, Yosef研究 組2018年在Nature method發(fā)表一個單細胞分型的深度學習平臺,
scVI,效果不錯,值得嘗試)
- Seurat :單細胞質(zhì)控,分析和數(shù)據(jù)探索而設計的R包,可以完成獲得定量數(shù)據(jù)后的幾乎所有分析。不少文章的幾個主圖都是來自這個軟件包 。這個軟件包可以作為學習的入門,官網(wǎng)的教程示例寫的很詳細。
- ASAP(Automated Single-cell Analysis Pipeline) :是一款單細胞分析的交互式網(wǎng)絡平臺。從基因表達矩陣開始到后期分析。功能相對比較全,定制化弱一些。學完這份教程,里面的功能都可以自己實現(xiàn)。
挑戰(zhàn)
Bulk RNA-seq和scRNA-seq的主要差別是每個測序文庫代表一個單細胞還是一群細胞。比較不同細胞(不同測序文庫)的結果需要格外注意。文庫之間差異的主要來源是:
擴增效率和擴增偏好性(部分文庫可擴增多達100萬倍)
基因 ‘dropouts’: 基因在一個細胞中呈現(xiàn)中等表達水平,但在另一個細胞中未檢測到表達,這可能來源于
scRNA-seq中RNA總量低導致的擴增建庫丟失或RNA表達的隨機性。
取自于單獨一個細胞的低轉(zhuǎn)錄本總量是這兩個文庫差異的一個主要原因。提高轉(zhuǎn)錄本捕獲效率和降低擴增偏好可以降低差異,是目前活躍的研究方向。從后續(xù)課程學習中也可以看 到,合適的標準化和校正方法也可以抵消一部分文庫構建引入的噪音。