
- PMID: 33288955 https://www.nature.com/articles/s41596-020-00409-w#Sec1
- DOI: 10.1038/s41596-020-00409-w
單細(xì)胞RNA測序(scRNA-seq)是一種流行且功能強大的技術(shù),它允許您分析大量單個細(xì)胞的整個轉(zhuǎn)錄組。然而,分析這些實驗產(chǎn)生的大量數(shù)據(jù)需要專門的統(tǒng)計和計算方法。這里我們概述了處理scRNA序列數(shù)據(jù)所涉及的計算工作流程。我們將討論一些最常見的任務(wù)和解決中心生物學(xué)問題的工具。在本文和我們的指南網(wǎng)站(https://scrnaseq-course.cog.sanger.ac.uk/website/index.html),我們提供有關(guān)執(zhí)行計算分析的最佳實踐的指南。本教程為有興趣分析數(shù)據(jù)的實驗者提供了實踐指南,也為尋求開發(fā)新計算方法的生物信息學(xué)家提供了概述。
請直接閱讀原文并實踐~~
這是一條分割線
介紹
scRNA-seq已成為一種轉(zhuǎn)化技術(shù),用于表征復(fù)雜組織,并回答無法通過批量RNA測序解決的問題。自2009年第一個scRNA-seq協(xié)議發(fā)布以來,許多協(xié)議和商業(yè)平臺已經(jīng)發(fā)布。如今,scRNA-seq實驗有兩種主要模式。最常見的方法是使用顯微鏡下的復(fù)制品或孔來分離大量細(xì)胞,然后對文庫進(jìn)行相對較淺的排序4,5。為了確定給定轉(zhuǎn)錄本來自哪個細(xì)胞,這些方法使用了細(xì)胞?。ǜ皆诿總€讀數(shù)上的短核苷酸標(biāo)簽是液滴或井所特有的)。這種高通量、低深度的模式是使用流行的10×Chromium平臺進(jìn)行實驗的典型模式。這項技術(shù)的一個重要優(yōu)點是它支持獨特的分子標(biāo)識符(UMI)。UMI是在擴增前附加在轉(zhuǎn)錄本上的短條形碼,使得消除聚合酶鏈反應(yīng)重復(fù)并獲得更準(zhǔn)確的表達(dá)水平估計成為可能。一個主要缺點是該平臺僅允許對每個信使RNA(mRNA)的5′或3′端進(jìn)行測序。許多研究采取了相反的方法,即分離相對較少的細(xì)胞,但更深入地排列它們。這些低通量、高深度的實驗通常將細(xì)胞分離到單個孔中,并應(yīng)用Smart-seq2協(xié)議。除了最近引入的Smart-seq3協(xié)議外,這些方法不支持UMIs,但它們通常顯示出比基于液滴的技術(shù)更高的靈敏度,并且它們還允許對整個轉(zhuǎn)錄本進(jìn)行分析。有關(guān)不同平臺的深入概述,請參閱最近的綜述和相關(guān)標(biāo)準(zhǔn)。
除了促進(jìn)實驗工作流程外,最近的創(chuàng)新還大大降低了scRNA-seq的每細(xì)胞成本。因此,就所分析的細(xì)胞數(shù)量而言,出現(xiàn)了指數(shù)增長。鑒于生成的數(shù)據(jù)量巨大,單細(xì)胞數(shù)據(jù)分析需要高效的計算和統(tǒng)計方法。隨著實驗協(xié)議的迅速改進(jìn),處理數(shù)據(jù)的計算工作流也得到了改進(jìn)。本教程的目的是為scRNA序列數(shù)據(jù)提供最常見分析類型的概述。本文旨在作為我們?yōu)榻淌趕cRNA-seq數(shù)據(jù)的計算分析而開發(fā)的課程材料的配套(https://scrnaseq-course.cog.sanger.ac.uk/website/index.html)。該網(wǎng)站于2016年首次推出,并不斷更新,包括新方法,并提供最新的最佳實踐建議。
scRNA序列分析的一個核心組成部分是表達(dá)矩陣,它代表每個基因和細(xì)胞的轉(zhuǎn)錄數(shù)量。工作流程可分為兩個主要部分:1)表達(dá)式矩陣的生成,2)表達(dá)式矩陣的分析(圖1和表1)。盡管我們的在線教程涵蓋了這兩個方面,但這里我們重點介紹了獲得表達(dá)式矩陣后執(zhí)行的分析類型。大多數(shù)基因只在一組細(xì)胞類型中使用,但是,由于在scRNA-seq實驗中普遍使用的起始材料量低和測序深度低,一些基因即使表達(dá)也無法檢測到。結(jié)果是基因表達(dá)矩陣中存在大量的零值,這是一個問題,因為一些零值可以代表細(xì)胞中實際的低或零表達(dá)以及測量過程中的變化。難以區(qū)分這些觀察到的零值并對其進(jìn)行適當(dāng)建模是計算分析的主要挑戰(zhàn)之一。即使是深度測序的數(shù)據(jù)集也可能有約50%的零,而測序深度較低的數(shù)據(jù)集可能有99%的零。相比之下,在非典型批量RNA測序數(shù)據(jù)集中,<20%的數(shù)據(jù)條目為零。

圖1 | 工作流程概述。在典型場景中,研究人員必須首先組合多個實驗中的表達(dá)矩陣,以獲得一個組合表達(dá)矩陣,該矩陣根據(jù)測序深度、細(xì)胞周期階段和其他混雜因素進(jìn)行校正。接下來,數(shù)據(jù)被可視化,并通過聚類、偽時間和差異表達(dá)分析來識別具有生物學(xué)意義的模式。最后,將結(jié)果與文獻(xiàn)和現(xiàn)有數(shù)據(jù)集進(jìn)行比較。
質(zhì)量控制
分析scRNA序列的第一步是排除不太可能代表完整單個細(xì)胞的細(xì)胞條形碼。對于高通量方法,關(guān)鍵步驟是過濾掉不代表單個細(xì)胞的barcode。
最直接的方法是計算需要考慮條形碼作為ACEL11的UMI的數(shù)據(jù)集特定閾值?;蛘?,一些最近開發(fā)的工具,如MPT-HYDROPS12,首先估計存在于空孔或液滴中的RNA的背景水平,然后識別明顯偏離背景的細(xì)胞條形碼,這表明存在細(xì)胞。這種策略的優(yōu)點是,相對于樣本中的其他細(xì)胞,它能夠檢測RNA含量較低的細(xì)胞類型。
不幸的是,這些方法都不能區(qū)分完整的活細(xì)胞和受損或垂死的細(xì)胞。必須執(zhí)行第二輪質(zhì)量控制,考慮檢測到的基因數(shù)量、來自線粒體基因組的 RNA 比例以及每個細(xì)胞不可映射或多映射讀數(shù)的比例。具有高比例的線粒體衍生基因、很少檢測到的基因或高比例的未映射或多映射讀數(shù)的細(xì)胞通常是受損或死亡的細(xì)胞13。 具體閾值通常是通過手動檢查質(zhì)量控制指標(biāo)圖來確定的,因為最佳截止值取決于組織、解離協(xié)議和其他技術(shù)因素。為關(guān)鍵指標(biāo)定義離群細(xì)胞(根據(jù)中值絕對偏差)允許直接構(gòu)建數(shù)據(jù)集特定閾值,但應(yīng)謹(jǐn)慎應(yīng)用,尤其是對于包含高度異質(zhì)細(xì)胞類型的樣本14。