單細(xì)胞RNA-seq入門文獻(xiàn)學(xué)習(xí)

單細(xì)胞的RNA-seq我從來沒有接觸過,所以要從頭開始學(xué)習(xí)。但是用王院長(zhǎng)的話就是:“不是和普通的RNA-seq差不多嘛!”。。。當(dāng)然了,對(duì)于他那種專家級(jí)別的當(dāng)然什么樣的分析都是差不多的,但是對(duì)于我一個(gè)白的不能再白的小白來說,這是一塊還比較復(fù)雜比較難啃的骨頭。在網(wǎng)上搜了幾篇文獻(xiàn),放在這篇文章里供需要的同學(xué)一起學(xué)習(xí)。這里只放了4篇文獻(xiàn),對(duì)于要深刻理解單細(xì)胞測(cè)序是遠(yuǎn)遠(yuǎn)不夠的。前兩篇我寫的筆記比較詳細(xì),后兩篇我只是非常簡(jiǎn)要的寫了文章主要講了些啥。

1.Single-cell RNA sequencing: Technical advancements and biological appications

這篇文章主要是對(duì)單細(xì)胞的RNA-seq做了一個(gè)很簡(jiǎn)單的介紹,包括這項(xiàng)技術(shù)的發(fā)展過程和幾種測(cè)序的方法,以及每種方法的優(yōu)點(diǎn)和缺點(diǎn),還介紹了一些空間單細(xì)胞RNA-seq技術(shù)的介紹。但通篇沒有深入的介紹分析過程。算是一篇比較淺顯易懂的綜述,篇幅也不長(zhǎng)。

這里有一篇文章是對(duì)這篇文獻(xiàn)的全文翻譯:http://www.itdecent.cn/p/72d300d1317a
我沒仔細(xì)的看,直接下載了原文看,并且也只是標(biāo)記了一些知識(shí)點(diǎn),懶得看原文的同學(xué)可以直接移步上述這個(gè)鏈接。下面幾點(diǎn)是我標(biāo)注的知識(shí)點(diǎn):
(1)單細(xì)胞RNA-seq方法主要分成4步:分離和裂解單細(xì)胞或單細(xì)胞核。反轉(zhuǎn)錄。cDNA的擴(kuò)增。測(cè)序文庫(kù)的準(zhǔn)備。前三步都可以在同一個(gè)管子里進(jìn)行,減少樣品的損失,第4步是利用轉(zhuǎn)座子Tn5為基礎(chǔ)的片段來構(gòu)建文庫(kù)。
(2)應(yīng)該選擇什么方法,以及多少細(xì)胞來測(cè)序?單細(xì)胞主要分成兩種:full-length和tag-based。而taf-based方法又分為兩種:3'和5'.對(duì)于細(xì)胞類型的發(fā)現(xiàn)和組織成分的測(cè)定,full-length和tag-based方法都可以。如果是有特殊的需要,比如等位基因分析和不同的isoform的發(fā)現(xiàn),full-length是最合適的。
(3)批次效應(yīng):批次效應(yīng)主要由于樣品的處理步驟,細(xì)胞的捕獲和分別測(cè)序(不同深度),不同批次的試劑等等引入的。有一個(gè)方法可以查看數(shù)據(jù)是否有批次效應(yīng):PCA。另外,利用spike-in control(ERCC)也可以有效的降低批次效應(yīng)。ERCC spike-in control是由一系列濃度的合成的不同長(zhǎng)度的,不同GC含量的RNA組成,經(jīng)常用來測(cè)量在RNAseq實(shí)驗(yàn)中的biases,并且用來做質(zhì)量控制和標(biāo)準(zhǔn)化。

2.Design and computational analysis of single-cell RNA-sequencing experiments

這篇文章寫的就比較詳細(xì)和深入了,講解了有關(guān)單細(xì)胞測(cè)序的實(shí)驗(yàn)設(shè)計(jì)需要注意的問題和分析過程中的關(guān)鍵步驟,但仍然沒有涉及到具體的軟件的使用和具體的代碼。不過也不用著急,由淺及深的了解也不是什么壞事,把基礎(chǔ)打打牢才是關(guān)鍵。

(1)實(shí)驗(yàn)設(shè)計(jì)
需要關(guān)心的問題是是否需要加spike-in control和特異分子標(biāo)記(UMI),這兩種方法理論上對(duì)標(biāo)準(zhǔn)化和基因表達(dá)的評(píng)估都有好處。實(shí)際操作上對(duì)單細(xì)胞測(cè)序有一定的限制性。比如Stegle的文章里提到,spike-in的對(duì)照通常加到單細(xì)胞測(cè)序的體系里濃度會(huì)很高,產(chǎn)生的結(jié)果就是它們會(huì)占去相對(duì)一大部分的reads。另外最近的droplet技術(shù)也不能容納spike-in。UMI對(duì)于減少背景noise有很大的優(yōu)勢(shì),但是加入U(xiǎn)MI序列只在轉(zhuǎn)錄本的5'或者3'端,使得無法研究isoform或者等位基因的表達(dá)。
另外一個(gè)需要考慮的問題是測(cè)序的深度?,F(xiàn)在比較一致的認(rèn)為是大于1 million的reads,對(duì)于可靠的基因表達(dá)檢測(cè)的變化就很小了。實(shí)際上,大部分基因可以在50萬個(gè)reads檢測(cè)出來,超過一半的基因25萬個(gè)reads就足夠了。另外,在Shalek的文章中提到,1個(gè)million的reads足夠檢測(cè)一個(gè)細(xì)胞群里基因表達(dá)的情況了。根據(jù)實(shí)驗(yàn)需要的不同,可能會(huì)需要更多的reads,比如完全鑒定轉(zhuǎn)錄本的結(jié)構(gòu),評(píng)估rare isoform的表達(dá)量,根據(jù)細(xì)微的差別區(qū)分細(xì)胞群。但是如果你需要map out一個(gè)大的細(xì)胞群,或者區(qū)分細(xì)胞類型,你需要少一些的reads,但是樣品里的細(xì)胞數(shù)要足夠多。在Pollen的文章中提到,301個(gè)細(xì)胞,5萬個(gè)reads足夠在一個(gè)樣品里分類細(xì)胞類型。但如果你需要在一個(gè)異質(zhì)性很高的細(xì)胞群里區(qū)分rare細(xì)胞群,那就需要提高Reads數(shù)。
(2)質(zhì)量控制和基因表達(dá)評(píng)估
顯微鏡檢查可以排除空的捕獲位點(diǎn)和多細(xì)胞的捕獲位點(diǎn),但肉眼的檢查不適用于所有的測(cè)序平臺(tái)。所以一般使用FASTQC,Kraken,RNA-SeQC等軟件對(duì)于reads進(jìn)行質(zhì)量控制。如果reads的最后幾個(gè)堿基質(zhì)量不好可以使用Trimming進(jìn)行修剪。
另外一個(gè)評(píng)估的標(biāo)準(zhǔn)是reads比對(duì)到參考的轉(zhuǎn)錄組上。如果用了spike-in對(duì)照,reads比對(duì)到合成的轉(zhuǎn)錄本,占比對(duì)到內(nèi)源性轉(zhuǎn)錄本的比例就可以計(jì)算出來。如果這個(gè)比例過高,說明在細(xì)胞的捕獲階段有細(xì)胞的破損。mapping的比例,在單細(xì)胞測(cè)序中通常較低(與bulk RNA-seq相比)。
拿到質(zhì)量合格的reads結(jié)果,就可以比對(duì)了。一般用HTSeq,RSEM或者WemIQ進(jìn)行比對(duì)。
(3)標(biāo)準(zhǔn)化
a)不涉及spike-in control的標(biāo)準(zhǔn)化
許多單細(xì)胞測(cè)序的研究使用中位數(shù)標(biāo)準(zhǔn)化,或者相似的方法。每一種方法都是鑒定那些在細(xì)胞間表達(dá)相對(duì)穩(wěn)定的基因,然后利用那些基因計(jì)算global scale factor。但是這種方法是建立在“每一個(gè)細(xì)胞的RNA含量和測(cè)序深度都是差不多的”這一個(gè)假設(shè)基礎(chǔ)上的。
b)涉及spike-in control的標(biāo)準(zhǔn)化
在單細(xì)胞測(cè)序里,每一個(gè)細(xì)胞的RNA含量都不是一樣的,隨著細(xì)胞周期,細(xì)胞大小,以及轉(zhuǎn)錄動(dòng)力學(xué)的不同而變化。spike-in, 是合成的轉(zhuǎn)錄本,以已知的濃度加入樣品中,可以用來估計(jì)RNA含量的相對(duì)差異。這一思路是根據(jù)spike-in觀察到的和理論值之間的差異就是人為引入的因素,計(jì)算調(diào)節(jié)這些差異的細(xì)胞特異性的factor,在內(nèi)源性的基因上利用這個(gè)factor,標(biāo)準(zhǔn)化基因表達(dá)。雖然很有幫助,但是仍然存在一些問題。所以spike-in control在單細(xì)胞測(cè)序里并不廣泛的使用。UMI是另一種更有用的control,簡(jiǎn)單的說,就是在每一個(gè)分子上連接一個(gè)特異的標(biāo)簽,然后PCR擴(kuò)增,使得每一個(gè)分子是特異性的,并且可以得到分子數(shù)量的絕對(duì)值。這種方法可以有效的降低單細(xì)胞測(cè)序的擴(kuò)增noise。但這種方法無法研究isoform和等位基因的表達(dá)情況。
(4)細(xì)胞亞群的鑒定
單細(xì)胞測(cè)序最主要的目的有兩個(gè):細(xì)胞亞群的鑒定,特異基因的表達(dá)。先說細(xì)胞亞群的鑒定。單細(xì)胞測(cè)序的一個(gè)非線性降維法:t-SNE。在單細(xì)胞測(cè)序中,細(xì)胞間某一個(gè)基因的表達(dá)幅度變化很大是很常見的,利用PCA可能會(huì)造成錯(cuò)誤的理解,因?yàn)榇嬖诤芏嗔惚磉_(dá)量。還有其他的一些降維方法,例如:ZIFA,SNN-Cliq,RaceID等。對(duì)于單細(xì)胞測(cè)序鑒定基因表達(dá)變化,很多研究者用的是常規(guī)RNA-seq的分析方法。
之后這篇文章還講了一些算法的原理。。。奈何我剛開始接觸單細(xì)胞測(cè)序的知識(shí),看不懂那么深?yuàn)W的東西,同學(xué)們可以自行閱讀后面的部分。
(5)Network inference
闡述轉(zhuǎn)錄調(diào)節(jié)網(wǎng)絡(luò)的結(jié)構(gòu)和功能也是單細(xì)胞測(cè)序的核心研究部分。WGCNA(加權(quán)基因共表達(dá)網(wǎng)絡(luò)分析)是常規(guī)RNA-seq分析中常用的方法,在胚胎細(xì)胞發(fā)育研究中也廣泛應(yīng)用。關(guān)于WGCNA的知識(shí)這篇文章里也沒有具體的介紹。我搜了幾篇有關(guān)這個(gè)知識(shí)點(diǎn)的文章,貼到下面:
WGCNA分析,簡(jiǎn)單全面的最新教程
WGCNA 分析
STEP6:WGCNA相關(guān)性分析
一文學(xué)會(huì)WGCNA 這篇和上面的一篇差不多,都是具體的分析過程,有詳細(xì)的代碼

3.Design and analysis of single-cell sequencing experiments
這篇文章對(duì)現(xiàn)有的基因組和轉(zhuǎn)錄組測(cè)序的方法做了一個(gè)總結(jié),并討論了每種方法的優(yōu)點(diǎn)和局限性。作者還比較深入的講了數(shù)據(jù)獲取,過濾,分析等必要的步驟需要注意的地方。不過這篇文獻(xiàn)也沒有具體的代碼分析過程。

4.Data Analysis in Single-Cell Transcriptome Sequencing
萬萬沒有想到的是,我在網(wǎng)上搜索單細(xì)胞測(cè)序的一些文獻(xiàn)的時(shí)候,會(huì)讀到一篇里面提及王院長(zhǎng)的文章。這篇文章里比較了單細(xì)胞測(cè)序的幾個(gè)不同方法的不同點(diǎn),并且講了利用單細(xì)胞測(cè)序在腫瘤干細(xì)胞研究中的應(yīng)用。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。
禁止轉(zhuǎn)載,如需轉(zhuǎn)載請(qǐng)通過簡(jiǎn)信或評(píng)論聯(lián)系作者。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容