【工作環(huán)境:R.studio】
1.Bulk RNA-seq(大量RNA-seq)、scRNA-seq、snRNA-seq的區(qū)別?
(轉(zhuǎn)錄組測(cè)序即RNA-seq分為bulk、single cell、single nucleus三種測(cè)序技術(shù))
傳統(tǒng)的轉(zhuǎn)錄組測(cè)序技術(shù)(bulk RNA-seq)是基于群體細(xì)胞,每個(gè)樣本包含成千上萬(wàn)個(gè)細(xì)胞,所以最終反映的是基因在群體細(xì)胞中平均表達(dá)水平,從而掩蓋了不同細(xì)胞之間的表達(dá)異質(zhì)性。
單細(xì)胞測(cè)序不同于傳統(tǒng)的高通量測(cè)序,它是對(duì)于一個(gè)細(xì)胞群中的某一個(gè)細(xì)胞進(jìn)行測(cè)序分析。單細(xì)胞轉(zhuǎn)錄組測(cè)序就是對(duì)單個(gè)細(xì)胞轉(zhuǎn)錄組水平進(jìn)行測(cè)序,它的優(yōu)勢(shì)是準(zhǔn)確地分析每一個(gè)細(xì)胞的基因表達(dá),能準(zhǔn)確區(qū)分細(xì)胞群體,并進(jìn)行細(xì)胞分類間比較,以及能找到稀有的細(xì)胞的表達(dá)情況。進(jìn)行單細(xì)胞測(cè)序前,首先需要分離單個(gè)的細(xì)胞,不同類型的單細(xì)胞轉(zhuǎn)錄組測(cè)序技術(shù),使用的細(xì)胞分離技術(shù)可能不一樣。(細(xì)胞分離技術(shù)分類匯總見: https://blog.csdn.net/AIPuFu/article/details/100174499)
而單細(xì)胞測(cè)序技術(shù)與單細(xì)胞核測(cè)序技術(shù)的區(qū)別在于單細(xì)胞測(cè)的是細(xì)胞質(zhì)+細(xì)胞核的遺傳信息,而單細(xì)胞核如其名,測(cè)的是細(xì)胞核內(nèi)的遺傳信息。因?yàn)閱渭?xì)胞測(cè)序技術(shù)存在一些弊端。只能夠取樣于新鮮組織,而一些臨床的冷凍的樣本,無(wú)法得到利用。在解離的過(guò)程中,一些細(xì)胞這種應(yīng)激的條件下,基因的表達(dá)發(fā)生變化。同時(shí),一些不易解離的細(xì)胞類型也會(huì)因此被過(guò)濾掉,而使我們最終的分析喪失一些重要的信息。由于細(xì)胞核膜相對(duì)于細(xì)胞膜是更加穩(wěn)定的,所以在實(shí)驗(yàn)的過(guò)程中也更加容易操作,從而規(guī)避了我們上面提到的一些單細(xì)胞測(cè)序技術(shù)的弊端,臨床冷凍的樣本的遺傳信息也能夠得到有效的利用。
雖然單細(xì)胞核測(cè)序技術(shù)只是測(cè)序了細(xì)胞核內(nèi)的遺傳信息,而沒(méi)有得到細(xì)胞質(zhì)內(nèi)的遺傳信息(如部分mRNA,因?yàn)槲覀冎?,成熟的mRNA,要在細(xì)胞質(zhì)中進(jìn)行翻譯。)但從目前的實(shí)驗(yàn)結(jié)果上看,snRNA-seq的表現(xiàn)與scRNA-seq完全一致,同樣能夠準(zhǔn)確的捕捉到細(xì)胞的轉(zhuǎn)錄狀態(tài),這一點(diǎn)已在不同組織、不同外界處理?xiàng)l件等多種情況下得到了證實(shí)。
2.單細(xì)胞測(cè)序中,10xgenomics測(cè)序中的10x是什么意思呢?是不是指的是測(cè)序深度?
10X genomics是他們公司的商標(biāo)就跟Illumina一樣,X表示字母讀作[eks]不是乘號(hào)的意思,所以也不是指測(cè)序深度。
3.什么是10X數(shù)據(jù)?
標(biāo)準(zhǔn)的10X數(shù)據(jù)(包含三個(gè)文件(barcodes.tsv/genes.tsv/matrix.mtx)挖掘公共單細(xì)胞數(shù)據(jù)集時(shí),會(huì)遇到常見各種單細(xì)胞測(cè)序數(shù)據(jù)格式。
例如:
(1)barcodes.tsv.gz、features.tsv.gz、matrix.mtx.gz
(2)表達(dá)矩陣
(3)h5
(4)h5ad
barcodes.tsv、genes.tsv、matrix.mtx格式數(shù)據(jù)文件
這是cellranger上游比對(duì)分析產(chǎn)生的3個(gè)文件,分別代表細(xì)胞標(biāo)簽(barcode)、基因ID(feature)、表達(dá)數(shù)據(jù)(matrix)
一般先使用read10X()對(duì)這三個(gè)文件進(jìn)行整合,得到行為基因、列為細(xì)胞的表達(dá)矩陣(為稀疏矩陣dgCMatrix格式,節(jié)約內(nèi)存);然后再配合CreateSeuratObject()函數(shù)創(chuàng)建Seurat對(duì)象



3.什么是細(xì)胞的Gel bead,以及其組成部分?
單細(xì)胞測(cè)序的高通量化平臺(tái),不得不提的就是10X Genomics。其技術(shù)核心包括兩部分:Gel Bead和油包水微液滴生成系統(tǒng),后者也是微液滴法數(shù)字PCR儀(以Bio-Rad的產(chǎn)品為代表)的核心技術(shù)。Gel Bead由凝膠珠和磁珠上的一段引物構(gòu)成,引物序列中包含一段每個(gè)Gel Bead都各不相同的10X Barcode,用以區(qū)分不用的單細(xì)胞。將細(xì)胞懸液進(jìn)行充分稀釋后經(jīng)由微流體“雙十字”交叉系統(tǒng),形成微液滴和Gel Bead結(jié)合的GEM(Gel Beads-in-emulsion)。

Gel bead由四個(gè)部分組成。各有其各自的作用。
R1:為一段已知序列的DNA片段,用于后續(xù)的測(cè)序。
10X Barcode:用于標(biāo)記細(xì)胞。
獨(dú)特的分子標(biāo)識(shí)符(UMI):unique Molecular identifiers 是在逆轉(zhuǎn)錄過(guò)程中添加到轉(zhuǎn)錄本中的短隨機(jī)條碼(4-10bp)。它們可以將測(cè)序讀序列分配給單個(gè)轉(zhuǎn)錄分子,從而消除scRNASeq數(shù)據(jù)中的放大噪聲和偏差。當(dāng)對(duì)包含UMI的數(shù)據(jù)進(jìn)行測(cè)序時(shí),技術(shù)通常只對(duì)包含UMI的轉(zhuǎn)錄本的末端(通常是3’端)進(jìn)行特定的測(cè)序。
? ? ? ? 在混合測(cè)序的過(guò)程中,用于區(qū)分不同的cDNA來(lái)源的reads。也就是在后續(xù)的建庫(kù)擴(kuò)增的過(guò)程中,cDNA不斷的擴(kuò)增產(chǎn)生reads,來(lái)源于同一個(gè)轉(zhuǎn)錄本的reads的UMI相同。每一個(gè)細(xì)胞有一個(gè)特征的UMI。之后,在進(jìn)行擴(kuò)增建庫(kù)的過(guò)程中,只要是由該細(xì)胞擴(kuò)增產(chǎn)生的cDNA,都會(huì)帶有這段UMI。
poly(dT)VN:通過(guò)與mRNA的polyA尾互補(bǔ)配對(duì),捕獲細(xì)胞中游離的mRNA。

(2)建庫(kù)
通過(guò)某種方法,將細(xì)胞裂解,釋放出mRNA,利用逆轉(zhuǎn)錄酶,將mRNA反轉(zhuǎn)成雙鏈cDNA,進(jìn)行擴(kuò)增。而Gel bead所起到的作用就是,將我們細(xì)胞中的mRNA的序列信息捕獲,然后通過(guò)反轉(zhuǎn)錄的方式,轉(zhuǎn)換為帶有特征的細(xì)胞標(biāo)記的reads。
由于這個(gè)平臺(tái)的測(cè)序過(guò)程是高通量的。所以,將所有的reads(來(lái)源于不同的細(xì)胞的不同的mRNA)都集中起來(lái)進(jìn)行測(cè)序。而后續(xù)的過(guò)程中,如何將這些不同來(lái)源的reads區(qū)分開來(lái),就是利用我們的標(biāo)記。
一般而言,有幾個(gè)維度的標(biāo)記:
來(lái)自哪一個(gè)樣本(患者,如果是一個(gè)個(gè)體的某個(gè)組織的話,另當(dāng)別論)
來(lái)自哪一個(gè)細(xì)胞(因?yàn)槲覀円诩?xì)胞維度上,進(jìn)行表達(dá)量的識(shí)別,所以這部分的信息也很重要)——10X barcode
來(lái)自哪一個(gè)基因(通過(guò)基因的識(shí)別,我們知道是哪些基因的表達(dá))——UMI
所以,最終表現(xiàn)在counts矩陣上,就是行為所在的細(xì)胞,列為基因,值為定量后的表達(dá)值。
