前些日子小編下載單細(xì)胞RNA測(cè)序數(shù)據(jù)時(shí),發(fā)現(xiàn)一個(gè)奇怪的現(xiàn)象:明明是一個(gè)雙端測(cè)序的單細(xì)胞RNA測(cè)序數(shù)據(jù),但是數(shù)據(jù)下載界面只看到1 read per spot,且read讀長(zhǎng)為98bp(圖1),熟悉10x單細(xì)胞文庫(kù)結(jié)構(gòu)的朋友們不難推測(cè)出來(lái)它是R2文件(也就是轉(zhuǎn)錄本reads),并不包含barcode和UMI信息,那么這份數(shù)據(jù)是不是就不能下載使用了呢?我們應(yīng)該去哪找barcode和UMI信息呢?

眾所周知,10x的單細(xì)胞轉(zhuǎn)錄組測(cè)序文庫(kù)采用雙端測(cè)序,所以理論上我們?cè)跀?shù)據(jù)下載界面至少要看到2 reads per spot,分別包括R1(26bp:barcode和UMI序列)、R2(98bp:插入片段)。以圖2數(shù)據(jù)為例,可以看到數(shù)據(jù)集中每個(gè)spot由三部分組成,根據(jù)測(cè)序數(shù)據(jù)堿基長(zhǎng)度就可推測(cè)它們分別是R1、R2和I1(8bp:index序列)。

先給大家說(shuō)說(shuō)為什么會(huì)有這種情況出現(xiàn):
這是因?yàn)?0x單細(xì)胞數(shù)據(jù)在實(shí)際上傳的時(shí)候,很多人會(huì)選擇上傳bam文件,而不是fastq文件(除了fastq文件以外,SRA鼓勵(lì)提交10x bam文件)。bam是Cellranger生成的輸出文件之一,主要存儲(chǔ)測(cè)序數(shù)據(jù)和參考基因組比對(duì)結(jié)果,由于其特殊高效的壓縮算法,使得它的文件大小偏小,便于傳輸。而10x單細(xì)胞文庫(kù)比較特殊,雙端測(cè)序獲得的兩個(gè)文件中僅R2文件包含mRNA反轉(zhuǎn)錄后的cDNA信息,這就使得bam文件中一條read ID僅對(duì)應(yīng)一行插入片段信息,而barcode和UMI以tag的形式存在于bam文件中。當(dāng)作者在GEO數(shù)據(jù)庫(kù)中僅上傳bam文件時(shí),系統(tǒng)會(huì)對(duì)提交的數(shù)據(jù)進(jìn)行一系列格式轉(zhuǎn)換,所以我們最終看到的便是只有1 read per spot,在tag中的barcode UMI信息不見(jiàn)了。
因此要獲得該數(shù)據(jù)集的barcode和UMI信息,需要獲取作者上傳的原始bam文件。點(diǎn)開(kāi)Data access選項(xiàng)(一般我們進(jìn)入的SRR數(shù)據(jù)的位置其實(shí)是Metadata頁(yè)面),會(huì)發(fā)現(xiàn)Original format中提供了原始bam文件(圖3)。

我們可以將Data access選項(xiàng)卡中找到的bam文件下載,下載的bam文件再使用10x官方提供的Cellranger里的工具bamtofastq將其轉(zhuǎn)換為fastq格式文件(見(jiàn)圖4-5)。就可以進(jìn)行后續(xù)分析啦~
bamtofastq官網(wǎng):https://github.com/10XGenomics/bamtofastq
#通過(guò)bamtofastq將bam轉(zhuǎn)成fastq
./cellranger/lib/bin/bamtofastq --nthreads=8 P1TLH.bam.1 /output/2fq_P1TLH.bam.1


小知識(shí)
單細(xì)胞測(cè)序原始文件還可通過(guò)ENA數(shù)據(jù)庫(kù)進(jìn)行下載(https://www.ebi.ac.uk/ena/browser/home),這個(gè)數(shù)據(jù)庫(kù)由EMBL-Bank 核酸序列數(shù)據(jù)庫(kù)基礎(chǔ)上發(fā)展起來(lái),EMBL數(shù)據(jù)直接來(lái)源于測(cè)序工作者提交的數(shù)據(jù),主要優(yōu)勢(shì):界面簡(jiǎn)潔友好,數(shù)據(jù)源直接以表格呈現(xiàn),且可直接得到原始數(shù)據(jù)文件的下載地址。比如圖1數(shù)據(jù),可直接在搜索欄輸入SRR7276478,就可獲得bam文件下載鏈接。

所以,在下載10x單細(xì)胞原始數(shù)據(jù)時(shí),除了用sra-tools將SRA數(shù)據(jù)分為R1、R2、I1三個(gè)fastq.gz文件外;我們還可以直接下載bam文件(此時(shí)需注意不要再下載SRA數(shù)據(jù)了),千萬(wàn)別只看到1 read per spot就覺(jué)得這個(gè)數(shù)據(jù)不能用,然后就把它放棄了。