第一次使用GSA大約是2018年,那一次是往該數(shù)據(jù)庫(kù)上傳數(shù)據(jù)。

單細(xì)胞數(shù)據(jù)呈指數(shù)增長(zhǎng),對(duì)一個(gè)實(shí)驗(yàn)室也好,對(duì)一家科研單位也好,對(duì)一個(gè)國(guó)家也好,數(shù)據(jù)的管理顯得日益重要。數(shù)據(jù)管理在技術(shù)上是平臺(tái)的搭建,做好平臺(tái),大家可以在上傳和下載或者分析數(shù)據(jù)。今天我們介紹一下如何從中國(guó)核酸數(shù)據(jù)庫(kù)(GSA)下載單細(xì)胞轉(zhuǎn)錄組原始數(shù)據(jù),并Run 起Cellragner(其他平臺(tái)自然換成他們的定量軟件)。
組學(xué)原始數(shù)據(jù)歸檔庫(kù)(GSA)屬于生物數(shù)據(jù)遞交系統(tǒng)(BIG Submission, BIG Sub),后者是國(guó)家基因組科學(xué)數(shù)據(jù)中心生物數(shù)據(jù)統(tǒng)一匯交入口,為用戶(hù)提供一站式數(shù)據(jù)遞交服務(wù)。

數(shù)據(jù)庫(kù)后臺(tái)對(duì)科學(xué)家是十分友好的,有專(zhuān)屬的用戶(hù)QQ群,在使用過(guò)程中遇到問(wèn)題可以隨時(shí)在群里咨詢(xún)(主要是漢語(yǔ)),既有工作人員,也有我這樣的使用過(guò)的同學(xué),為您排憂解惑。
首先,我們有一篇文章需要下載,一看Data availability剛好在我們的GSA數(shù)據(jù)庫(kù)中:

我們點(diǎn)擊HRA的編號(hào)鏈接,后進(jìn)入該數(shù)據(jù)的主頁(yè):

這樣,再點(diǎn)擊Request Data,如果是第一次使用就需要注冊(cè)啦。

基本上按照提示就可以完成注冊(cè)啦。注意注冊(cè)郵箱和個(gè)人主頁(yè)需要是學(xué)術(shù)單位的哦,用戶(hù)注冊(cè)他們也是要審核的。滿足條件的話,通過(guò)是很快的啦。
合法登陸之后,就可以開(kāi)始申請(qǐng)數(shù)據(jù)了。我們可以在GSA搜索前面的編號(hào),可以從文章鏈接轉(zhuǎn)到Request頁(yè)面,申請(qǐng)數(shù)據(jù)需要說(shuō)明申請(qǐng)數(shù)據(jù)主要用于什么,需要的信息是:

每一項(xiàng)簡(jiǎn)明扼要寫(xiě)清楚即可。
在申請(qǐng)的結(jié)尾處有一個(gè)GSA-Human 數(shù)據(jù)訪問(wèn)協(xié)議,這個(gè)還是建議認(rèn)真看看的,主要是一些法律條文。 agree之后,申請(qǐng)工作就算完成啦,接下來(lái)是等待審核。

這個(gè)看文章作者和平臺(tái)的審核速度啦,建議申請(qǐng)通過(guò)兩天沒(méi)動(dòng)靜可以和工作人員說(shuō)一下,看看在哪里有卡點(diǎn),及時(shí)通過(guò)郵件聯(lián)系。
數(shù)據(jù)申請(qǐng)通過(guò)之后,申請(qǐng)的列表是這樣的:

點(diǎn)擊download就可以看到ftp鏈接了,這時(shí)候可用Filezilla下載,如果數(shù)據(jù)較大,建議用wget下載,直接批量地下到集群:
wget -b -c --user=申請(qǐng)時(shí)候的用戶(hù)名 --password=密碼 --mirror ftp://鏈接
如果下載有困難除了在群里咨詢(xún),您還可以申請(qǐng)郵寄:

下載完之后,我們知道要RunCellranger 至少需要兩個(gè)fq。當(dāng)然,在看文章的時(shí)候,我們就已經(jīng)知道這里的數(shù)據(jù)是用哪個(gè)平臺(tái)做的了,需要注意的是,10X平臺(tái)試劑軟件版本更新較快,最好文章用哪個(gè)版本的數(shù)據(jù)我們就用哪個(gè)版本的,比如V2 和V3的試劑barcode長(zhǎng)度不同了,有可能影響cell calling的結(jié)果。 所以我們需要看看自己下載的fq數(shù)據(jù)長(zhǎng)得是什么樣子的,特別是reads1。
下載完數(shù)據(jù)后,至少要:
- 檢查文件完整性
- 下載文件的ID和臨床信息匹配
- 檢查fq的分布格式
- fq文件重命名成cellranger需要的格式
接下來(lái)可以Run 上Cellranger了。
cellranger count --id=run_count_1kpbmcs \
--fastqs=/pbmc_1k_v3_fastqs \
--sample=pbmc_1k_v3 \
--transcriptome=/refdata-cellranger-GRCh38-3.0.0
然后就是降維聚類(lèi)必知必會(huì)balabala了。
其實(shí)有文檔的啦:
- 人類(lèi)遺傳資源組學(xué)原始數(shù)據(jù)歸檔庫(kù)數(shù)據(jù)申請(qǐng)及下載說(shuō)明
- 組學(xué)原始數(shù)據(jù)歸檔庫(kù)(GSA)使用說(shuō)明
