一般來說,在一個生信有關(guān)的項目快接近尾聲的時候,我們需要及時地將項目中所涉及到的分析數(shù)據(jù)進行上傳,以得到一個可公開的、可查詢的、用于發(fā)表的項目編號,這一般對于大多數(shù)期刊來說都是需要的。
目前,可供研究人員上傳數(shù)據(jù)的網(wǎng)站也有不少,如大家常見的NCBI就是其中之一,而國內(nèi)出名的如國家基因組科學數(shù)據(jù)中心在近些年也得到了廣泛的關(guān)注和使用。值得注意的是,針對不同類型的分析數(shù)據(jù)類型(原始測序數(shù)據(jù)、基因組組裝數(shù)據(jù)、變異數(shù)據(jù)、代碼等等),大家可以選擇的網(wǎng)站是不同的,本系列將和大家主要介紹一下當前幾個可以進行數(shù)據(jù)上傳/分享的網(wǎng)站或數(shù)據(jù)庫以及如何上傳數(shù)據(jù)的具體方法。
首先要介紹的是來自美國的NCBI,全名為National Center for Biotechnology Information,是生物醫(yī)學領(lǐng)域最常見的數(shù)據(jù)庫之一
網(wǎng)站框架
整個網(wǎng)站可分為6個模塊:
數(shù)據(jù)提交(Submit),選擇提交自己的數(shù)據(jù)到該網(wǎng)站下的兩個主要數(shù)據(jù)庫:GenBank 和 SRA。其中的GenBank是國際核苷酸序列數(shù)據(jù)庫合作組織的一部分,該組織由日本的DNA DataBank of Japan (DDBJ)、歐洲的European Nucleotide Archive(ENA)和NCBI的GenBank組成。這三大數(shù)據(jù)庫之間每天都會相互交換數(shù)據(jù)。
數(shù)據(jù)下載(Download),提供了FTP、Aspera以及SRA Toolkit等工具幫助下載數(shù)據(jù)到本地
幫助文檔(Learn),提供了各種文檔說明和使用教程
應用開發(fā)(Develop),幫助開發(fā)人員接入網(wǎng)站提供的API進行二次開發(fā)
功能分析(Analyze),常見的諸如序列比對工具BLAST、引物設(shè)計工具Primer-Blast等
研究探索(Research),對NCBI計算生物學分支(NCBI Computational Biology Branch, CBB)相關(guān)的研究介紹
網(wǎng)站資源
所提供的數(shù)據(jù)資源如下:
化學和生物試驗
數(shù)據(jù)下載和軟件
DNA/RNA
保守結(jié)構(gòu)域和3D結(jié)構(gòu)
基因表達
遺傳學和醫(yī)學
基因組
同源蛋白
文獻
蛋白質(zhì)
序列分析
物種分類
教程
遺傳變異
數(shù)據(jù)上傳
數(shù)據(jù)上傳方法:
- 第一步,打開NCBI (https://www.ncbi.nlm.nih.gov/)。點擊
Submit,然后會被導航到新的頁面 (https://submit.ncbi.nlm.nih.gov/)

- 第二步,選擇提交的數(shù)據(jù)庫。往下滑動的過程中,選擇一個合適的數(shù)據(jù)庫進行數(shù)據(jù)提交,這里以SRA為例,點擊
Submit即可


- 第三步,登錄。在點擊
Submit之后,會繼續(xù)導航到新的頁面,并可能看到如下提示,這是在提示你需要先登錄NCBI然后再進行數(shù)據(jù)提交,目前NCBI支持微軟賬號直接登入。

在完成登錄后,我們可以看到如下頁面,里面有幾條關(guān)于數(shù)據(jù)提交要求的描述,如壓縮文件需要使用gzip或bzip2格式,而不能使用zip格式;文件名要是唯一的,且不能包含敏感詞匯;每個需要提交的文件都必須填寫在表里;大于10GB或300個文件的時候,選擇使用preload選項;所有需要提交的文件都需要在單個文件夾里,并只能和單次提交關(guān)聯(lián)

-
第四步,創(chuàng)建新的提交。點擊右上角的
New submission,按照提示,完成以下幾個步驟提交者信息填寫,完成之后點擊
continue通用信息填寫,包括3個部分:是否已創(chuàng)建
BioProject、是否已創(chuàng)建BioSample以及數(shù)據(jù)釋放日期,如果BioProject和BioSample事先都沒有創(chuàng)建的話,NCBI會在之后自動創(chuàng)建,所以不必返回重新創(chuàng)建,完成之后點擊continue項目信息填寫,包括項目標題、描述、資助來源,完成之后點擊
continue樣品信息簡單描述,包括物種名、物種分類等等,完成之后點擊
continue-
樣品列表上傳,此時我們只需要按照NCBI提供的文件模板填寫完上傳即可,其中綠色標注的字段是必填項,藍色標注的字段是至少填一項,黃色標注的字段是可選項,完成之后點擊
continue,NCBI會自動對文件進行校驗,沒有錯誤則通過,否則需要修改后重新提交需要注意的是,除了樣品名(sample name)、樣品標題(sample title)、項目號(bioproject accession)以及項目描述(description)之外,其他字段信息的組合必須能夠用于區(qū)分每個樣品,解決方法就是多添加幾個字段屬性,并描述一些每個樣品獨有的特征,如分組、編號、來源、生物重復信息等等
SRA元數(shù)據(jù)填寫,即樣品上傳文件詳細信息描述,完成之后點擊continue-
選擇文件上傳方法,一般會提供以下3種方法:
選擇第2種方法,并點擊下方的
Request preload folder按鈕,會出現(xiàn)以下選擇選擇
Aspera command line instruction,會出現(xiàn)Aspera的使用教程,主要包括三步:下載安裝
Aspera軟件點擊
key file下載密鑰文件aspera.openssh使用
Aspera軟件中的ascp命令上傳單個文件夾內(nèi)的所有文件
值得注意的是,在文件上傳完后(至少10分鐘后才能看到自己上傳的文件),需要返回該頁面,然后點擊
Select preload folder選擇一個文件夾,最后點擊continue。此外,在該步驟的末尾處,NCBI也提供了自動提交的選項,大家可以按需選擇 檢查之后提交
第五步,等待郵箱,獲取編號
未完待續(xù)
作者 :LXD
轉(zhuǎn)載:生信數(shù)據(jù)上傳指南之NCBI
來源:微信公眾號
著作權(quán)歸作者所有,任何形式的轉(zhuǎn)載都請聯(lián)系作者。




