生信數(shù)據(jù)上傳指南之NCBI

一般來說,在一個生信有關(guān)的項目快接近尾聲的時候,我們需要及時地將項目中所涉及到的分析數(shù)據(jù)進行上傳,以得到一個可公開的、可查詢的、用于發(fā)表的項目編號,這一般對于大多數(shù)期刊來說都是需要的。

目前,可供研究人員上傳數(shù)據(jù)的網(wǎng)站也有不少,如大家常見的NCBI就是其中之一,而國內(nèi)出名的如國家基因組科學數(shù)據(jù)中心在近些年也得到了廣泛的關(guān)注和使用。值得注意的是,針對不同類型的分析數(shù)據(jù)類型(原始測序數(shù)據(jù)、基因組組裝數(shù)據(jù)、變異數(shù)據(jù)、代碼等等),大家可以選擇的網(wǎng)站是不同的,本系列將和大家主要介紹一下當前幾個可以進行數(shù)據(jù)上傳/分享的網(wǎng)站或數(shù)據(jù)庫以及如何上傳數(shù)據(jù)的具體方法。

首先要介紹的是來自美國的NCBI,全名為National Center for Biotechnology Information,是生物醫(yī)學領(lǐng)域最常見的數(shù)據(jù)庫之一

網(wǎng)站框架

整個網(wǎng)站可分為6個模塊:

  • 數(shù)據(jù)提交(Submit),選擇提交自己的數(shù)據(jù)到該網(wǎng)站下的兩個主要數(shù)據(jù)庫:GenBankSRA。其中的GenBank是國際核苷酸序列數(shù)據(jù)庫合作組織的一部分,該組織由日本的DNA DataBank of Japan (DDBJ)、歐洲的European Nucleotide Archive(ENA)和NCBI的GenBank組成。這三大數(shù)據(jù)庫之間每天都會相互交換數(shù)據(jù)。

  • 數(shù)據(jù)下載(Download),提供了FTP、Aspera以及SRA Toolkit等工具幫助下載數(shù)據(jù)到本地

  • 幫助文檔(Learn),提供了各種文檔說明和使用教程

  • 應用開發(fā)(Develop),幫助開發(fā)人員接入網(wǎng)站提供的API進行二次開發(fā)

  • 功能分析(Analyze),常見的諸如序列比對工具BLAST、引物設(shè)計工具Primer-Blast等

  • 研究探索(Research),對NCBI計算生物學分支(NCBI Computational Biology Branch, CBB)相關(guān)的研究介紹

網(wǎng)站資源

所提供的數(shù)據(jù)資源如下:

  • 化學和生物試驗

  • 數(shù)據(jù)下載和軟件

  • DNA/RNA

  • 保守結(jié)構(gòu)域和3D結(jié)構(gòu)

  • 基因表達

  • 遺傳學和醫(yī)學

  • 基因組

  • 同源蛋白

  • 文獻

  • 蛋白質(zhì)

  • 序列分析

  • 物種分類

  • 教程

  • 遺傳變異

數(shù)據(jù)上傳

數(shù)據(jù)上傳方法:

  • 第二步,選擇提交的數(shù)據(jù)庫。往下滑動的過程中,選擇一個合適的數(shù)據(jù)庫進行數(shù)據(jù)提交,這里以SRA為例,點擊Submit即可
  • 第三步,登錄。在點擊Submit之后,會繼續(xù)導航到新的頁面,并可能看到如下提示,這是在提示你需要先登錄NCBI然后再進行數(shù)據(jù)提交,目前NCBI支持微軟賬號直接登入。

在完成登錄后,我們可以看到如下頁面,里面有幾條關(guān)于數(shù)據(jù)提交要求的描述,如壓縮文件需要使用gzipbzip2格式,而不能使用zip格式;文件名要是唯一的,且不能包含敏感詞匯;每個需要提交的文件都必須填寫在表里;大于10GB或300個文件的時候,選擇使用preload選項;所有需要提交的文件都需要在單個文件夾里,并只能和單次提交關(guān)聯(lián)

  • 第四步,創(chuàng)建新的提交。點擊右上角的New submission,按照提示,完成以下幾個步驟

    1. 提交者信息填寫,完成之后點擊continue

    2. 通用信息填寫,包括3個部分:是否已創(chuàng)建BioProject、是否已創(chuàng)建BioSample以及數(shù)據(jù)釋放日期,如果BioProjectBioSample事先都沒有創(chuàng)建的話,NCBI會在之后自動創(chuàng)建,所以不必返回重新創(chuàng)建,完成之后點擊continue

    3. 項目信息填寫,包括項目標題、描述、資助來源,完成之后點擊continue

    4. 樣品信息簡單描述,包括物種名、物種分類等等,完成之后點擊continue

    5. 樣品列表上傳,此時我們只需要按照NCBI提供的文件模板填寫完上傳即可,其中綠色標注的字段是必填項,藍色標注的字段是至少填一項,黃色標注的字段是可選項,完成之后點擊continue,NCBI會自動對文件進行校驗,沒有錯誤則通過,否則需要修改后重新提交

      需要注意的是,除了樣品名(sample name)、樣品標題(sample title)、項目號(bioproject accession)以及項目描述(description)之外,其他字段信息的組合必須能夠用于區(qū)分每個樣品,解決方法就是多添加幾個字段屬性,并描述一些每個樣品獨有的特征,如分組、編號、來源、生物重復信息等等


    6. SRA元數(shù)據(jù)填寫,即樣品上傳文件詳細信息描述,完成之后點擊continue

    7. 選擇文件上傳方法,一般會提供以下3種方法:

      選擇第2種方法,并點擊下方的Request preload folder按鈕,會出現(xiàn)以下選擇

      選擇Aspera command line instruction,會出現(xiàn)Aspera的使用教程,主要包括三步:

      1. 下載安裝Aspera軟件

      2. 點擊key file下載密鑰文件aspera.openssh

      3. 使用Aspera軟件中的ascp命令上傳單個文件夾內(nèi)的所有文件

      值得注意的是,在文件上傳完后(至少10分鐘后才能看到自己上傳的文件),需要返回該頁面,然后點擊Select preload folder選擇一個文件夾,最后點擊continue。此外,在該步驟的末尾處,NCBI也提供了自動提交的選項,大家可以按需選擇

    8. 檢查之后提交

  • 第五步,等待郵箱,獲取編號

未完待續(xù)

作者 :LXD
轉(zhuǎn)載:生信數(shù)據(jù)上傳指南之NCBI
來源:微信公眾號
著作權(quán)歸作者所有,任何形式的轉(zhuǎn)載都請聯(lián)系作者。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容