科研工作者在發(fā)表paper的時候,如果文章中涉及高通量測序數(shù)據(jù)分析,就需要提前向NCBI上傳數(shù)據(jù)獲得登錄號。然而,如何向NCBI提交這些序列?提交什么序列?總是提交失敗怎么辦?這一系列問題成為科研工作者不得不面對的一個難題。今天小編就來介紹一種重要的NCBI數(shù)據(jù)庫GEO,它可用于存儲測序數(shù)據(jù),實(shí)現(xiàn)資源共享。小編將GEO數(shù)據(jù)庫的提交過程做一個簡單概述,希望能為大家提供一點(diǎn)幫助。
一.GEO數(shù)據(jù)上傳操作方法
1. NCBI 賬號注冊
數(shù)據(jù)上傳前需要注冊一個NCBI(https://www.ncbi.nlm.nih.gov/)賬號

若賬號已存在,可點(diǎn)擊“Log in”直接登錄,若未注冊賬號,需點(diǎn)擊“Sign up“注冊后登錄。

2. GEO賬號注冊
登錄NCBI后點(diǎn)擊“Submit”

下拉至“Other Tools”點(diǎn)擊GEO對應(yīng)的“l(fā)earn more”,進(jìn)入GEO



填寫姓名、電話、E-mail等基本信息 (帶*號的為必填信息)注:http://qq.com、http://163.com?或?http://foxmail.com?電子郵件地址可能不能收到來自 NCBI 的郵件。請?zhí)峁┢渌]箱以確保NCBI能夠與您溝通。
注冊成功后會收到GEO注冊成功郵件。
注:GEO帳戶三個月內(nèi)不上傳數(shù)據(jù)將自動刪除。
3. 數(shù)據(jù)上傳導(dǎo)航

RNA-seq 選擇高通量測序

需要提交的數(shù)據(jù):Metadata spreadsheet 可在下方直接下載填寫

processed data fies即表達(dá)量文件gene count或gene fpkm文件
raw data files即原始數(shù)據(jù)raw data
4. Metadata spreadsheet 表格填寫
(1)STUDY主要包含文章的標(biāo)題、概述、實(shí)驗(yàn)整體設(shè)計、共同作者等

(2)SAMPLES: 包括樣品名稱、樣品的詳細(xì)信息、物種、細(xì)胞系、細(xì)胞類型、試驗(yàn)處理情況、單雙端測序情況、測序機(jī)器、原始文件名等。


Processeddata files主要是基因表達(dá)的數(shù)據(jù)文件(readcount或FPKM),需要換成文本txt格式。raw file對應(yīng)原始數(shù)據(jù)raw data中的壓縮包名稱,以fq.gz結(jié)尾,由于是雙端測序,因此一個樣本對應(yīng)-1、-2兩端數(shù)據(jù)。
(3)PROTOCLS: 樣本的處理方案,建庫方案,類型,處理步驟,處理過程中文件信息等

(4)PAIRED-END EXPERIMENTS: 雙端測序的樣本fq文件名

(5)MD5 ChecksumsMD5 即 Message-Digest Algorithm 5,是當(dāng)前計算機(jī)領(lǐng)域廣泛使用的哈希算法之一,用于確保信息傳輸完整一致。

RAW FILES即raw data,對應(yīng)的file cheksum可直接在釋放的全部數(shù)據(jù)中的md5.txt直接查看。PROCESSED DATA FILES即結(jié)果文件中的表達(dá)量fpkm文件,需將文件轉(zhuǎn)換成txt格式后上傳,windows電腦的file cheksum可利用md5.exe(釋放的全部數(shù)據(jù)中有)生成,具體操作如下。

5.數(shù)據(jù)上傳
將以上涉及的三部分需提交的內(nèi)容(表格與數(shù)據(jù))打包到一個文件夾內(nèi)
注:可接受的壓縮格式是 gzip 和 bzip2(即以 .gz 或 .bz2 擴(kuò)展名結(jié)尾的文件)。切勿壓縮二進(jìn)制文件(例如,BAM、bigWig、bigBed),也不要上傳 ZIP 檔案(擴(kuò)展名為 .zip 的文件)。
點(diǎn)擊“Uploading your submission”跳轉(zhuǎn)到數(shù)據(jù)上傳界面

分兩步:第一步下載FTP軟件上傳數(shù)據(jù),第二步發(fā)郵件通知GEO

上傳路徑:

上傳的主機(jī),賬號及密碼:

“快速連接”工具欄中輸入主機(jī)(http://ftp-private.ncbi.nlm.nih.gov),用戶名(geoftp)和密碼(rebUzyi1)來快速連接,會看到“快速連接”錯誤,可以忽略此錯誤。在“遠(yuǎn)程站點(diǎn)”地址欄中輸入個性化工作區(qū)的路徑(如我的路徑為:/ uploads / zhaoyuhuan_8zOL842G)。然后可以通過從“本地站點(diǎn)”窗口拖動包含所有提交文件的文件夾并將其拖放到右側(cè)的上傳空間(“遠(yuǎn)程站點(diǎn)”窗口)中來傳輸文件。

此外,可以通過設(shè)置站點(diǎn)管理器避免目標(biāo)列表錯誤,步驟如下:
(1)選擇文件-站點(diǎn)管理器-常規(guī)-輸入主機(jī)(http://ftp-private.ncbi.nlm.nih.gov),用戶名(geoftp)和密碼(rebUzyi1)

(2)選擇文件-站點(diǎn)管理器-高級-選擇需要上傳數(shù)據(jù)的文件夾-數(shù)據(jù)庫給出的遠(yuǎn)程站點(diǎn)

(3)選擇文件-站點(diǎn)管理器-傳輸設(shè)置-選擇主動-點(diǎn)擊連接即可

6.郵件確認(rèn)
待傳輸完成后,點(diǎn)擊Notify GEO通知GEO審核數(shù)據(jù),GEO官方大概在5個工作日左右回復(fù),在收到管理員郵件確認(rèn)之前不要引用GEO號。

在方框輸入上傳文件路徑選擇數(shù)據(jù)公開的時間(根據(jù)需求自行決定)注:若老師選擇3年后公開,后續(xù)想更改時間,可以進(jìn)行提交界面,通過設(shè)置修改時間,或者直接反饋GEO官網(wǎng)進(jìn)行修改。
二.GEO數(shù)據(jù)上傳常見問題
1. FileZilla連接失敗問題

2. FTP上傳數(shù)據(jù)報550錯誤
請求操作未被執(zhí)行,文件不可用,可以嘗試以下的方法來解決:(1)準(zhǔn)備要傳輸?shù)奈募?,不要打開使用,很多人經(jīng)常會忘記關(guān)閉了個別的文件,同時又將文件發(fā)給別人,這種正在使用著的文件是傳輸不過去的;(2)文件的體積比較大,傳輸過程中耗費(fèi)時間比較長,網(wǎng)絡(luò)不穩(wěn)定,容易造成傳輸文件中斷,可以嘗試將體積比較大的文件分開傳輸,或者嘗試將文件壓縮一些體積,打包傳輸;(3)網(wǎng)絡(luò)條件比較差,網(wǎng)絡(luò)不給力,傳輸文件比較困難,可以在網(wǎng)絡(luò)較好的情況下再傳輸;(4)電腦上某些殺毒軟件攔截文件,造成文件傳輸?shù)腻e誤,可以嘗試暫時關(guān)閉特殊的殺毒軟件。
3. Ftp服務(wù)器連接失敗
主要分為以下四種情況:
(1)連接被拒, 錯誤信息如下:正在連接到?http://www.yourdomain.com?-> DNS=http://www.yourdomain.com?IP=218.13.164.102 PORT=21連接失敗 (連接被拒)
原因:這是因?yàn)榭蛻粼谧鱂tp上傳時 填寫錯了Ftp服務(wù)器造成這個問題。
解決:在Ftp上傳時服務(wù)器填寫。
(2)FTP用戶登入失敗 錯誤信息如下:正在連接到?http://www.72dns.com?-> DNS=http://www.72dns.com?IP=211.155.224.184 PORT=21 已連接到?http://www.72dns.com?(Ftp服務(wù)器連接成功)220 Serv-U FTP Server v6.2 for WinSock ready...USER test331 User name okay, need password.PASS (隱藏)530 Not logged in.
原因:這是用戶填寫錯誤的FTP服務(wù)器、Ftp用戶名/或Ftp密碼。
解決:請您核對您的Ftp 信息(開通空間時,系統(tǒng)會把FTP信息發(fā)到你郵箱里,你可以查看一下郵件)。如果您忘記Ftp密碼??梢栽凇坝脩糁行模摂M主機(jī)管理---控制面板”里重設(shè)Ftp密碼。
(3)用戶本地上網(wǎng)問題,錯誤信息如下:無法解析主機(jī):s501.72dns.comC:\>ping s501.72dns.comPing request could not find host s501.72dns.com.please check the name and try again.
原因:如這兩種情況同時都出現(xiàn),那是用戶本地上網(wǎng)的DNS有問題。
解決:請用其它的DNS試下。
(4)Ftp服務(wù)器解析正常,Ftp服務(wù)器連接超時,錯誤信息如下:正在連接到?http://s501.72dns.com?-> DNS=http://s501.72dns.com?IP=203.171.239.16 PORT=21 連接失?。ㄟB接超時)
原因:網(wǎng)絡(luò)方面有問題。
解決:更換網(wǎng)絡(luò)再次嘗試。
總結(jié):目前最常見的FTP錯誤檢查主要是檢查FTP服務(wù)器、Ftp用戶名/或Ftp密碼是否正確;切換站點(diǎn)管理器中傳輸設(shè)置的主動被動模式;站點(diǎn)管理器常規(guī)中的加密選項(xiàng)選擇只使用普通FTP(不安全)。
以上就是本次GEO數(shù)據(jù)上傳操作指南的主要內(nèi)容啦,希望可以對各位老師有所幫助。后續(xù)小編還會推出SRA數(shù)據(jù)上傳指南,敬請期待~