GEO數(shù)據(jù)上傳的詳細步驟演示
????想必很多老師、同學們對轉(zhuǎn)錄組相關數(shù)據(jù)如何上傳至GEO數(shù)據(jù)庫存在困惑,本篇整理了GEO數(shù)據(jù)上傳的相關步驟,教大家如何上傳數(shù)據(jù)。
1 登錄GEO
1.1 GEO地址
????進入GEO數(shù)據(jù)庫,兩種方法:
????在NCBI(https://www.ncbi.nlm.nih.gov/)主頁,點擊“Submit”>“GEO”,即可進入GEO數(shù)據(jù)庫界面。
????或者直接輸入GEO地址(https://www.ncbi.nlm.nih.gov/geo/info/submission.html)進入。

1.2 注冊登錄GEO
????為了上傳數(shù)據(jù),首先需要登錄賬號,點擊界面右上方“l(fā)ogin”。
????新用戶需要先注冊,填寫相關信息后,賬號通過郵箱激活。

登錄后,如果賬號是首次登錄,需要完善個人信息,包括國家、地區(qū)、所屬單位等。

2 GEO數(shù)據(jù)上傳
????進入GEO數(shù)據(jù)庫后,在首頁界面選擇將要上傳的數(shù)據(jù)類型。大體上,上傳數(shù)據(jù)類型可分為3類:
????芯片數(shù)據(jù);
????高通量數(shù)據(jù),如RNA-seq、ChIP-seq等;
????其它表達譜數(shù)據(jù),例如RT-PCR等。
????接下來以某RNA-seq數(shù)據(jù)上傳為例展示,點擊上傳高通量數(shù)據(jù)類型。

2.1 上傳數(shù)據(jù)要求
????根據(jù)網(wǎng)站要求,需要上傳3種數(shù)據(jù),包括:
????信息表(Metadata spreadsheet),這個由GEO網(wǎng)站提供,需下載填寫;
????一些重要的處理后數(shù)據(jù)(Processed data files),如基因表達值矩陣等;
????原始測序數(shù)據(jù)(Raw data files),如fastq文件,推薦使用clean data。
????并且,GEO網(wǎng)站中列出了一些注意事項,仔細閱讀網(wǎng)站界面下方的內(nèi)容即可,大致上有以下幾點:
????GEO接受數(shù)據(jù)是有關基因表達定量、基因調(diào)控,表觀遺傳學或其它功能基因組的研究,包括RNA-seq、ChIP-seq、HiC-seq、甲基化測序等,不接收全基因組、宏基因組等類型。
????原始測序數(shù)據(jù)是必須要提交的,由于后續(xù)將自動提交SRA,因此需要提供SRA支持的格式。推薦上傳gz壓縮的fastq文件(不要使用zip壓縮),且各個樣本已做拆分。
????處理后的數(shù)據(jù)也是GEO提交的必需部分,但只限于非常重要的,例如原始基因表達count值、FPKM標準化后的矩陣、ChIP-seq定量峰bed文件等。一些中間文件,或者大文件,如基因組比對后的BAM不推薦上傳,除非有特殊必要需發(fā)郵件提前咨詢工作人員。
????對于上傳的數(shù)據(jù),需要校驗MD5碼并填寫在信息表中,便于審核文件是否完整。
2.2 填寫信息表
????首先下載信息表填寫相關的信息。
????在下載的Excel表中,“METADATA TEMPLATE”中填寫上傳數(shù)據(jù)信息,包括試驗描述、樣本信息、數(shù)據(jù)類型等?!癊XAMPLE”中提供了相關的參考示例,根據(jù)實際數(shù)據(jù)模仿填寫即可。

以展示RNA-seq的EXAMPLE 2為例簡單說明下該表。
????“SERIES”是對整個試驗的描述。
????title可以是發(fā)表文章的標題,summary可以是發(fā)表文章的摘要(請描述詳細,不能太少),contributor可以為貢獻作者。
????填寫文章的標題摘要比較省事,當然也可以重新構(gòu)思描述信息,比如該數(shù)據(jù)在多個文章中使用時,可以綜合為一個統(tǒng)一的試驗描述。

????“SAMPLES”是對樣本的描述,“PROTOCOLS”、“DATA PROCESSING PIPELINE”是關于樣本處理以及測序細節(jié)。
????對于樣本描述,就是樣本名稱、來源的物種、組織、細胞類型等,以及各樣本對應的數(shù)據(jù)文件,盡可能補充完整吧,除了不涉及的選項可以不填(比如是組織測序,不涉及細胞系,因此細胞類型等就無需填寫了)。
????對于樣本處理、測序,就是有關的RNA提取、文庫構(gòu)建等試驗,這些若存在疑問,建議咨詢測序公司比較好。

????最后的三項內(nèi)容,就是上傳文件的細節(jié)信息。
????包括文件名稱、類型、MD5碼等,以及若是雙端測序還需指定R1和R2端測序數(shù)據(jù)文件的對應關系。

2.3 上傳數(shù)據(jù)
????信息表填寫無誤后,開始上傳數(shù)據(jù)。
????首先返回GEO網(wǎng)站界面,查看有關數(shù)據(jù)上傳的相關說明。

????初次使用GEO,首先需創(chuàng)建工作空間,以用于后續(xù)在服務器站點中作為個人存放數(shù)據(jù)的目錄。記錄Step1中的個人路徑,后續(xù)上傳文件時需要指定。

????然后,點擊Step2查看上傳說明,下載安裝指定的傳輸工具,上傳數(shù)據(jù)。包括主機、用戶名、密碼以及個人賬號路徑等。
????若有疑問,可在GEO網(wǎng)站界面下方查看答疑解惑。

????仔細閱讀GEO網(wǎng)站中傳輸數(shù)據(jù)的要求,按要求將所有數(shù)據(jù),包括原始測序數(shù)據(jù)、基因表達矩陣、信息表等擺放至一個文件夾中,然后將該文件夾直接拖動至服務器的個人路徑下就可以了。
????傳輸時間由總文件數(shù)量、大小及網(wǎng)速決定。傳輸完成后一定要仔細對比下前后的文件大小是否一致,用于判斷是否出現(xiàn)傳輸斷點,是否有文件需要重新上傳等。

2.4 提交審核
????確認上傳的數(shù)據(jù)一切無誤后,返回GEO網(wǎng)站,點擊Step3的“Notify GEO”。

????根據(jù)所填寫信息編輯頁面,如果確認上傳,最后點擊Submit。
????如果點擊Submit提交了審核(真實上傳數(shù)據(jù)時),接下來的幾天內(nèi),注冊NCBI賬號時使用的郵箱中,會收到來自GEO官方的郵件。若有問題,會在郵件中告知,之后按照提示修改即可。若無問題,等待后續(xù)數(shù)據(jù)釋放就可以了。
????如果未點擊Submit(例如僅為測試GEO數(shù)據(jù)上傳步驟),已上傳的數(shù)據(jù)將默認在2周內(nèi)自動清除。
