GEO數(shù)據(jù)上傳的詳細步驟演示

GEO數(shù)據(jù)上傳的詳細步驟演示

????想必很多老師、同學們對轉(zhuǎn)錄組相關數(shù)據(jù)如何上傳至GEO數(shù)據(jù)庫存在困惑,本篇整理了GEO數(shù)據(jù)上傳的相關步驟,教大家如何上傳數(shù)據(jù)。

1 登錄GEO

1.1 GEO地址

????進入GEO數(shù)據(jù)庫,兩種方法:

????在NCBI(https://www.ncbi.nlm.nih.gov/)主頁,點擊“Submit”>“GEO”,即可進入GEO數(shù)據(jù)庫界面。

????或者直接輸入GEO地址(https://www.ncbi.nlm.nih.gov/geo/info/submission.html)進入。

GEO數(shù)據(jù)庫

1.2 注冊登錄GEO

????為了上傳數(shù)據(jù),首先需要登錄賬號,點擊界面右上方“l(fā)ogin”。

????新用戶需要先注冊,填寫相關信息后,賬號通過郵箱激活。

注冊賬號

登錄后,如果賬號是首次登錄,需要完善個人信息,包括國家、地區(qū)、所屬單位等。

登陸賬號

2 GEO數(shù)據(jù)上傳

????進入GEO數(shù)據(jù)庫后,在首頁界面選擇將要上傳的數(shù)據(jù)類型。大體上,上傳數(shù)據(jù)類型可分為3類:

????芯片數(shù)據(jù);

????高通量數(shù)據(jù),如RNA-seq、ChIP-seq等;

????其它表達譜數(shù)據(jù),例如RT-PCR等。

????接下來以某RNA-seq數(shù)據(jù)上傳為例展示,點擊上傳高通量數(shù)據(jù)類型。

以上傳高通量數(shù)據(jù)為例

2.1 上傳數(shù)據(jù)要求

????根據(jù)網(wǎng)站要求,需要上傳3種數(shù)據(jù),包括:

????信息表(Metadata spreadsheet),這個由GEO網(wǎng)站提供,需下載填寫;

????一些重要的處理后數(shù)據(jù)(Processed data files),如基因表達值矩陣等;

????原始測序數(shù)據(jù)(Raw data files),如fastq文件,推薦使用clean data。

????并且,GEO網(wǎng)站中列出了一些注意事項,仔細閱讀網(wǎng)站界面下方的內(nèi)容即可,大致上有以下幾點:

????GEO接受數(shù)據(jù)是有關基因表達定量、基因調(diào)控,表觀遺傳學或其它功能基因組的研究,包括RNA-seq、ChIP-seq、HiC-seq、甲基化測序等,不接收全基因組、宏基因組等類型。

????原始測序數(shù)據(jù)是必須要提交的,由于后續(xù)將自動提交SRA,因此需要提供SRA支持的格式。推薦上傳gz壓縮的fastq文件(不要使用zip壓縮),且各個樣本已做拆分。

????處理后的數(shù)據(jù)也是GEO提交的必需部分,但只限于非常重要的,例如原始基因表達count值、FPKM標準化后的矩陣、ChIP-seq定量峰bed文件等。一些中間文件,或者大文件,如基因組比對后的BAM不推薦上傳,除非有特殊必要需發(fā)郵件提前咨詢工作人員。

????對于上傳的數(shù)據(jù),需要校驗MD5碼并填寫在信息表中,便于審核文件是否完整。

2.2 填寫信息表

????首先下載信息表填寫相關的信息。

????在下載的Excel表中,“METADATA TEMPLATE”中填寫上傳數(shù)據(jù)信息,包括試驗描述、樣本信息、數(shù)據(jù)類型等?!癊XAMPLE”中提供了相關的參考示例,根據(jù)實際數(shù)據(jù)模仿填寫即可。

下載信息表

以展示RNA-seq的EXAMPLE 2為例簡單說明下該表。

????“SERIES”是對整個試驗的描述。

????title可以是發(fā)表文章的標題,summary可以是發(fā)表文章的摘要(請描述詳細,不能太少),contributor可以為貢獻作者。

????填寫文章的標題摘要比較省事,當然也可以重新構(gòu)思描述信息,比如該數(shù)據(jù)在多個文章中使用時,可以綜合為一個統(tǒng)一的試驗描述。

????“SAMPLES”是對樣本的描述,“PROTOCOLS”、“DATA PROCESSING PIPELINE”是關于樣本處理以及測序細節(jié)。

????對于樣本描述,就是樣本名稱、來源的物種、組織、細胞類型等,以及各樣本對應的數(shù)據(jù)文件,盡可能補充完整吧,除了不涉及的選項可以不填(比如是組織測序,不涉及細胞系,因此細胞類型等就無需填寫了)。

????對于樣本處理、測序,就是有關的RNA提取、文庫構(gòu)建等試驗,這些若存在疑問,建議咨詢測序公司比較好。

????最后的三項內(nèi)容,就是上傳文件的細節(jié)信息。

????包括文件名稱、類型、MD5碼等,以及若是雙端測序還需指定R1和R2端測序數(shù)據(jù)文件的對應關系。

2.3 上傳數(shù)據(jù)

????信息表填寫無誤后,開始上傳數(shù)據(jù)。

????首先返回GEO網(wǎng)站界面,查看有關數(shù)據(jù)上傳的相關說明。

點擊查看上傳數(shù)據(jù)相關說明

????初次使用GEO,首先需創(chuàng)建工作空間,以用于后續(xù)在服務器站點中作為個人存放數(shù)據(jù)的目錄。記錄Step1中的個人路徑,后續(xù)上傳文件時需要指定。

創(chuàng)建個人站點

????然后,點擊Step2查看上傳說明,下載安裝指定的傳輸工具,上傳數(shù)據(jù)。包括主機、用戶名、密碼以及個人賬號路徑等。

????若有疑問,可在GEO網(wǎng)站界面下方查看答疑解惑。

登錄站點

????仔細閱讀GEO網(wǎng)站中傳輸數(shù)據(jù)的要求,按要求將所有數(shù)據(jù),包括原始測序數(shù)據(jù)、基因表達矩陣、信息表等擺放至一個文件夾中,然后將該文件夾直接拖動至服務器的個人路徑下就可以了。

????傳輸時間由總文件數(shù)量、大小及網(wǎng)速決定。傳輸完成后一定要仔細對比下前后的文件大小是否一致,用于判斷是否出現(xiàn)傳輸斷點,是否有文件需要重新上傳等。

上傳數(shù)據(jù)至站點

2.4 提交審核

????確認上傳的數(shù)據(jù)一切無誤后,返回GEO網(wǎng)站,點擊Step3的“Notify GEO”。

提交審核

????根據(jù)所填寫信息編輯頁面,如果確認上傳,最后點擊Submit。

????如果點擊Submit提交了審核(真實上傳數(shù)據(jù)時),接下來的幾天內(nèi),注冊NCBI賬號時使用的郵箱中,會收到來自GEO官方的郵件。若有問題,會在郵件中告知,之后按照提示修改即可。若無問題,等待后續(xù)數(shù)據(jù)釋放就可以了。

????如果未點擊Submit(例如僅為測試GEO數(shù)據(jù)上傳步驟),已上傳的數(shù)據(jù)將默認在2周內(nèi)自動清除。

確認提交
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容