上一個(gè)課程,我們對(duì)NetworkAnalyst在線工具進(jìn)行概述,簡(jiǎn)單回顧一下,我們使用的NetworkAnalyst包括五個(gè)功能模塊,分別是
1)Gene list input?:含表達(dá)值的基因ID列表的差異分析
2) Gene Expression Table?:?jiǎn)蝹€(gè)RNA測(cè)序或芯片數(shù)據(jù)表達(dá)數(shù)據(jù)
3) Multiple Gene Expression Tables?:多個(gè)RNA測(cè)序或芯片數(shù)據(jù)表達(dá)數(shù)據(jù)meta分析
4)?Raw RNA-Seq?Data?:將RNAseq fastq文件上傳到Galaxy服務(wù)器上進(jìn)行分析
5)?Network File:網(wǎng)路文件分析

以“Gene Expression Table”為例,首先我們需要先upload我們需要分析的基因表達(dá)數(shù)據(jù),接下來(lái)我們以GEO數(shù)據(jù)庫(kù)數(shù)據(jù)為例進(jìn)行分析?!皊pecify organism”中輸入物種信息,如人,我們就選擇“H. sapiens (human)”?!癉ata type”選擇數(shù)據(jù)類型,包括“Microarray data”和“Bulk RNA-seq?data”?!癐D?type”選擇ID類型,這里簡(jiǎn)單介紹幾種常見(jiàn)的ID類型,Entrez ID,這個(gè)相信大家不陌生,這個(gè)我們使用NCBI?GENE可以檢索到,檢索結(jié)果中?GENE?ID就是我們的Entrez ID。RelSeq ID(NCBI?reference sequences),格式通常為兩個(gè)大寫(xiě)字母(NC: DNA\ NM:?mRNA\?NP:Protein)_數(shù)字,例NC_003071。Ensemble Gene ID,格式為物種前綴(前綴:Ens表示Human,ENSMUS表示Mouse) +序列類型(G表示Gene,T表示Transcripts,P表示Protein)+數(shù)字,例ENSG00000175899。后面ID類型就不一一介紹了。

Entrez ID檢索:

接下來(lái)我們實(shí)例部分,以GEO數(shù)據(jù)庫(kù)下載芯片信息,利用NetworkAnalyst在線工具進(jìn)行差異分析。我們以GSE50161為例,在GEO?datsets里面進(jìn)行搜索,檢索后我們下載Series Matrix Files,前面介紹過(guò)該文件是經(jīng)過(guò)矩陣處理,可以直接用于分析。


下載完成后是個(gè)txt文件,我們需要用EXcel去打開(kāi)該文件。找到!Sample_title和!Sample_geo_accession,選擇相應(yīng)樣本信息后重新粘貼到新文件里(.EXL),另外將探針及表達(dá)信息對(duì)應(yīng)粘貼在一起,形成新的分析文件。

將新的文件按照NetworkAnalyst格式,將“!Sample_geo_Accession”修改為“#NAME”,根據(jù)sample title信息修改成#CLASS,示例如下。修改完成后另存為“含制表符的文本文檔”格式。


然后倒入我們的NetAnalyst在線工具中進(jìn)行“submit”后進(jìn)行分析。第一步:upload Data.

第二步:Quality Check,設(shè)置過(guò)濾和歸一化參數(shù),過(guò)濾我們選擇默認(rèn),歸一化如果數(shù)據(jù)已經(jīng)經(jīng)過(guò)log2處理則選擇None。通過(guò)BoX plot圖形可以判定有沒(méi)有經(jīng)過(guò)log2處理。


第三步:Proceed后繼續(xù)進(jìn)行“Differential Analysis”。設(shè)置分組和分組比較信息。點(diǎn)擊“submit”。

第四步:點(diǎn)擊“Proceed”,在跳出的新界面設(shè)置篩選標(biāo)準(zhǔn)。

繼續(xù)“submit”,我們可以看到存在多少差異基因,并且通過(guò)“Download Result”按鈕下載我們的檢索結(jié)果。