GEO數(shù)據(jù)挖掘之第一步:數(shù)據(jù)預(yù)處理與差異分析

作為一個(gè)剛接觸生物信息這個(gè)專業(yè)小白,我正在努力學(xué)習(xí)著最基礎(chǔ)的東西,最先是了解GEO數(shù)據(jù)庫,自己利用數(shù)據(jù)進(jìn)行分析,還好之前有R語言基礎(chǔ),這第一步就花了很長時(shí)間,但是完成后是很有成就感的,希望我在自己摸索的道路上越走越順,接下來就是記錄我學(xué)習(xí)心路。(可能有很多錯(cuò)誤,歡迎各位老師指正)

首先是瀏覽GEO數(shù)據(jù)庫,這個(gè)龐大的數(shù)據(jù)庫看的我是真的暈,學(xué)好英文真的是很重要啊,不過不能急,慢慢來,一點(diǎn)一點(diǎn)去看,先下載幾個(gè)數(shù)據(jù)看看,我一般是以白血病(leukemia)為例

GDS GSE GPL GSM

這四個(gè)東西我之前是分不清的,后來在強(qiáng)大的網(wǎng)絡(luò)幫助下,我成功弄明白了,GSM是單個(gè)樣本的實(shí)驗(yàn)數(shù)據(jù),GDS是人工整理好的關(guān)于某個(gè)話題的GSM的集合,一個(gè)GDS中的GSM的平臺是一樣的,GSE是一個(gè)實(shí)驗(yàn)項(xiàng)目中的多個(gè)芯片實(shí)驗(yàn),可能使用多個(gè)平臺,GPL是芯片的平臺,如Affymetrix, Aglent等。

好啦,接下來是下載數(shù)據(jù)了,以GSE13822為例,下載它的數(shù)據(jù)系列文件GSE_series_matrix,文件里面!號開頭的是一些實(shí)驗(yàn)描述內(nèi)容,一般包括標(biāo)題,樣本信息,實(shí)驗(yàn)平臺,研究者,發(fā)布時(shí)間等等信息,處理數(shù)據(jù)前之前需要認(rèn)真看這些內(nèi)容。弄清楚樣本數(shù)量,以及實(shí)驗(yàn)組和對照組的樣本編號。


GSE_series_matrix頭文件


數(shù)據(jù)從這里開始

ID_REF行為探針名,列為樣本,整個(gè)矩陣就是對應(yīng)的表達(dá)值

接下來是平臺文件,這個(gè)實(shí)驗(yàn)的平臺是在GPL570,所以一下是平臺文件信息,#號開頭的是對平臺的描述


數(shù)據(jù)從ID那一行開始


這個(gè)文件我們在探針注釋要用到,到時(shí)候具體要用的就是用綠色標(biāo)出來的三列

接下來就是核心的內(nèi)容了,就是數(shù)據(jù)預(yù)處理,這一步主要就是把數(shù)據(jù)進(jìn)行一定的處理,然后篩選出差異基因,為后面的研究做準(zhǔn)備,這里我用的工具是R語言

第一步,先提取數(shù)據(jù),把我們需要的矩陣讀入,從ID_REF開始


第二步,對數(shù)化,把數(shù)據(jù)從偏態(tài)分布轉(zhuǎn)化成正態(tài)分布

第三步,探針過濾,去除表達(dá)值為負(fù)或者很小的數(shù)據(jù)(噪聲數(shù)據(jù))

第四步,補(bǔ)缺失值

第五步,數(shù)據(jù)標(biāo)準(zhǔn)化(核心)

第六步,探針注釋

第七步,基因篩選

最后篩選出差異基因后,做了熱圖和火山圖(具體代碼和分析在后面那篇文章)

這個(gè)過程挺曲折的,我一直奔走在各大生物信息貼吧和學(xué)習(xí)視頻里,最后終于完成了,我知道這僅僅是個(gè)開始,對我來說這個(gè)開始還挺好的。最后希望所有生信人都能大有作為吧,加油吧!

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。
禁止轉(zhuǎn)載,如需轉(zhuǎn)載請通過簡信或評論聯(lián)系作者。

友情鏈接更多精彩內(nèi)容