提到差異分析,大家都不陌生,什么是差異分析呢?差異分析的目的是為了什么呢?怎么做差異分析呢?
首先差異分析是什么?
差異分析又可以被稱為差距分析,主要就是為了查看兩組之間影響兩組之間差距較大的因素有哪些。
? ? ? ? 對于基因芯片的差異分析而言,由于芯片數(shù)據(jù)基本都是服從正態(tài)分布。由于一次性找的基因多,因此需要對多重試驗進行校正,控制假陽性,目前基因芯片數(shù)據(jù)分析用的最多的就是limma包。limma包使用是廣義線性模型的一種,主要就是通過對每一個基因的表達量擬合成一個線性方程。limma的分析包括ANOVA分析、線性回歸等。該方法的核心步驟包括voom、fit、eBays等步驟。
? ? ? ? 而對于高通量測序的差異分析分析而言,由于高通量的read count 基本都是服從泊松分布,不能直接使用limma包篩選差異。一般情況下,使用DEseq2包和edgeR包對read count的高通量測序數(shù)據(jù)進行差異分析,這兩個包都是基于負二項分布的模型,將數(shù)據(jù)進行轉化,讓其滿足正態(tài)分布。
總之,不管是使用什么方法進行差異分析,核心點都是分為如下幾步:
1、預處理,不管是什么樣的表達數(shù)據(jù),數(shù)據(jù)的預處理是非常重要的,過濾/取對數(shù),過濾的目的是為了去除某一些基因在所有樣本的表達變化較小的基因,或者去除表達量較低的基因;而取對數(shù)的目的其實是為了伸縮數(shù)據(jù),讓數(shù)據(jù)更符合正態(tài)分布。
2、差異計算,即計算兩組比較中,不同基因在兩組的表達的差距,如用A組的基因比B組的基因的表達量,得到差異倍數(shù),差異倍數(shù)越大,說明該基因在A組和B組的表達差別越大,同樣的也說明該基因也就越重要。
3、p值的計算,或者是FDR計算。在計算差異后,同樣的也需要計算該基因在兩組中的表達是否存在偶然性,因此會根據(jù)數(shù)據(jù)分布的類型選擇合適的統(tǒng)計方法。如數(shù)據(jù)符合正態(tài)分布,樣本量小于30使用t檢驗,樣本量大于30使用u檢驗,如果數(shù)據(jù)符合偏態(tài)分布,使用秩和檢驗。為了控制假陽性的存在,使用多重檢驗對p值進行校正,方法有很多,如BH等等。
目前做差異分析的工具很多,很多都是需要用到編程的,這對于不會代碼的人來說,很不友好。有沒有一種工具,可以做到直接輸入表達譜矩陣,直接作出差異分析的結果呢?
這里推薦生信豆芽菜平臺

如果是芯片數(shù)據(jù),直接用limma包做差異,如果是高通量測序數(shù)據(jù),count數(shù)據(jù)則使用edgeR包或者是deseq2包做差異分析,如果是tpm/fpkm則先取log,在進行差異分析。
上傳準備的文件都是一樣的,需要準備一個基因的表達譜數(shù)據(jù),和一個分組文件,記得比較組和被比較組盡量不要出現(xiàn)中文,或者空格這些

表達譜數(shù)據(jù)

分組數(shù)據(jù):有兩列,第一列為樣本,第二列為分組(最好只寫兩組),不要出現(xiàn)空行,如果不確定可以選擇下載notepad進行查看。

運行后等到成功即可。
如果不清楚可以查看左側的說明文檔,寫的很詳細。