GSEA算法學(xué)習(xí)

GSEA文獻(xiàn)閱讀
1.重要解釋
Ranked Gene List L:該基因列表為待檢測(cè)的數(shù)據(jù)集(通常為試驗(yàn)獲得的表達(dá)矩陣文件);
Gene Sets S:該基因集為已知功能注釋的某一個(gè)通路所含基因(如一個(gè)GO term中所用基因);
Leading Edege Subset:核心基因集,通常為位于ES的某一側(cè)(或者Rank Gene List的某一端)

2.計(jì)算方法
步驟1:富集分?jǐn)?shù)的計(jì)算
通過計(jì)算基因富集分?jǐn)?shù)(ES)來反映基因集S在排名列表L里的極端(頂部或底部)的過度呈現(xiàn)程度。通過沿著列表L走,當(dāng)我們遇到一個(gè)基因在S中的時(shí)候,增加一個(gè)累計(jì)統(tǒng)計(jì)量,不在S中的時(shí)候,減少一個(gè)累計(jì)統(tǒng)計(jì)量。增量的大小取決于基因與表型的相關(guān)性。富集分?jǐn)?shù)是檢索過程中遇到的最大統(tǒng)計(jì)量;它對(duì)應(yīng)于一個(gè)加權(quán)的Kolmogorov-Smirnov統(tǒng)計(jì)檢驗(yàn)。


image.png

1.將分析所得的基因集中的N個(gè)基因依照相關(guān)性r(gi)=ri按順序排列為L(zhǎng) = {g1,g2,…gN},相關(guān)性按照基因表達(dá)量來計(jì)算;
2.通過每個(gè)基因在S中的出現(xiàn)與否及相關(guān)性計(jì)算hit和miss。

3.關(guān)鍵字符解釋
1.P值的設(shè)定:
p < 1:明顯非隨機(jī)分布的多個(gè)基因;
p > 1:基因集S中有大量基因,但只有少數(shù)基因是具有一致性分布的;
p = 1:僅通過相關(guān)性,允許基因集存在偏差。


image.png

∑:表示基因集S(功能通路)中位于排序后的基因列表中L的基因的表達(dá)變化趨勢(shì)程度的和值;
N:表示基因列表L中基因的數(shù)目;
NH:表示基因集S中基因的數(shù)目。

FC:fold chage 基因差異表達(dá)倍數(shù)
這里使用FC = ri(相關(guān)性)

image.png

不同的ri算法。
(未完待續(xù))
參考:
https://blog.csdn.net/nixiang_888/article/details/107062461?utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromBaidu%7Edefault-5.vipsorttest&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromBaidu%7Edefault-5.vipsorttest

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容