來(lái)源:Higgins-Chen, A.T., Thrush, K.L., Wang, Y. et al. A computational solution for bolstering reliability of epigenetic clocks: Implications for clinical trials and longitudinal tracking. Nat Aging 2, 644–661 (2022).
1. 前言
之前發(fā)表的epigenetic clocks的可靠性較差,往往對(duì)同一個(gè)體兩次生物學(xué)重復(fù)的預(yù)測(cè)結(jié)果差異較大。本文針對(duì)該難題提出了一種解決方案:對(duì)訓(xùn)練集樣本進(jìn)行主成分分析,提取所有主成分作為模型訓(xùn)練輸入,模型所用的目標(biāo)值為原來(lái)epigenetic clocks的預(yù)測(cè)結(jié)果值。作者表明這樣獲得的模型預(yù)測(cè)結(jié)果可靠性大大提高,大部分生物學(xué)重復(fù)樣本的預(yù)測(cè)結(jié)果差異在1.5年左右。
由于作者提供的是一種可以提高epigenetic clocks預(yù)測(cè)結(jié)果可靠性的模型構(gòu)建策略。因此對(duì)于已發(fā)表的六個(gè)代表性的clocks,作者分別訓(xùn)練了對(duì)應(yīng)的PC改良版clock,即PCHorvath1, PCHorvath2, PCHannum, PCPhenoAge, PCDNAmTL, PCGrimAge.
2. 構(gòu)建方法
1)生成訓(xùn)練集
選擇6個(gè)模型原始文獻(xiàn)中用到的樣本(有些數(shù)據(jù)集找不到了,作者找了替換)構(gòu)建了6個(gè)訓(xùn)練集。然后篩選在所有樣本集里都出現(xiàn)的CpG位點(diǎn),共78646個(gè)。訓(xùn)練集所用到的樣本在附件有詳細(xì)列出。
2)提取主成分
對(duì)6個(gè)訓(xùn)練集分別進(jìn)行主成分分析(centered but not scaled),由于CpG位點(diǎn)個(gè)數(shù)(78646)遠(yuǎn)大于各訓(xùn)練集里的樣本數(shù)量,最終六個(gè)訓(xùn)練集里提取的主成分總數(shù)等于樣本總量-1,即主成分個(gè)數(shù)分別為:Horvath1 4280個(gè),Horvath2 894個(gè),Hannum 855個(gè),PhenoAge 4504個(gè),DNAmTL 3934個(gè),GrimAge 3934個(gè)。
3)訓(xùn)練PC模型
對(duì)于每個(gè)clock,將上一步提取的各自所有主成分作為模型輸入,將原CpG模型的預(yù)測(cè)結(jié)果作為回歸目標(biāo)值(PCPhenoAge 直接采用phenotypic age score),回歸算法還是Elastic Net。
PC-clock的相關(guān)代碼作者已經(jīng)提交Github,不過(guò)我還沒(méi)有時(shí)間去試用。
3. 模型效果
新模型的效果如下,從下面的圖中可以看出,PC改良版的模型與原CpG模型一致性還不錯(cuò)。

從下圖可以發(fā)現(xiàn),對(duì)比原CpG模型,PC模型對(duì)生物學(xué)重復(fù)樣本的預(yù)測(cè)值的一致性有了很大提高:

下面這部分圖示結(jié)果最能表現(xiàn)出PC模型的穩(wěn)定性:

4. 評(píng)價(jià)
作者自己的總結(jié):Compared to the CpG clocks, PC clocks show stronger, directionally identical correlations, consistent with reduced noise.
我的思考:
作者設(shè)計(jì)PC clocks 的主要目的是提高模型預(yù)測(cè)結(jié)果的穩(wěn)定性,從這一角度來(lái)說(shuō)PC clocks的效果確實(shí)不錯(cuò)。但是PC clocks有什么局限性嗎?
Horvath1,Horvath2 和Hannum 三個(gè)Clock都是用同一個(gè)算法,訓(xùn)練的目標(biāo)值也都是chronological age,不同的只是訓(xùn)練集不一樣。作者顯然是把這三個(gè)模型的當(dāng)成了描述三種生物意義的東西在處理。作者有比較過(guò)直接將chronological age當(dāng)做回歸目標(biāo)值進(jìn)行模型訓(xùn)練嗎?

5. 測(cè)試
想要在你自己的數(shù)據(jù)集上測(cè)試PC-clocks嗎?我已經(jīng)開(kāi)發(fā)了一個(gè)用戶(hù)友好的R程序包,一條命令即可調(diào)用,趕緊來(lái)試一試吧。
歡迎對(duì)這個(gè)模型、文章感興趣的朋友與我進(jìn)行學(xué)術(shù)交流(wangyucheng511艾特gmail.com)