來源:Trapp, A., Kerepesi, C. & Gladyshev, V.N. Profiling epigenetic age in single cells. Nat Aging 1, 1189–1201 (2021). https://doi.org/10.1038/s43587-021-00134-3
該文章介紹了一種預(yù)測單個細(xì)胞的表觀年齡(epigenetic age)的方法。
關(guān)鍵詞:DNA methylation, epigenetic age, age clock, single cell
背景:人類基因組中有很多位點(CpG sites)的甲基化水平與年齡顯著相關(guān),因此基于這些年齡相關(guān)的位點的甲基化水平可以構(gòu)建很準(zhǔn)確的年齡預(yù)測模型,如Horvath's clock。但是這些模型都是基于bulk samples,也就是一群細(xì)胞的平均年齡。怎樣基于單細(xì)胞甲基化測序數(shù)據(jù)預(yù)測單個細(xì)胞的表觀年齡還沒有人做過,這種可以預(yù)測單個細(xì)胞甲基化年齡的技術(shù)可以用于研究胚胎發(fā)育等特定細(xì)胞很少的場景。
難點:單個細(xì)胞就只有一套DNA,對單個細(xì)胞的甲基化測序數(shù)據(jù)只能隨機覆蓋一小部分基因組區(qū)域,并且對于測到的CpG位點,觀察到甲基化水平也只能是0或1兩種結(jié)果。(sparse and binarized methylation profiles)

scAge構(gòu)建過程:
1)生成參考集。基于bulk sample甲基化測序數(shù)據(jù),對每一個CpG位點,擬合其甲基化水平與年齡的線性回歸模型,獲得,其中
指代第
個CpG位點。
注:這個參考集只包括了748,955個CpG位點,這些位點在參考集大于90%的樣本中被測到了。
2)收集有效年齡相關(guān)CpG位點。
- 針對每個單細(xì)胞,只保留出現(xiàn)在參考集中的CpG位點(common CpG sites)。
- 然后對這些留下的CpG位點,基于它們與年齡的相關(guān)系數(shù)絕對值從大到小進(jìn)行排序(ranking them based on the absolute magnitude of their Pearson correlation with age)。
- 最后每個單細(xì)胞只留下與年齡最相關(guān)的前1%的common CpG位點用于下一步分析。
所以最后每個單細(xì)胞篩選獲得的CpG位點數(shù)量各不一樣。
3)估計有效年齡相關(guān)CpG位點的測序值出現(xiàn)概率。每一個上一步收集到的年齡相關(guān)CpG位點,其測序結(jié)果不是1(被甲基化了)就是0(未被甲基化),我們可以計算其在不同年齡情況(-20~60 months, step=0.1 months)下獲得觀測值(1或0)的概率。如果是1,概率就是,如果是0,概率就是
。該概率用
表示。
注:為第一步線性模型所得。
4)極大似然估計年齡。假設(shè)各個CpG位點完全相互獨立,每個單細(xì)胞,所有有效位點的觀察值出現(xiàn)概率的乘積就可以代表在不同年齡下,觀察到測序結(jié)果的總概率值。因為所有概率都小于1,為了避免越乘越小,作者對乘積結(jié)果取了log,結(jié)果如下:
對每個單細(xì)胞樣本,計算其在不同年齡下(-20~60 months, step=0.1 months)的概率值,最大概率值所對應(yīng)的年齡即為該單細(xì)胞的預(yù)測表觀年齡。
模型預(yù)測效果:
作者基于三種細(xì)胞類型(liver,multi-tissue, blood)訓(xùn)練了三個模型,預(yù)測效果還不錯。

最后scAge的安裝和使用請參照:https://github.com/alex-trapp/scAge
scAge 的優(yōu)勢很明顯:可在單細(xì)胞分辨率下預(yù)測表觀年齡,在特定場景下會很有用。