單細(xì)胞轉(zhuǎn)錄組測(cè)序數(shù)據(jù)由于測(cè)序技術(shù)的問題,常常難以捕獲到低表達(dá)的基因,從而出現(xiàn)大量的零值,這些零值通常被稱為“dropout”。這些基因信號(hào)的缺失,將影響對(duì)基因間調(diào)控關(guān)系的解釋,因此scRNA-seq數(shù)據(jù)的稀疏可能會(huì)阻礙下游的分析,難以建模和處理。有2種解決數(shù)據(jù)稀疏的方法,(i)使用合適的數(shù)據(jù)構(gòu)建統(tǒng)計(jì)模型,對(duì)scRNA-seq數(shù)據(jù)的稀疏、抽樣差異及噪音進(jìn)行固有建模;(ii)填補(bǔ)零值,使其更好地接近真實(shí)的細(xì)胞表達(dá)水平,但不適合處理大量缺失。
2018年7月26日,哥倫比亞大學(xué)Dana Pe'er教授在Cell上發(fā)表MAGIC(Markov affinity-based graph imputation of cells),利用流形學(xué)習(xí)還原單細(xì)胞的基因表達(dá),并基于還原后的數(shù)據(jù)發(fā)現(xiàn)新的基因調(diào)控關(guān)系。

原文鏈接:https://doi.org/10.1016/j.cell.2018.05.061
代碼:https://nbviewer.jupyter.org/github/KrishnaswamyLab/magic/blob/master/python/tutorial_notebooks/emt_tutorial.ipynb
參考:https://mp.weixin.qq.com/s/8Io0qQttOALTEsmdftj0UQ