
[注] 本文同時(shí)發(fā)于泛基因fungenomics公眾號(hào)和我的個(gè)人博客。
Deep Learning,現(xiàn)在幾乎到處都能看到它的應(yīng)用。看!緊隨DeepBind,在基因組學(xué)應(yīng)用中又來了一個(gè)DeepSEA——這是一個(gè)適用于表觀遺傳研究和應(yīng)用的工具,它只從DNA序列出發(fā),并沒用其他有關(guān)于表觀研究的實(shí)驗(yàn)或者測序技術(shù),通過直接輸入fasta sequence,vcf或者bed文件,就可以預(yù)測轉(zhuǎn)錄因子結(jié)合位點(diǎn)(Transcription factors binding site), DNase I超敏感位點(diǎn)(DNase I hypersensitive sites)和組蛋白靶點(diǎn)(histone marks),這么多年來,這樣的做法還是頭一回。下面這張示意圖展示的是各個(gè)主要的表觀修飾在染色體中的位置和相關(guān)實(shí)驗(yàn)測定技術(shù)。

為什么要有這么個(gè)東西呢?
眾所周知,人類基因組上絕大部分的序列都是非編碼序列——不直接編碼蛋白質(zhì)的序列,這些序列在很長的一段時(shí)間里都被誤解為所謂的“垃圾DNA”!但其實(shí)它們各自都有著獨(dú)特的作用——調(diào)控著機(jī)體的正常運(yùn)作,只是要想正確地理解它們確實(shí)不是一個(gè)容易的事情。DeepSEA想要干的就是嘗試從序列的基礎(chǔ)功能預(yù)測著手去解決這么一個(gè)難題。

它先通過學(xué)習(xí)大量已知的染色質(zhì)修飾數(shù)據(jù)——主要來自于ENCODE和Roadmap Epigenomics等大型項(xiàng)目,經(jīng)過不斷的訓(xùn)練,學(xué)習(xí)到了許多種在非編碼區(qū)域中序列調(diào)控的序列模式或者說是序列特征(注意是序列模式,不是功能模式),之后,便可以通過這些模式和特征去預(yù)測序列上單堿基的突變會(huì)如何影響染色質(zhì)的修飾功能。從發(fā)表的文章來看,其精確程度是目前所有方案中最高也是在同等數(shù)據(jù)下最有效的了。
DeepSEA 在Nature Method的原文http://www.nature.com/nmeth/journal/v12/n10/full/nmeth.3547.html
更贊的是它的代碼和相關(guān)訓(xùn)練數(shù)據(jù)都一起公開在網(wǎng)站上:http://deepsea.princeton.edu/ 可以嘗試玩起來了。
歡迎關(guān)注我的公眾號(hào):堿基礦工(helixminer),更及時(shí)了解更多信息