「文獻(xiàn)05」深度學(xué)習(xí)應(yīng)用于基因組學(xué)的入門指導(dǎo)

日期:2019年2月2日——2019-Week5
分類:「綜述+資源」
題目:A primer on deep learning in genomics
DOI: https://doi.org/10.1038/s41588-018-0295-5
雜志:Nature genetics,21 December 2018
關(guān)鍵詞: Deep learning,genomics

深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個變異,其使用神經(jīng)網(wǎng)絡(luò)從數(shù)據(jù)集中自動提取新的特征。目前成功應(yīng)用于圖像識別、機(jī)器人(如無人駕駛),在大數(shù)據(jù)研究中也發(fā)揮著重要的作用。隨著測序技術(shù)的發(fā)展,生命組學(xué)的數(shù)據(jù)爆發(fā)式增加,將深度學(xué)習(xí)作為基因組學(xué)領(lǐng)域的工具是完全合適的,雖然目前仍然處于研究初期階段,但是深度學(xué)習(xí)在癌癥診斷和治療、臨床遺傳學(xué)、作物改良、流行病學(xué)和公共衛(wèi)生、人口遺傳學(xué)、進(jìn)化或系統(tǒng)發(fā)育分析以及功能基因組學(xué)等領(lǐng)域展現(xiàn)出巨大潛在應(yīng)用價值。

這篇文章對深度學(xué)習(xí)在基因組學(xué)中的應(yīng)用提供了一個入門指導(dǎo),包括以下幾方面內(nèi)容:

  • 深度學(xué)習(xí)的基本概念和方法
  • 如何有效的使用深度學(xué)習(xí)
  • 解讀深度學(xué)習(xí)模型
  • 深度學(xué)習(xí)在基因組中的應(yīng)用
  • 深度學(xué)習(xí)的工具資源
  • 基于卷積神經(jīng)網(wǎng)絡(luò)預(yù)測DNA-binding motifs的交互教程

1. 深度學(xué)習(xí)的基本概念和方法

  • 監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)
    機(jī)器學(xué)習(xí)的任務(wù)可以歸結(jié)為兩類:監(jiān)督(supervised)和無監(jiān)督(unsupervised)。監(jiān)督學(xué)習(xí)的目標(biāo)是通過一個帶標(biāo)簽的訓(xùn)練集預(yù)測每個數(shù)據(jù)點的標(biāo)簽(分類)或者響應(yīng)(回歸);無監(jiān)督學(xué)習(xí),像聚類和PCA,是學(xué)習(xí)數(shù)據(jù)本身的內(nèi)在模式和特點。大多數(shù)機(jī)器學(xué)習(xí)的最終目標(biāo)是優(yōu)化模型,使其不僅適用于訓(xùn)練集,也適用于其他數(shù)據(jù)集,提高模型的普適性。
  • 訓(xùn)練集、驗證集和測試集
    基于以上目標(biāo),數(shù)據(jù)通常分為三種類型:訓(xùn)練集、驗證集和測試集。訓(xùn)練集用于調(diào)整模型參數(shù),驗證集用于選取最優(yōu)模型,測試集用于評估模型的普適性效果。機(jī)器學(xué)習(xí)在模型靈活性和訓(xùn)練集數(shù)據(jù)量之間必須達(dá)到一個平衡。
  • 深度學(xué)習(xí)
    大型神經(jīng)網(wǎng)絡(luò)—深度學(xué)習(xí)的一種主要形式是機(jī)器學(xué)習(xí)算法的一類,可以用于預(yù)測和降維。用于基因組學(xué)中的深度學(xué)習(xí)和標(biāo)準(zhǔn)的機(jī)器學(xué)習(xí)方法的不同在于:深度學(xué)習(xí)模型有更高的能力和更多的靈活性。
  • 神經(jīng)網(wǎng)絡(luò)
    神經(jīng)網(wǎng)絡(luò)的起點是一個人工神經(jīng)元,它以一個實數(shù)向量作為輸入,然后計算這些值的加權(quán)平均值,然后進(jìn)行非線性變換,可以得到一個簡單的閾值。權(quán)重是訓(xùn)練期間學(xué)習(xí)的模型參數(shù)。神經(jīng)網(wǎng)絡(luò)的力量源于高度模塊化和可組合單個神經(jīng)元,一個神經(jīng)元的輸出可以直接作為另一個神經(jīng)元的輸入,神經(jīng)元組合起來就形成一個神經(jīng)網(wǎng)絡(luò)。
  • 神經(jīng)網(wǎng)絡(luò)的三個主要架構(gòu):前饋、卷積和遞歸
    有三個常見的架構(gòu)家族用于連接神經(jīng)元網(wǎng)絡(luò)化:前饋、卷積和遞歸(feed-forward, convolutional and recurrent)。
    前饋是最簡單的架構(gòu),第i層的每一個神經(jīng)元只與第i+1層的神經(jīng)元相連,并且所有的連接邊緣都可以有不同的權(quán)重。前饋結(jié)構(gòu)適用于輸入數(shù)據(jù)特征之間沒有特殊關(guān)系時的預(yù)測問題。
    卷積神經(jīng)網(wǎng)絡(luò)(CNN,convolutional neural network)在輸入矩陣中掃描一個神經(jīng)元,在輸入的每個位置,CNN計算局部加權(quán)和并產(chǎn)生一個輸出值。這個過程類似于從DNA序列中獲取motif時使用的位置權(quán)重矩陣。CNN適用于輸入數(shù)據(jù)中某些空間不變的模式。
    遞歸神經(jīng)網(wǎng)絡(luò)(RNN,Recurrent neural networks ) 適用于順序或時間序列的數(shù)據(jù)。在序列中的每一點,可應(yīng)用一個前饋或卷積的神經(jīng)網(wǎng)絡(luò)來產(chǎn)生一個內(nèi)部信號,該信號也被送入RNN的下一步。RNN的隱藏層可以被視為內(nèi)存狀態(tài),它保留以前觀察到的序列中的信息,并在每個時間步驟中更新。
    有一些用于無監(jiān)督學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),最常見的是執(zhí)行非線性降維的自動編碼器。
深度學(xué)習(xí)的工作流

相關(guān)術(shù)語:

2. 如何有效的使用深度學(xué)習(xí)

  • 首先設(shè)計一個合適的訓(xùn)練數(shù)據(jù)集并選擇合適的評價指標(biāo)
  • 需要領(lǐng)域的專業(yè)知識

深度學(xué)習(xí)的主要元素和指導(dǎo):

  • 大的訓(xùn)練集(通常數(shù)千個樣本),去除混雜或污染
  • 主要架構(gòu):feed-forward, convolutional and recurrent
  • 大多數(shù)基因組數(shù)據(jù)不需要很深的網(wǎng)絡(luò)
  • 必須對數(shù)據(jù)的高精度保持警惕如由于不平衡或偏差使分類過于簡單的
  • 與簡單的機(jī)器學(xué)習(xí)比較在同一數(shù)據(jù)集上的模型
  • 深度學(xué)習(xí)可以實現(xiàn)高精度,但是解釋的時候比標(biāo)準(zhǔn)的統(tǒng)計模型困難

3. 解讀深度學(xué)習(xí)模型

在基因組學(xué)中的應(yīng)用,研究者更關(guān)心的是預(yù)測模型揭示的生物機(jī)制。
如對于CNN來說,還可以可視化每個卷積過濾器作為熱圖或位置權(quán)重矩陣圖像,這些可視化有助于了解網(wǎng)絡(luò)正在學(xué)習(xí)的特征。

4.深度學(xué)習(xí)在基因組中的應(yīng)用

  • 染色質(zhì)可及性和轉(zhuǎn)錄調(diào)控
  • Khodabandelou, G., Mozziconacci, J. & Routhier, E. Genome functional
    annotation using deep convolutional neural network. Preprint at https://www.
    biorxiv.org/content/early/2018/05/25/330308 (2018).
  • Kelley, D. R., Snoek, J. & Rinn, J. L. Basset: learning the regulatory code of the accessible genome with deep convolutional neural networks. Genome Res. 26, 990–999 (2016).
  • Quang, D. & Xie, X. DanQ: a hybrid convolutional and recurrent deep neural network for quantifying the function of DNA sequences. Nucleic Acids Res. 44, e107 (2016).
  • Li, Y., Shi, W. & Wasserman, W. W. Genome-wide prediction of cis-regulatory regions using supervised deep learning methods. BMC Bioinformatics 19,202 (2018).
  • 從基因型數(shù)據(jù)預(yù)測基因表達(dá)的模型

Xie, R., Wen, J., Quitadamo, A., Cheng, J. & Shi, X. A deep auto-encoder
model for gene expression prediction. BMC Genomics 18 (Suppl. 9),
845 (2017)

  • 研究剪切模式模型

Jha, A., Gazzara, M. R. & Barash, Y. Integrative deep models for alternative
splicing. Bioinformatics 33, i274–i282 (2017).

  • 鑒定lncRNA
  • Tripathi, R., Patel, S., Kumari, V., Chakraborty, P. & Varadwaj, P. K.
    DeepLNC, a long non-coding RNA prediction tool using deep neural
    network. Netw. Model. Anal. Health Inform. Bioinform. 5, 21 (2016).
  • Yu, N., Yu, Z. & Pan, Y. A deep learning method for lincRNA detection using auto-encoder algorithm. BMC Bioinformatics 18 (Suppl. 15), 511 (2017).
  • Hill, S. T. et al. A deep recurrent neural network discovers complex biological rules to decipher RNA protein-coding potential. Nucleic Acids Res. 46, 8105–8113 (2018).
  • 研究單細(xì)胞中調(diào)控機(jī)制,如甲基化,亞型分析
  • Wang, Y. et al. Predicting DNA methylation state of CpG dinucleotide using
    genome topological features and deep networks. Sci. Rep. 6, 19598 (2016).
  • Angermueller, C., Lee, H. J., Reik, W. & Stegle, O. DeepCpG: accurate
    prediction of single-cell DNA methylation states using deep learning. Genome
    Biol. 18, 67 (2017).
  • Shaham, U. et al. Removal of batch effects using distribution-matching
    residual networks. Bioinformatics 33, 2539–2546 (2017).
  • Lin, C., Jain, S., Kim, H. & Bar-Joseph, Z. Using neural networks for reducing the dimensions of single-cell RNA-Seq data. Nucleic Acids Res. 45, e156 (2017).
  • 基因組高級結(jié)構(gòu)
  • Wang, Y. et al. Predicting DNA methylation state of CpG dinucleotide using
    genome topological features and deep networks. Sci. Rep. 6, 19598 (2016).
  • Schreiber, J., Libbrecht, M., Bilmes, J. & Noble, W. Nucleotide sequence and DNaseI sensitivity are predictive of 3D chromatin architecture. Preprint at
    https://www.biorxiv.org/content/early/2017/01/30/103614 (2017).
  • 基因組變異
    如:DeepVariant,從短讀長序列中利用CNN找變異

Poplin, R. et al. Creating a universal SNP and small indel variant caller with
deep neural networks. Preprint at https://www.biorxiv.org/content/
early/2018/03/20/092890 (2017).

還有基于長讀長的數(shù)據(jù)利用深度學(xué)習(xí)進(jìn)行base calling的技術(shù),如:

  • Bo?a, V., Brejová, B. & Vina?, T. DeepNano: deep recurrent neural networks for base calling in MinION nanopore reads. PLoS One 12, e0178751 (2017).
  • Teng, H., Hall, M.B., Duarte, T., Cao, M.D. & Coin, L. Chiron: translating

nanopore raw signal directly into nucleotide sequence using deep learning.
Preprint at https://www.biorxiv.org/content/early/2017/08/23/179531 (2017).

  • 預(yù)測非編碼元件變異的功能結(jié)果
    DeepSEA除了可以預(yù)測非編碼元件變異的功能結(jié)果,還可以用于自閉癥譜系障礙的調(diào)節(jié)變異的研究。
    ExPecto可以從200多種組織和細(xì)胞類型中預(yù)測基因表達(dá)水平和序列的變異效應(yīng)
  • Zhou, J. & Troyanskaya, O. G. Predicting effects of noncoding variants with deep learning-based sequence model. Nat. Methods 12, 931–934 (2015).
  • Zhou, J. et al. Whole-genome deep learning analysis reveals causal role of
    noncoding mutations in autism. Preprint at https://www.biorxiv.org/content/
    early/2018/05/11/319681 (2018).
  • Zhou, J. et al. Deep learning sequence-based ab initio prediction of variant
    effects on expression and disease risk. Nat. Genet. 50, 1171–1179 (2018).

5. 深度學(xué)習(xí)的工具資源

6. 基于卷積神經(jīng)網(wǎng)絡(luò)預(yù)測DNA-binding motifs的交互教程

https://colab.research.google.com/drive/17E4h5aAOioh5DiTo7MZg4hpL6Z_0FyWr

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容