深度強化學(xué)習(xí)(1) 什么是深度強化學(xué)習(xí)?

本文主要內(nèi)容來源于 Berkeley CS285 Deep Reinforcement Learning


強化學(xué)習(xí)

一般來說機器學(xué)習(xí)模式可以分為三類:

  • 有監(jiān)督學(xué)習(xí): Supervised Learning
  • 無監(jiān)督學(xué)習(xí): Unsupervised Learning
  • 強化學(xué)習(xí): Reinforcement Learning
image.png

強化學(xué)習(xí)與其他兩種機器學(xué)習(xí)模式差距很大, 解決的問題也有很大不同。由于強化學(xué)習(xí)涉及概念比較多, 而且訓(xùn)練比較難, 所以在一般的機器學(xué)習(xí)書籍中, 都不會涉及強化學(xué)習(xí), 而是由專門的書籍介紹。

有監(jiān)督學(xué)習(xí)和無監(jiān)督的學(xué)習(xí)的輸出一般都是確定性的答案, 比如: 模型會給出數(shù)據(jù)歸屬于哪一個類型, 或者給出一個數(shù)值型的預(yù)測結(jié)果。 而強化學(xué)習(xí)的目標是訓(xùn)練一個 agent, 這個agent 會根據(jù)環(huán)境反饋, 輸出一系列決策, 而不是只輸出一個結(jié)果。 相比其他兩種模型, 強化學(xué)習(xí)模型更加類似人類大腦, 可以根據(jù)環(huán)境, 不斷的做出決策。

RL

深度強化學(xué)習(xí) 是把深度學(xué)習(xí)中的神經(jīng)網(wǎng)絡(luò)引入強化學(xué)習(xí)后得到的模型。

強化學(xué)習(xí)的應(yīng)用大家其實并不陌生, 一下都是一些很有名的應(yīng)用。

玩游戲

AlphaStar : 強化學(xué)習(xí)玩《星際爭霸2》

AlphaStar
棋類游戲

最有名的就是擊敗了人類圍棋高手的 AlphaGo

AlphaGo
自動駕駛

自動駕駛是司機(agent)在環(huán)境(道路)的反饋下, 做出一系列決策的過程。這個過程非常符合強化學(xué)習(xí)模型的決策過程。

自動駕駛
工業(yè)自動化

強化學(xué)習(xí)可以用來控制生產(chǎn)線上的各種工業(yè)機器人的活動。

機器人控制
自動化金融交易

金融交易其實也是基于金融市場的一系列的決策過程, 很符合強化學(xué)習(xí)的范式。 目前這個領(lǐng)域已經(jīng)有了大量的研究成果。

自動化金融交易
自然語言處理 (Natural Language Processing, NLP)

由于語言資料也可以視為時序數(shù)據(jù), 因此我們也可以用強化學(xué)習(xí)來解決 NLP中的問題。

image.png

相關(guān)研究文章

醫(yī)療決策

強化學(xué)習(xí)可以用來優(yōu)化治療手段, 這類研究被歸為 dynamic treatment regimes (DTRs) 問題。

image.png
工業(yè)生產(chǎn)線

Meta 開發(fā)了 Horizon,一個開源的強化學(xué)習(xí)平臺,用來提升大規(guī)模生產(chǎn)線的效率。 Horizon: The first open source reinforcement learning platform for large-scale products and services

推薦系統(tǒng)

由于強化學(xué)習(xí)可以對環(huán)境的變化做出很好的反饋, 所以相比較傳統(tǒng)推薦系統(tǒng), 基于強化學(xué)習(xí)的推薦系統(tǒng)可以更快的適應(yīng)用戶興趣點的變化。

image.png
實時競價

在線廣告系統(tǒng)每秒中都會做出大量的決策, 強化學(xué)習(xí)可以幫助在線廣告系統(tǒng)在短時間內(nèi)快速的做出決策。


參考資料:

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容