本文主要內(nèi)容來源于 Berkeley CS285 Deep Reinforcement Learning
強化學(xué)習(xí)
一般來說機器學(xué)習(xí)模式可以分為三類:
- 有監(jiān)督學(xué)習(xí): Supervised Learning
- 無監(jiān)督學(xué)習(xí): Unsupervised Learning
- 強化學(xué)習(xí): Reinforcement Learning

強化學(xué)習(xí)與其他兩種機器學(xué)習(xí)模式差距很大, 解決的問題也有很大不同。由于強化學(xué)習(xí)涉及概念比較多, 而且訓(xùn)練比較難, 所以在一般的機器學(xué)習(xí)書籍中, 都不會涉及強化學(xué)習(xí), 而是由專門的書籍介紹。
有監(jiān)督學(xué)習(xí)和無監(jiān)督的學(xué)習(xí)的輸出一般都是確定性的答案, 比如: 模型會給出數(shù)據(jù)歸屬于哪一個類型, 或者給出一個數(shù)值型的預(yù)測結(jié)果。 而強化學(xué)習(xí)的目標是訓(xùn)練一個 agent, 這個agent 會根據(jù)環(huán)境反饋, 輸出一系列決策, 而不是只輸出一個結(jié)果。 相比其他兩種模型, 強化學(xué)習(xí)模型更加類似人類大腦, 可以根據(jù)環(huán)境, 不斷的做出決策。

深度強化學(xué)習(xí) 是把深度學(xué)習(xí)中的神經(jīng)網(wǎng)絡(luò)引入強化學(xué)習(xí)后得到的模型。
強化學(xué)習(xí)的應(yīng)用大家其實并不陌生, 一下都是一些很有名的應(yīng)用。
玩游戲
AlphaStar : 強化學(xué)習(xí)玩《星際爭霸2》

棋類游戲
最有名的就是擊敗了人類圍棋高手的 AlphaGo

自動駕駛
自動駕駛是司機(agent)在環(huán)境(道路)的反饋下, 做出一系列決策的過程。這個過程非常符合強化學(xué)習(xí)模型的決策過程。

工業(yè)自動化
強化學(xué)習(xí)可以用來控制生產(chǎn)線上的各種工業(yè)機器人的活動。

自動化金融交易
金融交易其實也是基于金融市場的一系列的決策過程, 很符合強化學(xué)習(xí)的范式。 目前這個領(lǐng)域已經(jīng)有了大量的研究成果。

自然語言處理 (Natural Language Processing, NLP)
由于語言資料也可以視為時序數(shù)據(jù), 因此我們也可以用強化學(xué)習(xí)來解決 NLP中的問題。

醫(yī)療決策
強化學(xué)習(xí)可以用來優(yōu)化治療手段, 這類研究被歸為 dynamic treatment regimes (DTRs) 問題。

工業(yè)生產(chǎn)線
Meta 開發(fā)了 Horizon,一個開源的強化學(xué)習(xí)平臺,用來提升大規(guī)模生產(chǎn)線的效率。 Horizon: The first open source reinforcement learning platform for large-scale products and services
推薦系統(tǒng)
由于強化學(xué)習(xí)可以對環(huán)境的變化做出很好的反饋, 所以相比較傳統(tǒng)推薦系統(tǒng), 基于強化學(xué)習(xí)的推薦系統(tǒng)可以更快的適應(yīng)用戶興趣點的變化。

實時競價
在線廣告系統(tǒng)每秒中都會做出大量的決策, 強化學(xué)習(xí)可以幫助在線廣告系統(tǒng)在短時間內(nèi)快速的做出決策。
參考資料:
- 10 Real-Life Applications of Reinforcement Learning
- CS285: Deep Reinforcement Learning 01
- Reinforcement Learning 101
- Reinforcement Learning: The Business Use Case, Part 2
- Awesome RL NLP
- Reinforcement Learning in Healthcare: A Survey
- Horizon: The first open source reinforcement learning platform for large-scale products and services