国产人妻久久免费,99黄网站视频黑丝袜

本文主要內(nèi)容來源于 Berkeley CS285 Deep Reinforcement Learning

強化學(xué)習(xí)

一般來說機器學(xué)習(xí)模式可以分為三類：

有監(jiān)督學(xué)習(xí)： Supervised Learning
無監(jiān)督學(xué)習(xí): Unsupervised Learning
強化學(xué)習(xí)： Reinforcement Learning

image.png

強化學(xué)習(xí)與其他兩種機器學(xué)習(xí)模式差距很大，解決的問題也有很大不同。由于強化學(xué)習(xí)涉及概念比較多，而且訓(xùn)練比較難，所以在一般的機器學(xué)習(xí)書籍中，都不會涉及強化學(xué)習(xí)，而是由專門的書籍介紹。

有監(jiān)督學(xué)習(xí)和無監(jiān)督的學(xué)習(xí)的輸出一般都是確定性的答案，比如：模型會給出數(shù)據(jù)歸屬于哪一個類型，或者給出一個數(shù)值型的預(yù)測結(jié)果。而強化學(xué)習(xí)的目標是訓(xùn)練一個 agent，這個agent 會根據(jù)環(huán)境反饋，輸出一系列決策，而不是只輸出一個結(jié)果。相比其他兩種模型，強化學(xué)習(xí)模型更加類似人類大腦，可以根據(jù)環(huán)境，不斷的做出決策。

深度強化學(xué)習(xí) 是把深度學(xué)習(xí)中的神經(jīng)網(wǎng)絡(luò)引入強化學(xué)習(xí)后得到的模型。

強化學(xué)習(xí)的應(yīng)用大家其實并不陌生，一下都是一些很有名的應(yīng)用。

玩游戲

AlphaStar : 強化學(xué)習(xí)玩《星際爭霸2》

AlphaStar

棋類游戲

最有名的就是擊敗了人類圍棋高手的 AlphaGo

AlphaGo

自動駕駛

自動駕駛是司機（agent）在環(huán)境（道路）的反饋下，做出一系列決策的過程。這個過程非常符合強化學(xué)習(xí)模型的決策過程。

自動駕駛

工業(yè)自動化

強化學(xué)習(xí)可以用來控制生產(chǎn)線上的各種工業(yè)機器人的活動。

機器人控制

自動化金融交易

金融交易其實也是基于金融市場的一系列的決策過程，很符合強化學(xué)習(xí)的范式。目前這個領(lǐng)域已經(jīng)有了大量的研究成果。

自動化金融交易

自然語言處理 (Natural Language Processing, NLP)

由于語言資料也可以視為時序數(shù)據(jù)，因此我們也可以用強化學(xué)習(xí)來解決 NLP中的問題。

image.png

相關(guān)研究文章

醫(yī)療決策

強化學(xué)習(xí)可以用來優(yōu)化治療手段，這類研究被歸為 dynamic treatment regimes (DTRs) 問題。

image.png

工業(yè)生產(chǎn)線

Meta 開發(fā)了 Horizon，一個開源的強化學(xué)習(xí)平臺，用來提升大規(guī)模生產(chǎn)線的效率。 Horizon: The first open source reinforcement learning platform for large-scale products and services

實時競價

在線廣告系統(tǒng)每秒中都會做出大量的決策，強化學(xué)習(xí)可以幫助在線廣告系統(tǒng)在短時間內(nèi)快速的做出決策。

參考資料：

10 Real-Life Applications of Reinforcement Learning
CS285: Deep Reinforcement Learning 01
Reinforcement Learning 101
Reinforcement Learning: The Business Use Case, Part 2
Awesome RL NLP
Reinforcement Learning in Healthcare: A Survey
Horizon: The first open source reinforcement learning platform for large-scale products and services

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

深度強化學(xué)習(xí)（1）什么是深度強化學(xué)習(xí)？

深度強化學(xué)習(xí)（1）什么是深度強化學(xué)習(xí)？