前言
最近一些讀者私聊我,說什么是強(qiáng)化學(xué)習(xí),那今天就簡單的講一下什么是強(qiáng)化學(xué)習(xí)。
就拿最近的618來說,在寶貝推薦場景中,阿里巴巴使用了深度強(qiáng)化學(xué)習(xí)與自適應(yīng)在線學(xué)習(xí),通過持續(xù)機(jī)器學(xué)習(xí)和模型優(yōu)化建立決策引擎,對(duì)海量用戶行為以及百億級(jí)商品特征進(jìn)行實(shí)時(shí)分析,幫助每一個(gè)用戶迅速發(fā)現(xiàn)寶貝,提高人和商品的配對(duì)效率。所以大家看到各種商品都會(huì)有那么一種想買的沖動(dòng)。

先說到機(jī)器學(xué)習(xí)。
機(jī)器學(xué)習(xí)可以大致分為四類:
監(jiān)督學(xué)習(xí)
無監(jiān)督學(xué)習(xí)
半監(jiān)督學(xué)習(xí)
強(qiáng)化學(xué)習(xí)
監(jiān)督學(xué)習(xí)是利用標(biāo)記了的樣本進(jìn)行學(xué)習(xí),無監(jiān)督學(xué)習(xí)則是使用未標(biāo)記的樣本進(jìn)行學(xué)習(xí),這兩個(gè)是我們最常見的。半監(jiān)督學(xué)習(xí)則是樣本中只有少量帶標(biāo)記的樣本,多數(shù)樣本都未標(biāo)記,利用這些樣本進(jìn)行學(xué)習(xí)。強(qiáng)化學(xué)習(xí)則是很不同的一種學(xué)習(xí)方式,它沒有規(guī)則的訓(xùn)練樣本和標(biāo)簽,主要通過獎(jiǎng)勵(lì)和懲罰達(dá)到學(xué)習(xí)的目的。
什么是強(qiáng)化學(xué)習(xí)?
《最強(qiáng)大腦》曾經(jīng)有個(gè)挑戰(zhàn)項(xiàng)目叫蜂巢迷宮,挑戰(zhàn)者不斷嘗試不斷試錯(cuò)。強(qiáng)化學(xué)習(xí)做法也類似,它主要包含三個(gè)概念:狀態(tài)、動(dòng)作和回報(bào)。同樣是以迷宮為例,智能體所在的位置即是狀態(tài),從某個(gè)位置向某方向走一步則為動(dòng)作,比如可以向左向右或向上向下,每走一步會(huì)產(chǎn)生回報(bào),比如撞到墻就是負(fù)回報(bào),好的動(dòng)作則會(huì)帶來正回報(bào)。而且不僅要關(guān)注當(dāng)前的回報(bào),還要關(guān)注長期的回報(bào),通過不斷試錯(cuò)學(xué)習(xí)到一個(gè)長期回報(bào)的動(dòng)作序列。

強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)的主要學(xué)習(xí)方法之一,智能體從環(huán)境到行為的學(xué)習(xí),也就是如何在環(huán)境中采取一些列行為,才能使得獎(jiǎng)勵(lì)信號(hào)函數(shù)的值最大,即獲得的累積回報(bào)最大。
強(qiáng)化學(xué)習(xí)不同于監(jiān)督學(xué)習(xí),監(jiān)督學(xué)習(xí)通過正確結(jié)果來指導(dǎo)學(xué)習(xí),而強(qiáng)化學(xué)習(xí)通過環(huán)境提供的信號(hào)對(duì)產(chǎn)生的動(dòng)作的好壞做一種評(píng)價(jià),它必須要靠自身經(jīng)歷進(jìn)行學(xué)習(xí)。學(xué)習(xí)后智能體知道在什么狀態(tài)下該采取什么行為,學(xué)習(xí)從環(huán)境狀態(tài)到動(dòng)作的映射,該映射稱為策略。
強(qiáng)化學(xué)習(xí)的特點(diǎn):
它是試錯(cuò)學(xué)習(xí),因?yàn)樗鼪]有像監(jiān)督學(xué)習(xí)一樣的直接指導(dǎo)信息,所以它只能不斷去跟環(huán)境交互不斷試錯(cuò)來獲取最佳策略。
它的回報(bào)具有延遲性,因?yàn)樗荒茉谧詈笠粋€(gè)狀態(tài)才能給出指導(dǎo)信息,這個(gè)問題也讓回報(bào)的分配更加困難,即在得到正回報(bào)或負(fù)回報(bào)后怎么分配給前面的狀態(tài)。
強(qiáng)化學(xué)習(xí)的運(yùn)用:
比如飛行器的飛行控制。
比如控制機(jī)器人的行走。
比如學(xué)習(xí)怎么玩游戲。
比如學(xué)習(xí)怎么理財(cái)投資。
比如學(xué)習(xí)怎么下棋。
