機(jī)器學(xué)習(xí)之強(qiáng)化學(xué)習(xí),機(jī)器的自我學(xué)習(xí)。

前言

最近一些讀者私聊我,說什么是強(qiáng)化學(xué)習(xí),那今天就簡單的講一下什么是強(qiáng)化學(xué)習(xí)。

就拿最近的618來說,在寶貝推薦場景中,阿里巴巴使用了深度強(qiáng)化學(xué)習(xí)與自適應(yīng)在線學(xué)習(xí),通過持續(xù)機(jī)器學(xué)習(xí)和模型優(yōu)化建立決策引擎,對(duì)海量用戶行為以及百億級(jí)商品特征進(jìn)行實(shí)時(shí)分析,幫助每一個(gè)用戶迅速發(fā)現(xiàn)寶貝,提高人和商品的配對(duì)效率。所以大家看到各種商品都會(huì)有那么一種想買的沖動(dòng)。


先說到機(jī)器學(xué)習(xí)。

機(jī)器學(xué)習(xí)可以大致分為四類:

監(jiān)督學(xué)習(xí)

無監(jiān)督學(xué)習(xí)

半監(jiān)督學(xué)習(xí)

強(qiáng)化學(xué)習(xí)

監(jiān)督學(xué)習(xí)是利用標(biāo)記了的樣本進(jìn)行學(xué)習(xí),無監(jiān)督學(xué)習(xí)則是使用未標(biāo)記的樣本進(jìn)行學(xué)習(xí),這兩個(gè)是我們最常見的。半監(jiān)督學(xué)習(xí)則是樣本中只有少量帶標(biāo)記的樣本,多數(shù)樣本都未標(biāo)記,利用這些樣本進(jìn)行學(xué)習(xí)。強(qiáng)化學(xué)習(xí)則是很不同的一種學(xué)習(xí)方式,它沒有規(guī)則的訓(xùn)練樣本和標(biāo)簽,主要通過獎(jiǎng)勵(lì)和懲罰達(dá)到學(xué)習(xí)的目的。

什么是強(qiáng)化學(xué)習(xí)?

《最強(qiáng)大腦》曾經(jīng)有個(gè)挑戰(zhàn)項(xiàng)目叫蜂巢迷宮,挑戰(zhàn)者不斷嘗試不斷試錯(cuò)。強(qiáng)化學(xué)習(xí)做法也類似,它主要包含三個(gè)概念:狀態(tài)、動(dòng)作和回報(bào)。同樣是以迷宮為例,智能體所在的位置即是狀態(tài),從某個(gè)位置向某方向走一步則為動(dòng)作,比如可以向左向右或向上向下,每走一步會(huì)產(chǎn)生回報(bào),比如撞到墻就是負(fù)回報(bào),好的動(dòng)作則會(huì)帶來正回報(bào)。而且不僅要關(guān)注當(dāng)前的回報(bào),還要關(guān)注長期的回報(bào),通過不斷試錯(cuò)學(xué)習(xí)到一個(gè)長期回報(bào)的動(dòng)作序列。

強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)的主要學(xué)習(xí)方法之一,智能體從環(huán)境到行為的學(xué)習(xí),也就是如何在環(huán)境中采取一些列行為,才能使得獎(jiǎng)勵(lì)信號(hào)函數(shù)的值最大,即獲得的累積回報(bào)最大。

強(qiáng)化學(xué)習(xí)不同于監(jiān)督學(xué)習(xí),監(jiān)督學(xué)習(xí)通過正確結(jié)果來指導(dǎo)學(xué)習(xí),而強(qiáng)化學(xué)習(xí)通過環(huán)境提供的信號(hào)對(duì)產(chǎn)生的動(dòng)作的好壞做一種評(píng)價(jià),它必須要靠自身經(jīng)歷進(jìn)行學(xué)習(xí)。學(xué)習(xí)后智能體知道在什么狀態(tài)下該采取什么行為,學(xué)習(xí)從環(huán)境狀態(tài)到動(dòng)作的映射,該映射稱為策略。

強(qiáng)化學(xué)習(xí)的特點(diǎn):

它是試錯(cuò)學(xué)習(xí),因?yàn)樗鼪]有像監(jiān)督學(xué)習(xí)一樣的直接指導(dǎo)信息,所以它只能不斷去跟環(huán)境交互不斷試錯(cuò)來獲取最佳策略。

它的回報(bào)具有延遲性,因?yàn)樗荒茉谧詈笠粋€(gè)狀態(tài)才能給出指導(dǎo)信息,這個(gè)問題也讓回報(bào)的分配更加困難,即在得到正回報(bào)或負(fù)回報(bào)后怎么分配給前面的狀態(tài)。

強(qiáng)化學(xué)習(xí)的運(yùn)用:

比如飛行器的飛行控制。

比如控制機(jī)器人的行走。

比如學(xué)習(xí)怎么玩游戲。

比如學(xué)習(xí)怎么理財(cái)投資。

比如學(xué)習(xí)怎么下棋。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容