Exploration and Exploitation —— 探索與利用

作者@ weanl
創(chuàng)建于 2018-12-22T14:30:00
參考鏈接:

1. 介紹

1.1 探索與利用間的困境

  • Online decision-making involves a fundamental choice:
    Exploitation Make the best decision given current information
    Exploration Gather more information
  • The best long-term strategy may involve short-term sacrifices
  • Gather enough information to make the best overall decisions

1.2 生活中栗子

  • Restaurant Selection
    Exploitation Go to your favorite restaurant
    Exploration Try a new restaurant
  • Online Banner Advertisements
    Exploitation Show the most successful advert
    Exploration Show a different advert
  • Oil Drilling
    Exploitation Drill at the best known location
    Exploration Drill at a new location
  • Game Playing
    Exploitation Play the move you believe is best
    Exploration Play an experiment move

1.3 伍種策略規(guī)則

  • Naive Exploration
    Add noise to greedy policy (e.g. \epsilon-greedy)
  • Optimistic Initialization
    Assume the best until proven otherwise
  • Optimism in the Face of Uncertainty

2. 引入多臂老虎機(jī) (The Multi-Armed Bandit)

拉斯維加斯的一排老虎機(jī)

維基百科解釋如下:
??這個(gè)名字來自于想象一個(gè)賭徒在一排老虎機(jī)(有時(shí)被稱為“單臂匪徒”),他們必須決定要玩哪些機(jī)器,玩每臺(tái)機(jī)器多少次以及按順序播放它們,以及是否繼續(xù)使用當(dāng)前的機(jī)器或嘗試不同的機(jī)器。在該問題中,每臺(tái)機(jī)器從特定于該機(jī)器的概率分布中提供隨機(jī)獎(jiǎng)勵(lì)。賭徒的目標(biāo)是通過一系列杠桿拉動(dòng)最大化獲得的獎(jiǎng)勵(lì)總和。[3] [4]賭徒在每次試驗(yàn)中面臨的關(guān)鍵權(quán)衡是在“利用”具有最高預(yù)期收益的機(jī)器和“探索”以獲得關(guān)于其他機(jī)器的預(yù)期收益的更多信息之間

2.1 最大化cumulative reward && 最小化 total regret

  • 動(dòng)作空間和獎(jiǎng)賞分布
    ??在t時(shí)刻,Agent做出動(dòng)作\alpha_t \in \cal AEnvironment依據(jù)未知分布\cal R^{\alpha}(r)=\mathbb P[r|\alpha]產(chǎn)生對(duì)應(yīng)的獎(jiǎng)賞值r_t \sim \cal R^{\alpha_t}=\mathbb P[r| \alpha_t]。動(dòng)作空間和獎(jiǎng)賞分布 可以記為二元組\langle \cal A, \cal R \rangle,產(chǎn)生的具體觀測(cè)記為 \langle \alpha_t, r_t \rangle
  • 最大化cumulative reward
    max \sum_{\tau=1}^{t}{r_\tau}


且聽下回分解

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • rljs by sennchi Timeline of History Part One The Cognitiv...
    sennchi閱讀 7,854評(píng)論 0 10
  • **2014真題Directions:Read the following text. Choose the be...
    又是夜半驚坐起閱讀 11,088評(píng)論 0 23
  • 昊哥說他只想做兩件事,一是探索消費(fèi)新邊疆,二是完善現(xiàn)有系統(tǒng)。我覺得這兩件事都很厲害。昊哥總結(jié)的很到位,很有想...
    十二班的xiaohua閱讀 249評(píng)論 0 0
  • 1.俊琦,你一個(gè)人坐車從東莞過來學(xué)習(xí)。真是一個(gè)獨(dú)立的男子漢啦,過馬路還提醒我要看車,真是一個(gè)貼心的暖男,真的長(zhǎng)大了...
    肖馨肖馨閱讀 199評(píng)論 0 1
  • 案例呈現(xiàn) 今天上完課穩(wěn)媽跟我提出意見。孩子每次都依照規(guī)矩進(jìn)行排隊(duì)。但是有些孩子都會(huì)自己直接插入隊(duì)伍中,導(dǎo)致穩(wěn)穩(wěn)會(huì)不...
    文文的花期閱讀 213評(píng)論 0 1

友情鏈接更多精彩內(nèi)容