2016版Alphago的方法簡(jiǎn)析

最近入坑用AI打游戲,決定先去扒alphagao是怎么做的

圍棋AI早期利用圍棋知識(shí)、棋譜進(jìn)行特征匹配之后擁抱蒙特卡洛樹搜索,在Alphago中在蒙特卡羅樹搜索的框架下,使用了監(jiān)督學(xué)習(xí)和增強(qiáng)學(xué)習(xí)的方法。數(shù)據(jù)來自160,000盤6-9段玩家的圍棋對(duì)戰(zhàn),共29,400,000個(gè)棋局

下面是算法大致構(gòu)架


說明:

蒙特卡羅樹搜索

個(gè)人認(rèn)為蒙特卡洛樹搜索是邏輯最為復(fù)雜的地方

首先熟悉一下蒙特卡羅方法

蒙特卡羅方法是一種統(tǒng)計(jì)模擬方法,是使用隨機(jī)數(shù)(或更常見的偽隨機(jī)數(shù))來解決很多計(jì)算問題的方法。當(dāng)所求解問題是某種隨機(jī)事件出現(xiàn)的概率,或者是某個(gè)隨機(jī)變量的期望值時(shí),通過“實(shí)驗(yàn)”的方法,以這種事件出現(xiàn)的頻率估計(jì)這一隨機(jī)事件的概率,或者得到這個(gè)隨機(jī)變量的某些數(shù)字特征,并將其作為問題的解。它是一種有偏估計(jì)。

舉個(gè)栗子:

希望得到π值的估計(jì),那么就在一個(gè)圓的外切正方形內(nèi)隨機(jī)放置100000個(gè)點(diǎn),通過坐落在園內(nèi)的點(diǎn)與全部點(diǎn)的比來得到π的估計(jì)。

再如計(jì)算積分,通過模擬點(diǎn)落在積分曲線內(nèi)部的概率得到這部分面積的估計(jì)。

蒙特卡羅樹搜索和蒙特卡羅方法還是不一樣的,前者沒有是無偏的。蒙特卡羅方法做的是概率估計(jì)而蒙特卡羅樹搜索卻可以做到局面估計(jì)。

蒙特卡洛樹搜索主要涉及到選擇、擴(kuò)展、模擬以及反向更新四個(gè)步驟

選擇過程會(huì)兼顧勝率和多樣性

具體到Alphago的算法:

選擇:

有兼顧到reward和多樣性

擴(kuò)展:

如果到達(dá)的葉子節(jié)點(diǎn)訪問次數(shù)不足閾值,是不做擴(kuò)展的,僅僅更新價(jià)值估計(jì)

如果超過了閾值,則做拓展,拓展節(jié)點(diǎn)訪問次數(shù)置為0,并用SL Policy Network求取落字先驗(yàn)

模擬:

使用value net進(jìn)行估計(jì)

使用rollout net快速走子進(jìn)行估計(jì)

綜合二者得到擴(kuò)展的葉節(jié)點(diǎn)的價(jià)值

反向更新:

各節(jié)點(diǎn)的訪問次數(shù)更新

各節(jié)點(diǎn)的價(jià)值更新(取均值)

落子選擇:

選擇訪問次數(shù)最多的

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 本文系《文工團(tuán)》約稿,禁止一切形式的未授權(quán)轉(zhuǎn)載,謝謝合作。這篇是約稿的第二版,第一版可以點(diǎn)這里。 圍棋,是一項(xiàng)中國...
    LostAbaddon閱讀 2,864評(píng)論 7 10
  • 這篇文章以比較通俗的語言簡(jiǎn)單介紹了AlphaGo的工作原理,可以先看看了解大概,會(huì)發(fā)現(xiàn)AlphaGo也沒有那么神秘...
    Founting閱讀 13,447評(píng)論 0 7
  • 寫在前面: 蒙特卡羅這個(gè)詞本身是賭城,而蒙特卡洛方法中確實(shí)體現(xiàn)出了賭博的隨機(jī)性、不確定性。筆者在這想討論的是基于蒙...
    陳澤康閱讀 2,446評(píng)論 0 5
  • 一. 增強(qiáng)學(xué)習(xí)簡(jiǎn)介 1.1 什么是增強(qiáng)學(xué)習(xí)? 機(jī)器學(xué)習(xí)的算法可以分為三類:監(jiān)督學(xué)習(xí),非監(jiān)督學(xué)習(xí)和增強(qiáng)學(xué)習(xí)。 增強(qiáng)學(xué)...
    阿阿阿阿毛閱讀 31,691評(píng)論 0 25
  • 這兩天花點(diǎn)時(shí)間看了發(fā)表在《Nature》上的Mastering the Game of Go without Hu...
    a微風(fēng)掠過閱讀 1,002評(píng)論 0 0

友情鏈接更多精彩內(nèi)容