人工智能向通用人工智能的躍遷之四——AXIX

AIXI ['ai?k?si?] 讀作“愛柯西” 是一個對通用人工智能的理論上的數(shù)學(xué)形式化,結(jié)合了Solomonoff 歸納和序列決策理論,2001年由 Marcus Hutter 教授提出。

其核心是一個強(qiáng)化學(xué)習(xí)智能體,最大化期望最大化來自環(huán)境的獎勵。它考慮了每個可計(jì)算的假設(shè)。在對應(yīng)強(qiáng)化學(xué)習(xí)的定義中,該智能體在每個時間步都會看每種可能的程序并衡量采取下個行動時該程序生成的獎勵。這個獎勵使用該程序構(gòu)建真實(shí)環(huán)境的主觀信念進(jìn)行衡量。這個信念從程序的長度計(jì)算而出:更長的程序更少被考慮,遵循奧卡姆剃刀原則。AIXI 然后選擇有用所有程序的帶權(quán)和的最高期望全獎勵的行動。

定義

AIXI 智能體會序列化地和某個(對其隨機(jī)和未知的)環(huán)境 \mu 進(jìn)行交互。在時間步 t,智能體輸出一個行動 a_t,環(huán)境會返回一個觀察 o_t 和一個根據(jù)條件概率分布 \mu(o_t r_t | a_1 o_1 r_1 \ldots a_{t-1} o_{t-1}r_{t-1}a_t) 的獎勵 r_t 。然后進(jìn)行重復(fù)。智能體期望最大化累積未來固定生命期 m 的獎勵 r_t+\ldots+r_m。

給定當(dāng)前時間 t 和歷史 a_1 o_1 r_1 \ldots a_{t-1} o_{t-1}r_{t-1},AIXI 輸出行動定義為:
\underset{a_t}{\arg\max} \sum_{o_t, r_t} \ldots \max_{a_m} \sum_{o_m, r_m} [r_t + \cdots + r_m] \sum_{q: U(q,a_1,\ldots,a_m)=o_1 r_1 \ldots o_m r_m} 2^{-\text{length}(q)}
其中 U 表示一個單調(diào)通用圖靈機(jī),而 q 跑遍在通用機(jī)器 U 的所有程序。

還有 38% 的精彩內(nèi)容
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。
支付 ¥3.14 繼續(xù)閱讀

相關(guān)閱讀更多精彩內(nèi)容

  • 本白皮書前期在國標(biāo)委工業(yè)二部和工信部科技司的指導(dǎo)下,通過梳理人工智能技術(shù)、應(yīng)用和產(chǎn)業(yè)演進(jìn)情況,分析人工智能的技術(shù)熱...
    筆名輝哥閱讀 24,580評論 2 143
  • 第一課 聯(lián)·互·網(wǎng):互聯(lián)網(wǎng)的本質(zhì) 我從1999年開始研究互聯(lián)網(wǎng),2006年正式加入阿里巴巴,一口氣干了12年的互聯(lián)...
    Hammer王閱讀 3,883評論 3 37
  • 簡介 承上一篇我的iOS入門第一課,本次要記錄的是一年前讀raywenderlich的基本教程的第二個app,Ch...
    __西門吹雪__閱讀 526評論 0 2
  • 年中,沒有值得慶祝的結(jié)果。可喜的是正在年初規(guī)劃的道路上穩(wěn)健前行! 常說不忘初心方得始終。年初就想用兩年...
    being彬閱讀 188評論 1 1
  • 要做項(xiàng)目經(jīng)理,還真不容易。如果你習(xí)慣把事情藏在心底,把事情都擱在自己的肩上,習(xí)慣于單打獨(dú)斗。對不起,你也許是個有擔(dān)...
    職場有什么好說閱讀 711評論 1 4

友情鏈接更多精彩內(nèi)容