AIXI ['ai?k?si?] 讀作“愛柯西” 是一個對通用人工智能的理論上的數(shù)學(xué)形式化,結(jié)合了Solomonoff 歸納和序列決策理論,2001年由 Marcus Hutter 教授提出。
其核心是一個強(qiáng)化學(xué)習(xí)智能體,最大化期望最大化來自環(huán)境的獎勵。它考慮了每個可計(jì)算的假設(shè)。在對應(yīng)強(qiáng)化學(xué)習(xí)的定義中,該智能體在每個時間步都會看每種可能的程序并衡量采取下個行動時該程序生成的獎勵。這個獎勵使用該程序構(gòu)建真實(shí)環(huán)境的主觀信念進(jìn)行衡量。這個信念從程序的長度計(jì)算而出:更長的程序更少被考慮,遵循奧卡姆剃刀原則。AIXI 然后選擇有用所有程序的帶權(quán)和的最高期望全獎勵的行動。
定義
AIXI 智能體會序列化地和某個(對其隨機(jī)和未知的)環(huán)境 進(jìn)行交互。在時間步
,智能體輸出一個行動
,環(huán)境會返回一個觀察
和一個根據(jù)條件概率分布
的獎勵
。然后進(jìn)行重復(fù)。智能體期望最大化累積未來固定生命期
的獎勵
。
給定當(dāng)前時間 和歷史
,AIXI 輸出行動定義為:
其中 表示一個單調(diào)通用圖靈機(jī),而
跑遍在通用機(jī)器
的所有程序。