1.UCS DFS BFS A* search
2.Game Minimax, αβ pruning
3.CSP
4.FOL resolution proof 將結(jié)果取反,和原有條件搞出空集
5.Inference in FOL
- forward chaining 由已知條件modus poneus和and introduction 得到最后結(jié)果
- backward chaining 從結(jié)果出發(fā)進(jìn)行替換得到所有結(jié)果,要畫(huà)圖的
6.CNF
7.Planing
- Partial Order Plan
8.Neural Network 給一個(gè)網(wǎng)絡(luò)看輸出是什么或者設(shè)計(jì)
9.Naive Bayes
- 給一個(gè)情景,算概率
- 畫(huà)Bayesian Network
10.Decision Tree
- 分類
- 算information Gain

image.png

image.png
11.Markov Decision Processes
- 箭頭是Reward,每個(gè)格子里的是Untility U(s) = R(s)+??maxa∑s1(P(s1|s,a)U(s1))
- 把格子填滿后,各個(gè)方向就是Q值,Q值的計(jì)算:
如果計(jì)算完U值要計(jì)算Q值,就是用下面的式子:
有了策略π和立即回報(bào)函數(shù)r(s,a), Qπ(s,a)如何得到的呢?
對(duì)s11計(jì)算Q函數(shù)(用到了上面Vπ的結(jié)果)如下:
Qπ(s11,ar)=r(s11,ar)+ γ Vπ(s12) =0+0.9100 = 90
Qπ(s11,ad)=r(s11,ad)+ γ *Vπ(s21) = 72
Q值怎么計(jì)算:Q(E,3,2)那就是MaxQ(4,2)=U(4,2) 既是相應(yīng)方向相鄰格子的U(也是maxQ)
- 增強(qiáng)式學(xué)習(xí)要注意 第一次不改值,只是找到terminal在哪里
- 這個(gè)是增強(qiáng)式學(xué)習(xí)的時(shí)候的式子,一般會(huì)給怎么行動(dòng)的,Q(s,a)← Q(s,a) + ?(R(s)+?? maxa’Q(s’,a’)?Q(s,a))
γ越大,小鳥(niǎo)就會(huì)越重視以往經(jīng)驗(yàn),越小,小鳥(niǎo)只重視眼前利益(R)
α為學(xué)習(xí)速率(learning rate),γ為折扣因子(discount factor)。根據(jù)公式可以看出,學(xué)習(xí)速率α越大,保留之前訓(xùn)練的效果就越少。折扣因子γ越大,
max_aQ(S', a)
小鳥(niǎo)在對(duì)狀態(tài)進(jìn)行更新時(shí),會(huì)考慮到眼前利益(R),和記憶中的利益(
max_aQ(S', a)

image.png
12.Decision Networks
- Compute expected utility (EU)
- EU(AT∧?SB) = P(Acc|AT∧?SB)·U(Acc∧?SB) +P(?Acc|AT∧?SB)·U(?Acc∧?SB)
隨機(jī)事件在兩個(gè)選擇下的概率乘以Utility

image.png
13.Choose 2 homework3 projects, each one about a different dataset
Describe how each project relates to search, knowledge representation, reasoning about uncertainty, learning
Compare and contrast the two projects, describing limitations and strengths
14.Expected Untility

image.png
a 是action ,s'是a這個(gè)動(dòng)作導(dǎo)致的結(jié)果,e是已經(jīng)發(fā)生的事情 比如 J,M