博弈論學習2——貝葉斯博弈

定義

作為一種戰(zhàn)略博弈,貝葉斯博弈有兩個基本元素:參與人集合N和行動集合A_i,為了建模不確定性,引入自然狀態(tài)集合\Omega,其中元素為對參與人相關特征的描述。\Omega有概率測度p_i,每個人有對于某個自然狀態(tài)下的先驗概率。

注意,這里的定義中,每個自然狀態(tài)對于每個人視角的先驗概率可能是不一樣的,但一般來說,相等或者有關聯(lián)性。

信號函數(shù):t_i=\tau_i(\omega)表示自然狀態(tài)為\omega發(fā)生后,在每個人選擇他行動之前,第i人觀察到的信號。T_i表示為\tau_i的所有可能值的集合,稱之為類型集合,每一個\forall t_i\in T_i,p_i(\tau_i^{-1}(t_i))>0(這里表示第i人已經(jīng)觀察到信號t_i之后,t_i對應的自然狀態(tài)集合中的狀態(tài)的發(fā)生的先驗概率當然應該是正的,是0的話,認為第i個人無法收到t_i)。如果參與人i收到信號t_i\in T_i,那么能推斷出狀態(tài)在\tau_i^{-1}中,那么就實現(xiàn)了狀態(tài)的后驗概率,賦予了每一個狀態(tài)概率p_i(\omega)/p_i(\tau_i^{-1}(t_i))(也就是對于i已知t_i之后,\omega發(fā)生過的后驗概率)。這里如果\omega\not\in \tau_i^{-1}(t_i),當然應該賦予0。

例如,對所有\omega\in \Omega,若\tau_i(\omega)=\omega,那么參與人能夠擁有關于自然狀態(tài)的全部信息。又比如\Omega=\times_{i\in N} \tau_i,并且對每個人測度p_i\Omega上的乘積測度,同時\tau_i(\omega)=\omega_i,則參與人能獲得自己那部分自然狀態(tài),每個人的自然狀態(tài)分量/信號是獨立的而且每個人不能獲得其他人的自然狀態(tài)。

每個人關心他的行動組合,還有自然狀態(tài)/信號。由于他只有關于自然狀態(tài)的不完全信息,即使他掌握了所有自然狀態(tài)下每個人的反應,依舊沒有辦法確定自己應該怎么做。

一個貝葉斯博弈包括:

  1. 有限集合N(參與人集合)
  2. 有限狀態(tài)集合\Omega

對每個參與人i\in N

  1. 集合A_i(有效行動集合)
  2. 信號集合T_i和函數(shù)\tau_i:\Omega\to T_i
  3. \Omega上的一個概率測度p_i(參與人i的先驗概率),必須滿足對所有t_i\in T_ip_{i}\left(\tau_{i}^{-1}\left(t_{i}\right)\right)>0
  4. 一個關于A\times \Omega上的概率測度集合的偏好關系\succsim_i,這里A=\times_j\in N A_j

另外注意有時描述貝葉斯博弈并不涉及暗含的狀態(tài)空間\Omega,而是描述成“簡化形式”:參與人信息相關的基本元素是可能類型集合的組合。

貝葉斯博弈的納什均衡:考慮將貝葉斯博弈<N,\Omega,A,T,\tau,p,\succsim>的納什均衡定義成一個戰(zhàn)略博弈G^*的納什均衡,G^*的參與人被定義為i\in Nt_i\in T的組合(i,t_i)(具有類型t_i的參與人i),他的行動集合為A_i。這樣行動組合為\times_{j\in N}(\times_{t_j\in T_j}A_j)。偏好如下定義:在G^*中參與人(i,t_i)偏好行動組合a^*優(yōu)于行動組合b^*,等價于:參與人i在貝葉斯博弈中對不確定事件L_i(a^*,t_i)的偏好優(yōu)于L_i(b^*,t_i)。注意,這里L_i(a^*,t_i)的概率定義為發(fā)現(xiàn)t_i之后的對i的后驗概率(見上)。但是偏好的定義這里和概率無關。只有決策時,也就是求不確定事件的偏好時,才會用到概率求期望。

案例

二階拍賣

考慮二階拍賣的一個貝葉斯變形。也就是每個人知道自己對于物品的估價,但是不能確定別人的估價。作為特例,假定可能估價集合是有限集合V以及每個參與人都相信任何一個其他參與人獨立做出的估價都是從V上的同一分布出發(fā)的。則可以建模為貝葉斯博弈模型:

  1. 參與人集合N={1,...,n}
  2. 狀態(tài)集合\Omega=V^n
  3. 參與人行動集合A_i=R_+
  4. i收到的信號集合T_iV
  5. i的信號函數(shù)\tau_i定義為\tau_i(v_1,v_2,..v_n)=v_i,也就是自己的估價
  6. 先驗概率p_iV上的某個概率分布,p_{i}\left(v_{1}, \cdots, v_{n}\right)=\Pi_{j=1}^{n} \pi(v_i)
  7. 偏好關系:對于某個人出價最高,那么值為v_{i}-\max _{j} \in _{N \backslash\{i\}} a_{j},否則為0

這個博弈的納什均衡為,每個人都提出自己的估價。這是因為提出更高的價格,自己價值函數(shù)的期望更大;但也不會超過自己的預期定價,因為自己如果提高價格,而他人都提出了自己的估價,那么自己本來投不到的即使變成了投到了,還要額外付出代價,價值函數(shù)期望不會升高。


過度消息可能會導致的損害(感謝BZB和LX提供了這個例子)

情形1

圖片.png

博弈的收益矩陣如上,參與人1選擇行\{T,B\},參與人2選擇列\{L,M,R\},狀態(tài)集合為\Omega=\{A,B\},兩個參與人有共同的先驗概率分布p(A)=p(B)=\frac{1}{2}

參與人信號集合為T_1=\{0,1\},T_2=\{0\},兩人的信號函數(shù)如下:
\begin{aligned} &\tau_{1}(A)=0, \tau_{1}(B)=1\\ &\tau_{2}(A)=\tau_{2}(B)=0 \end{aligned}
換句話說信號對于參與人2,沒有意義。

這個博弈有一個唯一的納什均衡:
\sigma_{1}(0)=\sigma_{1}(1)=B ; \sigma_{2}(0)=M
下面僅對于\sigma_{2}(0)=M做出解釋:

由于對于參與人2,信號無幫助,因此他看來,仍有
P\left(w=A | \tau_{2}(w)=0\right\}=\left|\left(w=B | \tau_{2}(w)=0\right)=\frac{1}{2}\right.
在參與人1選擇B時,對于2,選擇L,期望為6,選擇M時,期望為7,選擇R時期望為6。

因此他會選擇M。

在均衡中,參與人2的收益為7。

情形2

圖片.png

博弈的受益矩陣同上,參與人策略同上,參與人1信號集合和信號函數(shù)同上。

參與人2的信號集合\{0,1\},\tau(A)=0,\tau(B)=1,也就是說2能通過信號知道1的決策。

這個博弈唯一的納什均衡是:
\sigma_{1}(0)=\sigma_{1}(1)=T ; \sigma_{2}(0)=R, \sigma_{2}(1)=L
這個均衡中,無論\omega=A||\omega=B,參與人的收益都只有3,小于上面的7。

這個結(jié)論有些違反直覺??梢匀绱藖砝斫?。雖然參與人2知道的更多了,但是參與人1也能知道“參與人2知道更多這件事”,參與人1對于這條信息的利用,可能能做到比參與人2更完善。

備注

  1. 這?將?葉斯博弈中對事件的偏好??付函數(shù)表達;對不確定事件的偏好??付函數(shù)的期望表達。
  2. 參與?的先驗概率按照定義可以不同,即使所有參與?有共同的先驗概率,也有可能和真實的概率
    分布?相徑庭:但我們在納什均衡中并不關?真實概率,每個參與?只需要關???的概率,計算
    ??的期望最優(yōu)回應就?了。
最后編輯于
?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容