對(duì)策論亦稱競賽論或博弈論。是研究具有斗爭或競爭性質(zhì)現(xiàn)象的數(shù)學(xué)理論和方法。一般認(rèn)為,它既是現(xiàn)代數(shù)學(xué)的一個(gè)新分支,也是運(yùn)籌學(xué)中的一個(gè)重要學(xué)科。對(duì)策論發(fā)展的歷史并不長,但由于它所研究的現(xiàn)象與人們的政治、經(jīng)濟(jì)、軍事活動(dòng)乃至一般的日常生活等有著密切的聯(lián)系,并且處理問題的方法又有明顯特色。所以日益引起廣泛的注意。
在日常生活中,經(jīng)??吹揭恍┚哂邢嗷ブg斗爭或競爭性質(zhì)的行為。具有競爭或?qū)剐再|(zhì)的行為稱為對(duì)策行為。在這類行為中。參加斗爭或競爭的各方各自具有不同的目標(biāo)和利益。為了達(dá)到各自的目標(biāo)和利益,各方必須考慮對(duì)手的各種可能的行動(dòng)方案,并力圖選取對(duì)自己最為有利或最為合理的方案。對(duì)策論就是研究對(duì)策行為中斗爭各方是否存在著最合理的行動(dòng)方案,以及如何找到這個(gè)合理的行動(dòng)方案的數(shù)學(xué)理論和方法。
1.對(duì)策問題
對(duì)策問題的特征是參與者為利益相互沖突的各方,其結(jié)局不取決于其中任意一方的努力而是各方所采取的策略的綜合結(jié)果。
先看一個(gè)大家都熟悉的例子。
例1 (囚徒困境)警察同時(shí)逮捕了兩人并分開關(guān)押,逮捕的原因是他們持有大量偽幣,警方懷疑他們偽造錢幣,但沒有找到充分證據(jù),希望他們能自己供認(rèn),這兩個(gè)人都知道:如果他們雙方都不供認(rèn),將被以持有大量偽幣罪被各判刑 18 個(gè)月;如果雙方都供認(rèn)偽造了錢幣,將各被判刑 3 年;如果一方供認(rèn)另一方不供認(rèn),則供認(rèn)方將被從寬處理而免刑,但另一方面將被判刑 7 年。將嫌疑犯 A 、 B 被判刑的幾種可能情況列于表 1。
表1 各種情況對(duì)應(yīng)的判刑年數(shù)
| 供認(rèn) | 不供認(rèn) | |
|---|---|---|
| 供認(rèn) | (3,3) | (0,7) |
| 不供認(rèn) | (7,0) | (1.5,1.5) |
我們從這個(gè)問題中看一看對(duì)策問題的基本要素
1.1.對(duì)策的基本要素
1.1.1.局中人
在一個(gè)對(duì)策行為(或一局對(duì)策)中,有權(quán)決定自己行動(dòng)方案的對(duì)策參加者,稱為局中人。通常用表示局中人的集合.如果有
個(gè)局中人,則
。一般要求一個(gè)對(duì)策中至少要有兩個(gè)局中人。在例 1 中,局中人是
兩名疑犯。
1.1.2.策略集
一局對(duì)策中,可供局中人選擇的一個(gè)實(shí)際可行的完整的行動(dòng)方案稱為一個(gè)策略。參加對(duì)策的每一局中人,都有自己的策略集
。一般,每一局中人的策略集中至少應(yīng)包括兩個(gè)策略。
1.1.3.贏得函數(shù)(支付函數(shù))
再一局對(duì)策中,各局中人所選定的策略形成的策略組稱為一個(gè)局勢,即若是第
個(gè)局中人的一個(gè)策略,則
個(gè)局中人的策略組
就是一個(gè)局勢。全體局勢的集合 可用各局中人策略集的笛卡爾積表示,即:
當(dāng)局勢出現(xiàn)后,對(duì)策的結(jié)果也就確定了。也就是說,對(duì)任一局勢,,局中人
可以得到一個(gè)贏得
。顯然,
是局勢
的函數(shù),稱之為第
個(gè)局中人的贏得函數(shù)。這樣,就得到一個(gè)向量贏得函數(shù)
。
本節(jié)我們只討論有兩名局中人的對(duì)策問題,其結(jié)果可以推廣到一般的對(duì)策模型中去。
1.2.零和對(duì)策(矩陣對(duì)策)
零和對(duì)策是一類特殊的對(duì)策問題。在這類對(duì)策中,只有兩名局中人,每個(gè)局中人都只有有限個(gè)策略可供選擇。在任一純局勢下,兩個(gè)局中人的贏得之和總是等于零,即雙方的利益是激烈對(duì)抗的。
設(shè)局中人Ⅰ,Ⅱ的策略集分別為:
當(dāng)局中人Ⅰ選定策略和局中人Ⅱ選定策略
后,就形成了一個(gè)局勢
,可見這樣的局勢共有
個(gè)。對(duì)任一局勢
,記局中人Ⅰ的贏得值為
,并稱:
為局中人Ⅰ的贏得矩陣(或?yàn)榫种腥刷虻闹Ц毒仃嚕?。由于假定假定?duì)策為零和的,故局中人Ⅱ的贏得矩陣就是,一個(gè)零和對(duì)策就給定了,零和對(duì)策又可稱為矩陣對(duì)策并可簡記成:
例2 設(shè)有一矩陣對(duì)策
,其中
,
從中可以看出,若局中人Ⅰ希望獲得最大盈利30,需采用策略
,但此時(shí)若局中人Ⅱ采用策略
,局中人Ⅰ采取策略
時(shí),最壞的贏得結(jié)果分別是:
其中最好的可能為。如果局中人Ⅰ采取策略
,無論局中人Ⅱ采取什么策略,局中人Ⅰ的贏得君不悔少于2.
局中人Ⅱ采取各方案的最大損失為,
,和
。當(dāng)局中人Ⅱ采取策略
,其損失不會(huì)超過2。注意到在贏得矩陣矩陣,2即是所在航中的最小元素又是所在列中的最大元素。此時(shí),只要對(duì)方不改變策略,任一局中人都不可能通過變換策略來增大贏得或減少損失,成這樣的局勢為對(duì)策的一個(gè)穩(wěn)定點(diǎn)或穩(wěn)定解。
定義1 設(shè)
為一個(gè)定義在
及
上的實(shí)值函數(shù),如果存在
,
,使得對(duì)一切
和
有:
則稱為函數(shù)
的一個(gè)鞍點(diǎn)。
定義2 設(shè)
為矩陣對(duì)策,其中
,
。若等式
成立,記,則稱
為對(duì)策
的值,稱使(1)式成立的純局勢
為對(duì)策
的鞍點(diǎn)或穩(wěn)定解,贏得矩陣中與
相對(duì)應(yīng)的元素
稱為贏得矩陣的鞍點(diǎn),
與
分別稱為局中人Ⅰ和Ⅱ的最優(yōu)純策略。
給定一個(gè)對(duì)策,如何判斷它是否有鞍點(diǎn)呢?為了回答這一問題,先引入下面的極大極小原理。
定理1 設(shè)
,記
,則必有
定理2 零和策略
具有穩(wěn)定解的充要條件是
2.零和定理的混合策略
具有穩(wěn)定解的零和問題是一類特別簡單的對(duì)策問題,它所對(duì)應(yīng)的贏得矩陣存在鞍點(diǎn),任一局中人都不可能通過自己單方面的努力來改進(jìn)結(jié)果。然而,在實(shí)際遇到的零和對(duì)策中更典型的是
的情況。由于矩陣中不存在鞍點(diǎn),此時(shí)在只使用純策略的范圍內(nèi),對(duì)策問題無解,下面我們引進(jìn)零和對(duì)策的混合策略。
設(shè)局中人Ⅰ用概率選用策略
,局中人Ⅱ用概率
選用策略
,
,記
,則局中人Ⅰ的期望贏得為
,簡單記:
定義3 若存在
維向量
和
維向量
,使得對(duì)一切
維向量
和
維向量
有:
則稱為混合策略對(duì)策問題的鞍點(diǎn)。
定理3 設(shè)
,則
為
的解的充要條件是:
定理4 任意混合策略對(duì)策問題必存在鞍點(diǎn),即必存在概率向量
和
,使得:
使用純策略的對(duì)策問題(具有穩(wěn)定解的對(duì)策問題)可以看成使用混合策略的對(duì)策問題的特殊情況,相當(dāng)于以概率 1 選取其中某一策略,以概率 0 選取其余策略。
例3
為作戰(zhàn)雙方,
方擬派兩架轟炸機(jī)Ⅰ和Ⅱ去轟炸
方的指揮部,轟炸機(jī)Ⅰ在前面飛行,Ⅱ隨后。兩架轟炸機(jī)中只有一架帶有炸彈,而另一架僅為護(hù)航。轟炸機(jī)飛至
方上空,受到
方戰(zhàn)斗機(jī)的阻擊。若戰(zhàn)斗機(jī)阻擊后面的轟炸機(jī)Ⅱ,它僅受Ⅱ的射擊,被擊中的概率為0.3(Ⅰ來不及返回攻擊它)。一旦戰(zhàn)斗機(jī)未被擊中,他將以0.6的概率擊毀其選中的轟炸機(jī)。請(qǐng)為
雙方各選擇一個(gè)最優(yōu)策略,即,對(duì)于A方應(yīng)該選擇哪一架轟炸機(jī)裝載炸彈?對(duì)于
方戰(zhàn)斗機(jī)應(yīng)阻擊哪一架轟炸機(jī)?
解:雙方可選擇的策略集分別是:
轟炸機(jī)Ⅰ裝炸彈,Ⅱ護(hù)航。
轟炸機(jī)Ⅱ裝炸彈,Ⅰ護(hù)航。
贏得矩陣,
為
方采取策略
而
方采取策略
時(shí),轟炸機(jī)轟炸
方指揮部的概率,由題意可計(jì)算出:
即贏得矩陣:
易求得。由于
,矩陣
不存在鞍點(diǎn),應(yīng)當(dāng)求最佳混合策略。
現(xiàn)設(shè)以概率
取策略
,以概率
取策略
;
以概率
取策略
,以概率
取策略
。
先從
方來考慮問題。
采用
時(shí),
方轟炸機(jī)攻擊指揮部的概率期望值為
,而
采用
時(shí),
方轟炸機(jī)攻擊指揮部的概率的期望值為
。若
,不妨設(shè)
,則
方必采用
,則
方必采用
以減少指揮部被轟炸的概率。故對(duì)
方選取的最佳概率
和
,必滿足:
即:
由此解得
同樣,可以從
方考慮問題,得:
即:
并解得。
方指揮部被轟炸的概率的期望值
。
記零和對(duì)策的解集為
,下面三個(gè)定理是關(guān)于對(duì)策解集性質(zhì)的主要結(jié)果:
定理4 設(shè)有兩個(gè)零和對(duì)策
其中為任一常數(shù)。則
(1)
(2)
定理5 設(shè)有兩個(gè)零和對(duì)策
其中為任一常數(shù)。則:
(1)
(2)
定理6 設(shè)
為一零和對(duì)策,且
為反對(duì)稱矩陣(亦稱這種對(duì)策為對(duì)稱對(duì)策)。則
(1)
(2)
以上三個(gè)定理中
和
為局中人Ⅰ和Ⅱ的最佳策略集。
以上定理說明,把矩陣
加一個(gè)常數(shù),倍乘,反對(duì)稱變換,最佳策略集不變。