欢迎来到优发表网,发表咨询:400-888-9411 订阅咨询:400-888-1571股权代码(211862)

购物车(0)

期刊大全 杂志订阅 SCI期刊 期刊投稿 出版社 公文范文 精品范文

博弈论的局限性(合集7篇)

时间:2024-04-19 10:19:57

博弈论的局限性第1篇

[关键词]博弈论;理性人假定;公共知识;社会科学方法论

[中图分类号]C3

[文献标识码]A

[文章编号]1671-511X(2012)04-0020-03

博弈论是研究理性人的互动的理论,或者说研究交互决策的理论。1928年,冯·诺依曼证明了博弈论的基本原理,宣告了博弈论的正式诞生。1944年,冯·诺依曼和摩根斯坦合著的《博弈论与经济行为》将二人博弈推广到n人博弈结构并将博弈论系统应用于经济领域,奠定了这一学科的基础和理论体系。1950-1951年,约翰·纳什利用不动点定理证明了均衡点的存在,为博弈论的一般化奠定了坚定的基础。塞尔顿、哈桑尼、谢林、奥曼等人的研究也大大推动了博弈论的发展。因此,尽管博弈论是一门新生的学科,但是它今天已经发展成为有较完善的理论体系的科学。

今天,博弈论已经成为社会科学的通用方法论。尽管它是演绎科学,对社会现象有强大的解释力,然而,由于其理想主体的假定使得其演绎出的理论解与实际博弈结果存在差异。许多实验经济学家通过博弈实验研究实际中人们的博弈过程,分析博弈论的演绎解与博弈实验结果之间的差异。如2002年诺贝尔经济学奖就颁发给了丹尼尔·卡尼曼和迈农·史密斯,他们是实验经济学的先驱。今天在西方学术界通过实验来验证博弈的理论结果已经成为一种潮流。本文下面设计并进行了一个博弈实验,通过分析实验结果与理论解的差异,分析博弈论作为社会科学方法论的局限性,并提出改进的可能路径。

一、博弈实验及结果分析

1 实验描述

我们设计了如下的一个博弈实验。该实验的参与人是南京大学选修文化素质课“逻辑与科学方法基础”的大学生,他们是二三年级的学生,文理科学生均有。

该实验是以试题的形式进行的,该试题作为期末试卷中的最后一道题。该题目为:

在0-100之间选择一个数字,规则是:若你选择的数字“是或最接近”在座同学所选择的数字的平均数的2/3(即在座同学所选数的总和除以总人数之后所得数字的2/3,如:若平均数为90,你应当选2/3×90=60),你将获胜。请给出你选择的理由。

实验说明:

(1)实验参与者即参加考试的学生,事前不知道这是一个实验;

(2)该课程教师以讲座的形式给实验参与者传授过博弈论知识,但没有提到所进行的博弈;

(3)因为(2),他们中的大多数掌握“博弈”、“公共知识”等概念;

(4)试卷是保密的,没有任何学生预先知道考试内容,考试过程中学生间无任何交流;

(5)该博弈的理论解(即纳什均衡)为0或1。

2 实验结果

对于考试中的每个学生,在这个博弈实验中他能够获胜的关键是,他要准确猜测他人是如何选择的,一旦他猜测正确,他将他猜测的平均数乘以2/3便是获胜答案。

共有176人参加了考试。排除掉5个不明确的选择,供分析的实际选择数为171个(其中3个选择非整数)。实验结果为(按照数字大小排序):

“0”:46人;“1”:14人;“5”:1人;“9”:1人;“10”:4人;“12”:1人;“15”:3人;“20”:3人;“22”:18人;“22.44”:1人;“24”:1人;“25”:3人;“28”:2人;“29”:1人;“30”:4人;“32”:2人;“33”:24人;“100/3”:1人;“34”:4人;“35”:1人;“36”:2人;“38”:3人;“39”:1人;“40”:6人;“43”:1人;“44”:5人,“45”:3人;“47”:1人;“50”:3人;“58”:1人;“59”:1人;“60”:2人;“66”:1人;“67”:3人;“”:1人;“72”:1人;“75”:1人。

3 结果分析

在这些所选择的数字中,最大的数字为75,最小的数字为0。171个数字相加后的平均数为21.91,本博弈胜出解:21.84×2/3=14.61。

这个博弈中,0和1是均衡解(下一部分将分析),它们是“理论解”。在该实验中,0是所选最多的数字,共有46人选择,比例为26.9%;选1的为14人,比例为8.2%。两者相加共有60人,比例为35.1%。

从上述数据可以看出,在这场博弈中,“实验解”为14.61,最接近该数的是14或15,这和“理论解”的“0”或“1”不同。在本实验中,没有人选择14,而选择15的有3人,这3人是该实验的胜出者。

若按照区间来统计,实验结果的分布情况见表1。本博弈实验的“实验解”14.61落在11-20之间。若我们把11-20看成是胜出区间,则有7人胜出。

对于这些选择,有以下值得注意的几点:

第一,67以上的选择都是不理性的,因为参加考试的学生数为150-200之间,这是公共知识,即使所有的学生都选择100,胜出的数字都不会超过67。但是还有3位学生选择了大于67的数字,其中选择的最大数为75。他们在给出这些选择时没有给出理由。

第二,分析学生所给出这些选择的理由,可以看出,绝大部分选择者在进行他们的选择时考虑到了他人的选择以及他人的推理。不同的人对他人的假定不同,所进行推理的步骤也不同。如选择67的学生假定了他人都选择100,因而选择67是最优选择;再比如选择30-40之间的数字的同学,其理由大体上有两个:或者认为平均数集中在50-60之间,其2/3就集中在35-40之间;或者认为都选100的话,66.7是最优选择,都选择66.7的话,44是最优选择,而都选44的话,33是最优选择。

第三,有三个区间处的选择比例较高:0-10间为38.6%,21-30间为17.6%,31-40间为25.7%。从所给理由可看出,不同区间的选择者考虑群体的互动推理的步骤存在差别,如0-10区间的选择者考虑他人的推理步骤比31-40区间的选择者多些。

第四,值得注意的是,11-20区间里的选择较少(事实上是,在这个博弈中所选择的数字落在这个区间是最有可能胜出的)。原因可能是,一旦选择者进行了多步的互动推理,他们便能够将这样的推理进行下去,从而将选择向理论解0或1靠近。

第五,有一些“智慧的”选择者,他们知道理论解,但他们知道存在不完全理性的选择,因而他们没有选择理论解。尽管他们的选择没有胜出,他们的推理是有智慧的。这里,本文选择了其中2个。一位选择22的学生是这样给出他所选择的理由的:“作为理性人,我不会选择大于2/3×100的数,因为即使所有人都选择最大数,平均数的2/3也不会超过2/3×100。如果大家和我一样理智,那么大家都不会选择大于2/3×100,那么我不会选择大于100×2/3×2/3。因为他们选择最大的他们可能会选的数,平均数的2/3也不会超过2/3×2/3×100。依此类推,如果全班都充分理智,那么全班最终都会选择1,然而我不认为班里的人都是足够理智,故平均数的2/3会大于1。根据两次游戏,平均数的2/3在20~30。如果是我,我会选择靠近20的数,那我就22吧。”一个选择10的学生的理由是:“如果其他人都是随机选择,那么平均数最后可能接近于50,50×2/3≈33。但是,如果所有人都选择接近33的数,那么33为平均数,33×2/3≈22……如此推理应该为1。但是并非所有人均是理性、均会如此计算。我对南大有信心,所以,我将数字选得接近1一点,选10。”

第六,有一些选择是没有考虑到他人的选择。如有这样一些理由:“大家都认为60是及格分,所以我选择59”,“58是我的幸运数字”,等等。

二、博弈的理论解分析

本实验是一个多人完全信息静态博弈:参与者同时选择行动,然后根据所有参与者的选择,每个参与者得到各自的结果,每一参与者的收益函数在所有参与者之间是公共知识。

在这个实验中,参加考试的176位学生是参与者,每个考生同时对0-100之间的数字进行选择行动,即每个参与者的策略空间Si∈(0,100),即有101种可能的策略。根据所有考生的选择,每个考生最后得出自己的结果,对每个考生来说,结果无非就是,自己的选择是“大家所选数字的平均数的2/3”,胜出;要么与“大家所选数字的平均数的2/3”不一致,失败。

我们假定该博弈的参与人都是绝对理性人(事实上,这个要求在实际中难以达到,这也是本文要得到的一个结论)。

我们来分析绝对理性人的推理过程。

在这个博弈中策略组合有176×101种,每种策略组合下,每个人的收益是公共知识。如:如所有人都选100,平均数为100,此时每人都失败,胜出结果是100×2/3=67;如175人都选100,有一个人选择了67,那么选100的人失败,而选择67的人胜出……所以这些是理性参与人的公共知识。

我们看到,任何人都不应该选67或以上,或者选择67或以上是非理性的,因为所选择的数字的最大平均数为100,此时胜出的数字为67,因此选择67以上而获胜的可能性是没有。因此,作为理性人他们都不会选择67或以上。

每个人都不会选择67或以上,这本身也是公共知识。在这样的公共知识的前提下,45以上的选择都是不合理的,因为对每个人而言,只有在他人都选择67以上,我选择45或以上才是合理的(67的2/3约为45)。

每个人都不会选择45或以上,这本身也是公共知识。于是,每个人都认为不应该选择30或以上。

……

结论是:每个人选择0或1是合理的,它们是该博弈的理论解。

事实上,每个人选择0或都选择1是纳什均衡:对每个人而言,在其他人不改变选择的情况下,当下的选择是最优的。

在所有人均选择0的情况下,因为对于每个人而言,若所有人都选择0的话,0便成为平均数,该数的2/3还是0。这样,他选择0是最优选择:在他人不改变选择的情况下,他改变选择将失败。因此这点构成纳什均衡。

在所有人均选择1的情况下,同样,对于每个人而言,在其他人选择1的情况下,平均数1的2/3为0.67,此时1最接近该数。因此,他选择1是最优选择,并且若他改变了他的选择他将失败。因此,这点也构成纳什均衡。

当然,面对多个纳什均衡,作为理性的参与人作何选择才能胜出呢?具体到这个博弈中,每个人要考虑的是,他选择0还是选择1才能胜出呢?

他会这样思考:没有理由认为其中一个比另外一个更有可能胜出,这样,选择0或1胜出的概率为50%,但是,他人能够与我有同样的想法。既然如此,期望平均数应该为0.5×1+0.5×0=0.5。于是,0.5的2/3接近0。因此,选择0是最优选择。

从上面的分析可见,尽管0和1是纳什均衡点,但选择。是最优选择。

三、改进博弈论的可能路径

本文已经表明,上述博弈是一个完全信息静态博弈,然而,本实验的实验解(14.61)与理论解(0或1)之间发生偏离。本文认为,有两个主要原因:

第一,博弈论中所假定的理想主体与实际中的决策主体不相符合。理想的博弈参与人是绝对理性人;他们能够进行任何有穷步骤的推理,能够分析所有有穷可能的情况,并且他们的推理、分析是在瞬时完成的,而实际博弈中人们是有界理性的。在我们的博弈实验中若参与者是理想主体,他们能够做本文上一部分那样的分析,他们应当知道0和1是均衡解,也能够预测O是最有可能实现的结果。本实验表明,并不是所有人都能够做出这样分析的。并且,在实际中存在完全非理性的选择,如本实验中选择大于67的3人,这不是完全偶然现象。

博弈论的局限性第2篇

【摘要】 在Fudenberg 和 Tirole(1991,2002)相应的工作基础(技术性说明) 上,提出并证明连续博弈混合策略集上相似于有限博弈中混合策略中的一些基本和重要性质,同样利用预备知识中的方法说明了混合策略纳什均衡的存在性。

【关键词】 连续博弈; 混合策略; 均衡

1 序言

博弈论可定义为是对有理性的局中人之间冲突和合作的数学模型的研究。个人理性强调局中人在博弈中会自始至终以追求个人(期望)支付(或效用)最大化为目标来决策。博弈论主要研究局中人相互影响对方策略所形成或实现的策略组合,是决策理论对两个或两个以上局中人情形的推广,或者是决策论在本质上的逻辑完备。

在博弈论的形成与发展过程中,混合策略或随机策略概念的引进和应用起到了重大的作用。因为在不确定环境或具有风险的情况下,所假定的理性局中人总会追求他的支付的数学期望最大,而数学期望又完全由随机变量分布所确定。用混合策略来分析博弈是重要的手段,引入混合策略可以保证纳什均衡的存在。根据贝叶斯决策理论,用策略集上的概率分布可定量表示局中人选择策略的信念,反映局中人的隐密性。

在实际经济活动中,局中人(经济人)的策略集通常是无限的,在对无限博弈中连续博弈的均衡存在性的研究中,最早的和注重理论与实效的也是混合策略均衡存在性。关于现有的连续博弈的均衡存在性的研究可概括为:在连续博弈中有关混合策略纳什均衡的存在性的纳什均衡存在定理(Glicksgerg,1952)和连续博弈中有关纯策略纳什均衡存在定理;后者是前者的特例。在求解连续博弈的均衡中几乎采用的都是反应函数法,尽可能避开用局中人的反应集去求集映的不动点即博弈的均衡。

因此,本研究在Fudenberg 和 Tirole(1991,2002)相应的工作基础(技术性说明) 上,主要对连续博弈混合策略的性质,连续博弈的混合策略纳什均衡存在定理的证明进行了讨论。

2 连续博弈的混合策略性质、混合策略纳什均衡存在定理

2.1 连续博弈中的混合策略及其性质

在有限策略型博弈G={Si,ui }i∈N 中,混合策略是用纯策略集上的概率分布列来表示的,混合策略的变化本质上反映的是概率分布的变化。现在策略集Si(i∈N) 是不可数的无限集,局中人i以概率选择策略时,在维持隐蔽性下,这种随机选择可以看成是定义在概率空间Ωi={Si,Fi ,Pi}上的一个随机变量ξi ,其中 Fi为Si 上的σ代数,Fi的元素AiSi 是Borel可测子集,Pi 是Fi上的概率测度。且根据概率分布与分布函数的关系,用ξi 的概率分布函数Fi(si)(si∈R) 来表示。

定义1 概率空间Ωi={Si,Fi ,Pi},上任意分布函数Fi(si) 组成的集合称为策略型博弈G={Si,ui }i∈N中局中人i∈N 的混合策略集,记为Δi ;分布函数Fi∈Δi 称为局中人i的一个混合策略。即对Fi∈Δi,当且仅当A∈ Fi 时Fi(Ai)=Pi(Ai)=Pi(ξi(si)∈Ai)=∫Aidf(SI)≥0 ,Fi(Si)=1且对Fi的两两不相交的子集族{Aki }∞i),都有Fi(∪∞k=1Aki)=∞k=1Fi(Aki)。

我们在Δi 上定义距离ρ:Δi×ΔiR 为ρ(Fi,F0i)=Fi-F0i=supsi∈si|Fi(si)-F0i(si)|, Fi,F0i∈Δi, i∈N用C(Si) 表示Si上一切连续函数(这时的连续函数是有界的)的集合,它是Banach空间,其范数为c=supsi∈Si|c(si)| 。定义2 设{Fki}∞k=1是Δi 中一个混合策略序列,Fi∈Δi ,如果对c∈C(Si)都有limk∞∫si∈Sic(si)dFki(si)=∫si∈Sic(si)dFi(si) (1)则称{Fki}∞k=1 弱收敛于Fi ,记为FkiwFi 或limk∞Fki=Fi(w) 。由定义1有FkiwFi ;反之若FkiwFi ,则对c∈C(Si) 有(1)式成立,即这两个条件是等价的。显然,Δi中任一序列必有收敛子序列收敛到Δi 中的一个混合策略,这时Δi 是列紧的、闭集,从而它是一个紧集。利用两个分布函数的加权平均是分布函数,即对Fi(si),F0i(si)∈Δi, λ∈[0,1],必有λFi(si)+(1-λ)F0i(si)∈Δi ;可知Δi 是凸的。因此类似于性质1有:命题1 对每个i∈N ,Δi是非空的紧凸集。令F=(F1,…Fi… ,Fn) ,Fi∈Δi, i∈N,称为连续博弈G的一个混合策略组合或混合局势;且所有混合局势全体是Δ1,…,Δi,…,Δn 的直积,记为:Δ=i∈NΔi={F=(F1,…,Fi,…,Fn):Fi∈Δi, i∈N}称为G的混合策略组合集。

利用对每个i∈N ,Δi 是非空的紧凸集,类似类似于性质2 有:命题2 Δ是非空的紧凸集。 注意,Fi∈Δi(i∈N) 是局中人i 独立选择的随机策略,(s1,s2,…,sn)S 时,有ui(s1,s2,…,sn)=0 ,所以局中人i∈N 的期望支付可定义为函数vi:ΔR ,即对F∈Δ,i∈Nvi(F)=∫s1∈S1∫s2∈S2…∫sn∈Snui(s1,s2,…,sn)dF1(s1)dF2(s2)…dFn(sn)(2)同样,分布函数Fi(si)∈Δi表示局中人i∈N 的混合策略,局中人i 的纯策略集Si 可扩充为混合策略集Δi (局中人i 采用si∈Si ,即以概率1选定si )。为方便,博弈={Δi,vi}i∈N也称为连续博弈G={Si,ui }i∈N的混合扩充博弈。类似,我们引入记号(Fi,F0i)=(F1,…,Fi-1,F0i,Fi+1,…,Fn),其中F0i∈Δi,F-1=(F1,…,Fi-1,Fi+1,…,Fn)∈Δ-ij≠iΔj。

同样有(Fi,F-i)=F ,且vi(F)=vi(Fi,F-i) 。利用{Fk=(Fk1,Fk2,…,Fkn)}∞k=1, Fk∈Δ,Fki∈Δi ,F=(F1,…,Fi,…,Fn)∈Δ ,Fi∈Δi ,则limk∞Fk=F,(w)limk∞Fki=Fi,(w),i∈N ;且利用(4)式就有:limk∞vi(Fk)=limk∞∫s1∈S1∫s2∈S2…∫sn∈Snui(s1,s2,…,sn)dFk1(s1)dFk2(s2)…dFkn(sn)=∫s1∈S2∫s2∈S2…∫sn∈Snui(s1,s2,…,sn)dFk1(s1)dFk2(s2)…dFkn(sn)=vi(F)其中在Δ上定义距离ρ:Δ×ΔR为:ρ(F1,F2)=maxi∈N supsi∈Si|F1i(si)-F2i(si)|,F1,F2∈Δ

再利用函数极限与点列极限关系,得到类似于性质3的命题。命题3 vi(F) 是Δ上的连续函数;且vi(Fi,F-1是Fi∈Δi 的连续函数,i∈N 。从而结合命题1,可知连续博弈G={Si,ui}i∈N的混合扩充={Δi,vi}i∈N是连续博弈。此外,利用(5)式、命题3、积分的运算性质,对θ∈[0,1],以及对j∈N ,F1j ,F2j∈Δj 时,有:viθ(F1,…,θF1j+(1-θ)F2j,…,Fn)=θvi(F1,…,F1j,…,Fn)+(1-θ)(F1,…,F2j,…,Fn)即vi(F)(i∈N)有如下特性:命题4 对F∈Δ ,vi(F)(i∈N)具有n重线性性。定义3 连续博弈G={Si,ui}i∈N的混合扩充={Δi,vi}i∈N 中,对i∈N ,F∈Δ,F*i∈Δi 称为局中人i∈N在F下的最优混合策略,如果vi(F*i,F-i)={max{vi(F0i,F-i):F0i∈Δi}

且 Vi(F)={F*i∈Δi: vi(F*i,F-i)=max{vi(F0i,F-i):F0i∈Δi}称为局中人i∈N 对其他局中人混合局势F-i∈Δ-i的反应集,即Vi:ΔΔi 是反应集映;而F*=(F*1,…,F*i,…,F*n) 称为G 的一个混合策略纳什均衡或混合均衡,如果对每个i∈N ,vi(F*1,F*-i)=max{vi(Fi,F*-i):Fi∈Δi}因此,由上述定义类似命题2,可知:F*是连续博弈G 的一个混合策略纳什均衡,当且仅当F*∈V1(F*)×…×Vi(F*)×…×Vn(F*)=i∈NVi(F*)即F* 是(反应)集映V=V1×V2×…×Vn:ΔΔ的一个不动点。

利用两个分布函数的加权平均是分布函数和命题4,得到:命题5 Vi(F)(i∈N)以及i∈NVi(F*) 都是非空的凸集。从而G的混合均衡的凸组合都是混合均衡。命题7也类似于性质5,即Vi(p)(i∈N)是非空的凸集的结果。

2.2 连续博弈中混合策略纳什均衡存在定理

因为命题3至7和在预备知识中证明有限策略型博弈的纳什均衡存在定理时所应用的那些性质1至5是一致的,且概念也基本相似,命题2类似在连续博弈中成立,因此同样的证明得到了:混合策略纳什均衡存在定理 (I.Glicksberg,1952)G={Si,ui}i∈N是连续博弈,则G 至少存在一个混合策略纳什均衡。

转贴于

2.3 二人常和连续博弈G={S1,S2,u1,u2}

虽然我们介绍了反应函数方程组、反应函数法来解无限博弈、连续博弈,但是对二人常和连续博弈还是可以利用由鞍点定理表明的最小最大原理来求其混合均衡,即有如下命题(以下的证明约去,可参见武康平,2001):命题6 (F*1,F*2 )是二人常和连续博弈G={S1,S2,u1,u2} 的混合策略纳什均衡,当且仅当v1 (F*1,F*2 )=maxF1∈Δ1 minF2∈Δ2v1(F1,F2)

=minF2∈Δ2 maxF1∈Δ1v1(F1,F2)其中G的混合扩充是={Δ1,Δ2,V1,V2} ,(F1,F2)∈Δ1×Δ2 , v1(F1,F2)=∫s1∈S1∫s2∈S2ui(s1,s2)dF1(s1)dF2(s2) 。 此外,也有如下命题:命题7 博弈 G是二人常和连续博弈,当且仅当它的“混合扩充”是常和博弈;且混合扩充保持G 的支付总和不变。同时,期望支付函数v1(F1,F2)的鞍点也具有无差异性和可交换性。

3 结语

本研究主要讨论连续博弈中的混合策略性质和它的均衡,连续博弈G={Si,ui}i∈N 是否存在纯策略纳什均衡的问题,还在于要对它的局中人的支付函数作出其在策略集上是作者简介:姚红梅,荆楚理工学院医学院,硕士研究生,主要从事心肌保护的研究。

* 武汉大学中南医院心内科

拟凹的规定。也指出连续博弈G={Si,ui}i∈N的混合扩充={Δi,vi}i∈N是一个连续博弈,从而完全信息博弈策略型博弈的混合扩充博弈都是连续博弈。这样一来,完全信息博弈策略型博弈至少存在一个纳什均衡(或更准确的是混合策略纳什均),那么,对完全信息博弈策略型博弈的混合扩充博弈本身来说,它就至少存在一个纯策略纳什均衡。此外,完全信息的有限策略型博弈和连续博弈中混合策略上的性质实际上它们混合扩充博弈中关于策略集和(期望)支付函数的性质。

【参考文献】

1 Von Neumann J, Morgenstern O. Theory of Games and Economic Behavior. Princeton: Princeton University Press, Second Ed, 1947.

2 Weirich P. 均衡与理性(1998). 黄涛,译. 北京: 经济科学出版社,2000.

3 谢识予. 经济博弈论.第2版. 上海:复旦大学出版社,2002.

4 张维迎. 博弈论与信息经济学. 上海: 上海三联书店、上海人民出版社,1996.

5 Binmore K G. 博弈论基础,1991;经济理论的进展. [法]JJ.拉丰编,王国成,等译, 北京:中国社会科学出版社,2001.

6 Fan K. Fixedpoint and Minimax Theorem in Locally Convex Topological Linear Space.Proc. Nat. Acad. Sci. U.S.A.1952,38:121~126.

7 Fudenberg D,Tirole J. 博弈论.姚洋,校,黄涛、郭凯等,译.北京: 中国人民大学出版社,2002.

博弈论的局限性第3篇

一、蜈蚣博弈悖论

蜈蚣博弈是由罗森塞尔(Rosenthal) 提出的。蜈蚣博弈具体如下:两个博弈方A、B 轮流进行策略选择,可供选择的策略有“合作”和“不合作”两种。规则是:A、B 两次决策为一组,第一次若A 决策结束,A、B 都得n,第二次若B 决策结束,A 得n-1 而B 得n+2;下一轮则从A、B都得n+1 开始。假定A 先选,然后是B,接着是A,如此交替进行。A、B 之间的博弈次数为一有限次,比如198 次。

假定这个博弈的各自的支付给定如下图:

图中的数组第一个数是博弈方A 得益,第二个是B 得益。当A 决策时,他考虑博弈的最后一步( 第198 步):B 在“合作”和“不合作”之间做出选择时,因“合作”收益100,而“不合作”收益101,根据博弈逻辑的基本假设——理性人假设,B 会选择“不合作”。但是,要经过第197 步才到第198 步。在197 步,A 考虑到B 在第198 步时会选择“不合作”——此时收益98,小于B 合作时的100——那么在第197 步时,他的最优策略是“不合作”——因为“不合作”的收益99 大于“合作”的收益98;……如此推论结论是:在第一步A 将选择“不合作”,此时各自的收益为1 !这就是逆推归纳法悖论,即“蜈蚣博弈悖论”。

二、蜈蚣博弈悖论的认知分析

新古典经济学强调个体行为在资源配置中的作用,借用哲学的“理性”概念对复杂人类行为进行抽象假定,即经济理性是一种行为方式假定,经济行为人对其所处环境的各种状态均有完全信息,并在既定条件下每个行为人都有选择的意愿和能力,从而使自己获得最大效用或利润,这遵循自利性、一致性以及极大化原则。蜈蚣博弈悖论表明个体理性和集体理性的矛盾与冲突,在博弈论中引起长期关注。大量有关蜈蚣博弈悖论的实验结果表明,参与者的道德意识、性别及文化水平等都会对策略选择(合作或不合作)产生影响。也有学者认为,博弈方并不遵循利己主义,而是遵循康德的绝对命令理性化主义,即你希望别人怎么做,你自己就怎么做。

库恩定理,是指每一个有限完美信息动态博弈,均有一个子博弈精炼均衡。证明库恩定理的方法是逆推归纳法,即从动态博弈的最后一个阶段局中人的行为选择开始逐步倒推回前一个阶段,一直推到第一个阶段局中人的行为选择。每个阶段局中人按照理性偏好确定其行动,得到的行动序列就是一个子博弈精炼均衡。这一方法的有效性依赖于关于局中人认知的预设:“每个局中人是理性的”是共同知识。共同知识预设是有限动态博弈适用逆推归纳法从而存在子博弈精炼均衡的前提条件。库恩定理之后,“蜈蚣博弈”出现悖论,在这些博弈当中,如果使用逆推归纳法,则会产生与直观抑或常识不相吻合的结论。事实上,逆推归纳法悖论,只是表明博弈论关于局中人理性的共同知识以及预设,与实际情况弈局中人的理性认知状况并不一致,因而它并不是逻辑悖论。对此,解决这一矛盾的途径有很多种:一是,在某些博弈中弱化认知预设,只要求博弈结构和局中人的理性是共有知识,而不必是共同知识。二是,放弃完全信息的分析框架,而转向不完全信息博弈。

主体的个性差别,或者说异质性,导致了主体的认知水平和认知状态是不同的,因而无法确保特定认知分析对所有主体都具有一致性。蜈蚣博弈悖论一种新的解悖思路,就是将主体的主观感受计入收益的一般性框架,在某种前提假设下,将主体的主观感受折算为收益,计入其总收益,从而建立模型来分析和预测其结果。

参考文献:

[1]RobertJ.Aumann.Onthe Centipede Game[J].GamesandEconomic Behavior,1998(23):97~105.

[2] 谢识予. 经济博弈论[M]. 上海: 复旦大学出版社,2007:162~164.

博弈论的局限性第4篇

关键词:竞争战略 博弈论 模型

一、引言

企业战略的本质是尚未看见目标的策略博弈,选择企业竞争战略比实现的目标更具意义,企业更关注的是战略过程。随着交易费用经济学的发展,以博弈论和信息经济学为基础的产业组织理论的发展,人们对企业竞争优势的来源、企业战略目标的确定、企业战略模式等都有了新的认识。竞争战略一直是企业战略管理领域研究的重点,很多学者通过建立不同的竞争战略模型来指导企业运营,并取得了较为理想的效果。然而,大多研究建立在静态竞争的基础上。随着科学技术的迅猛发展和市场竞争的不断加剧, 竞争对手之间的战略互动明显加快,动态竞争代替了静态竞争。这时, 企业面临的一个突出问题就是如何在竞争的条件下, 制定企业的竞争战略。关于动态竞争战略的研究大体可以分成两类;一类是多点竞争的研究, 主要研究企业间横跨多个市场的竞争问题, 其核心思想都是建立在企业间战略性的共谋有利于降低竞争强度的战略思想的基础上;另一类是关于企业间竞争互动的研究, 包括以博弈论作为工具来分析企业间互动行为选择机制的研究和以经验、统计数据作为基础的实证研究。

二、 博弈论对企业战略选择的影响

博弈论和企业战略选择之间有天然的、显而易见的相通之处。事实上,博弈论给企业战略管理带来了深刻的影响,它提供了新的研究管理战略的方法论,改变了管理战略研究的一些约束条件,它的思想和建模方法已经渗透到了管理战略的各个领域。博弈论使企业管理战略研究的完全信息和完全竞争约束条件放宽。传统的市场经济理论认为市场经济的有效运行需要价格这只“看不见的手”的调节,生产者和消费者都是基于价格做出最有利的决策。但是完全信息是一种过于理想化的假设,在现实世界中,消费者无法完全了解产品质量和价格的真实情况,厂商也无法完全了解消费者需求的真实变动。对完全信息的任何偏差都会带来一系列问题。以完全竞争为基础的新古典微观经济学虽然在理论上达到了完美的地步,但却使理论与现实相距甚远。事实上企业的支付是所有局中人战略变量的函数,局中人的利益交织在一起,企业可能在分析竞争对手的战略之后改变自己的生产函数。当今的多数市场竞争需要寡占理论的解释,而只是到博弈论出现后,寡占理论才真正成为理论与现实之间的桥梁。

Teece(1994)对目前博弈论在企业经营战略管理的应用局限进行了较全面的分析,其中有几点是值得关注的:一是博弈理论家所建立的博弈论模型只涵盖了很少的经济变量,而省略了其他因素,这在很大程度上限制了模型的可检验性和实用性,大大降低了模型的解释能力:二是由于实际中不具备模型所要求的信息结构和参与人的理性程度,使得博弈结果预测的准确性大打折扣:三是当博弈模型过于关注的是企业间的相互作用,注重解释可能存在的相互作用效果,而忽视了企业竞争优势的根本来源是企业内部的核心能力。

另外,企业之间的战略竞争还具有自身的特点,它是企业为了取得超出平均水平的高额利润,建立长期的竞争优势展开的全方位、全局的竞争,而博弈论专家们由于专注于精巧的博弈论模型的构建与均衡的分析,把有关战略现象的知识排除在博弈论的范畴之外。可见为战略管理的研究来扩展博弈论具有更加重要的意义。

由于博弈论应用于经营战略的分析的局限, 潘卡基 · 格玛沃特沿着用案例分析的方法研究博弈论模型的预测能力的途径, 用关于竞争互动的详细案例研究揭示博弈论作为一种经营战略分析家实用工具的用途和局限, 试图通过对单个案例的深入研究来识别值得研究的现象, 达到从一般意义上思考博弈论的实际应用价值。而尝试着从战略管理的视角来讨论博弈论的建模与分析的问题, 即为企业竞争战略管理构建博弈模型无论对战略管理还是博弈论的研究都是极具挑战的工作。

三、 企业竞争战略选择的博弈模型要素分析

企业竞争战略管理涉及因素之广、跨越时间之长,使得目前要直接为企业竞争战略管理构建一个博弈论模型是困难的,但我们可以从博弈模型的各要素的角度对企业战略管理的博弈模型特征进行分析,为全面地分析战略管理之博弈特征提供一个可行的途径。

(一)参与人的有限理性

在新古典经济学和大多数的博弈论中,都假定局中人是追求收益最大化的并且准确无误地能够选择最优反应策略,而事实则往往不是这样。人们在进行战略决策时,常常是依据“满意准则”:如果人们在某一问题上有满意解时,就不会再去寻找最优解。企业战略的制定由于其长期性和全局性特征,目标更具模糊性,战略优劣的判断更适合于满意准则,战略管理中提倡学习,模仿已成为共识,人们往往期望通过模仿和学习能取得战略成功,而有限理性的学习意味着人们往往是根据经验和直觉来改变战略而并非贝叶斯法则。

局中人的有限理性是博弈论建模的难点, 而作为战略管理过程中的参与人, 有限理性是其具有的最根本的特征。Rubinstein(1998)采用了贝叶斯概率描述和演进博弈的方法来分析“有限理性”假设下的经济行为, 探讨了当所有其他局中人都根据理性人范式采取行为时, 有一个局中人当他在作决定时遵循一种与理性人范式并不一致的决策程序的情况,如局中人的有限远见, 他们使得即使是简单的两人博弈都变得十分复杂。

博弈论在理性方面的要求比新经典经济学以“个体理性”为基础的“理性经济人假设”的要求还要高。不仅要求行为主体始终以自身最大利益为目标, 具有在确定和非确定环境中追求自身利益最大化的判断和决策能力,还要求他们具有在存在交互作用的博弈环境中完美的判断和预测能力:不仅要求人们自身有完美的理性,还要求人们相互信任对方的理性,有“理性的共同知识”。这正是博弈论所遇到的一个最大的困惑。

人们在处理企业战略的长远理性时,由于有限远见和有限计算能力的制约,往往采取分阶段的方法,将战略目标分为短期、中期和长期目标来进行管理,而战略博弈的动态性意味着战略中长期的管理效率常常是递减的,若设局中人的远见时段范围为T,事实上战略管理的进程应是一个T的不断向前平移的动态过程。

演化博弈论的进展为理性另辟蹊径,人们不再把人模型化为超级理性的博弈方,演化博弈论研究表明,博弈均衡是达到均衡的均衡过程的函数,人们在达到一个博弈均衡中,常常使用试错的方式,通过模仿和学习,从一种优势策略转向另一种优势策略。期间,均衡过程某些细节会对均衡有重要的影响,它们对战略管理论具有一定的指导作用。然而,战略管理过程强调局中人的“有限理性”而非“完全无理性”,又充分重视局中人的理性开发,毕竟人类是处于完全理性与完全非理性之间的智慧生物,企业战略管理的目的或意愿是期望博弈局势朝着有利于自身有利的方向发展。

(二)信息不完全不对称

现代非合作博弈论的最大成就就在于它成功地将信息这一变量引入博弈要素之中,这也是它区别于以往的零和矩阵对策论的显著标志,也是现代博弈论得以成功运用于社会科学,特别是经济、管理各领域的重要原因。然而目前看来,决策分析学关注的是不完全信息下的决策机制,不断地获取信息,通过贝叶斯学习,有利于降低不确定性,提高决策效率。而不完全信息博弈研究较多关注的是局中人的信息不对称。

博弈论研究表明,局中人无论具有信息优势或劣势都有增加支付水平的可能,即在市场竞争中,有时具有“先动优势”,有时具有“后动优势”,这与博弈局势有关,因此博弈中行动的次序和时机对博弈均衡结果将产生重要影响,它们都为战略管理过程提供有效的理论指导。企业战略管理中,企业的核心信息往往是私人信息。而企业的战略意图是要经过信息转化,通过战略承诺形成有利的博弈局势来达到战略目标的实现。例如在Milgrom-Robert垄断限制定价模型中,垄断企业的成本结构是私人信息,它是不能让潜在的竞争对手观察出来的,而产品价格既是利润函数的变量,又是信号传递的载体,意图是要告诉那些潜在的进入者进入是无利可图的,从而实现阻止其他企业进入的目标。

(三)战略评价的满意准则

战略是一个企业的长期目标和目的的确定,以及为实现此目标所必须采取的行动和对资源的分配。可见战略一方面与企业的长期目标和“大”决策相联系,另一方面战略实施的真正涵义是使公司能适应和影响不断变化的环境,强调企业行为模式和企业类型与目标的一致性。因此,完全量化评价企业战略的成功标准是困难的,应该定性和定量结合,应该从多元的、发展的、综合的、全面评估。当以量化博弈模型来考查战略选择时,局中人时刻都在权衡着风险与收益,当局面优势时,稳步获取满意的利益成为上策。

(四)支付函数的不确定性

在目前的博弈论模型中,支付函数常假设为确定性函数。这与现实中的情况有较大出入,如果说完全信息的静态博弈情形中支付函数以确定性函数表示还尚可理解的话,那么在不完全信息的动态博弈局势中,局中人对支付函数的了解应是不完全的,且随着博弈进程而深入,函数的定义需要不断地修正。因此在这样一个充满不确定性的过程中,使逆向归纳法则来进行博弈分析显然是不现实的,事实上人们在现实的思维中,是正向归纳和逆向归纳的综合运用,这对战略管理的博弈建模和分析提出了新的挑战。

四、 企业竞争战略博弈模型的建立——以电信企业为例

在寡头垄断的市场结构中,电信企业的战略选择要依赖于竞争对手的行为,这与在垄断时的最大化行为有很大区别。因此特别设计了一个未来的3G建网博弈。

移动通信领域目前只有中国移动和中国联通两家运营商,3G牌照发放之后,中国电信和中国网通也将成为移动运营商。政府通过3G对移动通信市场结构的塑造仅限于决定发放3G牌照的数量,而之后移动通信领域的市场格局将向什么方向演进,则完全取决于各运营商之间的策略博弈。由于一个四方多阶段博弈过于复杂,因此只构造一个中国电信和中国移动的双方建网博弈,其博弈思想对于四方博弈而言是相同的。

移动和电信在决定3G建网初期要考虑这样一个问题:即网络容量的选择。由于3G代表移动通信的发展趋势,因此各大运营商都会快速建网是没有疑问的,但在快速建网的前提下,网络容量是可以选择的,毕竟对移动而言,3G和2G是替代竞争的关系。对移动和电信,博弈的关键问题在于确定收益矩阵中的收益值,由于3G还是一个没有发生的事情,即使发生也无从得知移动与电信的真实成本和收益,因此博弈中的收益值设定是一种定性的设置。这种定性设置的特点是,虽然不是准确值,但各收益值之间的大小关系都是准确的,因此对于博弈的均衡而言,不会有任何误导的影响。

(一)关于通信产业的假设

1、移动通信是个人通信的发展趋势,无线通信具有方便和成本低的优势,未来可能会替代有线通信。在这样的假设下,传统固话运营商必然会竭尽全力的进入移动通信领域。

2、中国移动和中国电信同时拿到3G牌照,双方同时行动。

3、存在价格规制, 移动通信价格总体走低, 但不能低于成本打价格战。

4、3G网络建设需要时间,网络质量的提高要逐步进行,在建网阶段,3G网络容量和网络质量成反比。

(二)关于中国电信的假设

1、在3G时代仍然能维持固话领域的垄断经营。

2、具有较强的移动语音业务发展能力, 但缺少移动数据业务发展能力。

3、在移动通信建网和运营方面缺少经验和能力。

4、为了突破3G网络的临界容量以及形成规模经济,短期追求最大化市场份额。

(三)关于中国移动的假设

1、2G和2.5 G网络能很好的满足现有的移动语音业务和普通移动数据业务的需求。

2、移动语音业务和移动数据业务的服务质量比较高,具有良好的移动运营商的企业品牌和企业形象。

3、一定时期内,移动语音业务收入仍是公司收入的主要来源,移动数据业务的收入相对较小。

4、统筹考虑2G和3G网,追求企业利润最大化。

中国移动和中国电信在3G网络容量选择上都有两种策略, 大容量或小容量。假设移动大容量建网的收益为Vbm,移动小容量建网的收益为Vlm;电信大容量建网的收益为Vbt, 电信小容量建网的收益为Vlt。相应的,移动和电信的收益矩阵见图1:

首先考虑移动和电信都选择大容量3G网络的情况,即(大容量,大容量)策略组合:对于移动而言,大容量建网投资比较大,由于2G和3G的替代竞争,因此3G用户主要是转自于2G网络用户,在3G网络由于竞争没有多大收益的同时, 2G网络收入减少,整体而言出现收益损失,因此,可令Vbm=-V。对于电信而言,大容量建网投资比较大, 由于移动同时也大容量建网, 因此进入移动通信领域会又受到较大阻力, 会有一定收益损失,但由于网络价值仍在,只是市场开拓比较困难, 同时可以突破网络容量和利用规模经济, 因此,可令Vbt=-V/2。

考虑移动选择小容量建网、电信选择大容量建网的情况,即(小容量,大容量)策略组合:

对于移动而言,小容量3G建网的投资小,而且2G和3G替代竞争效果不强,相反可以实现一定程度互补,并可以利用2G网络来阻止电信的3G市场开拓,可维持较高利润。因此,可令Vlm= V。对电信而言,由于移动采用3G小容量建网模式,电信大容量3G建网可比较顺利进入市场并有一定的收益,但收益显然不及移动,因此,可令Vbt = V/2。考虑移动选择大容量建网、电信选择小容量建网的情况,即(大容量,小容量)策略组合:对于移动而言,投资大,自己的2G与3G替代竞争,导致总体无收益,可令Vbm=0。对于电信而言,小容量建网的模式等于放弃进入,没有收益,可令Vlt=0。

考虑移动选择小容量、电信选择小容量建网的情况,即(小容量,小容量)策略组合:对于移动而言,2G与3G实现互补,可以从容进行网络升级,2G和3G都会带来一定收益,因此,可令Vlm=V。对于电信而言,3G网络显然无法与移动竞争,加上网络容量小,等于无法真正进入移动通信市场,可令Vlt=0。综上所述,将收益值代入支付矩阵,得如下矩阵(见图2)。

显然,对于移动而言,小容量建网是占优策略。对于电信而言,没有占优策略,但由于小容量建网是移动的占优策略,在移动小容量建网的前提下,电信将采取大容量建网策略。博弈的纳什均衡是(小容量,大容量),即移动采取小容量建网策略,而电信采取大容量建网策略,相应的收益情况是,移动收益为V,电信的收益为V/2。

五、结论

博弈理论在企业战略中的应用,不限于告诉人们在一个静态的博弈中受制于博弈均衡,而是启示人们在竞争中思变,通过改变博弈要素(参与者、附加结、规则、策略和范围)中的一个或多个要素,打破旧的均衡实现新的均衡而获得优势。本文对指导我国企业制定竞争战略有一定的借鉴作用,但是由于建模技术的限制,本文的战略模型也有一定的局限性,还有待进一步按照博弈论的思想充实和完善。

参考文献:

①Karnani A, Wernerfelt B. Multiple point competition [J].Strategic Management Journal, 1985, 6(1):87-96

② Brandenburger A M, Nalebuff B J. The right game:Use game theory to shape strategy [J]. Harvard Business Review, 1995, 73 (4):57-71

③ Chen M J, Miller D. Competitive attack, relation and performance:An expectancy-valence framework [J].Strategic Management Journal,1994,15:85-102

④ Grimm C M, Smith K G. Strategy as action:Industry rivalry and coordination [M]. Cincinnati:South Western College Punishing,1997

⑤ Teece D.J., Pisano G., The dynamic capabilities of firms: An introduction [J]. Industrial and Corporate,1994,3:37-56

⑥ Teece D.J., Rumelt R., Dosi G., Winter S. Understanding corporate coherence. Theory and evidence [J]. Journal of Economic Behavior and Organization,1994,23: 1-30

⑦ 潘卡基·格玛沃特.产业竞争博弈 [M]. 北京:人民邮电出版社,2002

⑧ 阿里尔·鲁宾斯坦.有限理性建模 [M]. 北京:中国人民大学出版社,2005

博弈论的局限性第5篇

关键词:囚徒困局;有限重复博弈

一、引论

为了探讨博弈理论用于现实的解释力,笔者安排了一场游戏给不同学历背景的学生博弈,本文详细阐释该博弈游戏的设计、理论基础和结果分析。

游戏以经典的囚徒困境为基础,笔者参考了Osborne(2004)双寡头垄断的合作和背叛环境,设计出一个有限重覆囚徒困境博弈的环境供学生进行分组比赛,模拟商业竞争的情况,并且要求他们向盈利最大化的方向思考。在笔者的角度,就是验证一下博弈结果是否符合书中所示。结果出人意料,并不完全符合书中所指,值得深思。

为了进行比较,笔者把这个实验试做了两次,一次给普通中学生玩,另一次给领袖生玩。领袖生和普通生的区别在于领袖生积极参与活动,有上进心,富团队精神,学习态度绩极,经常参与活动,在身心方面都得到均衡发展;而普通生组是随机招募,没有特定的组织背景,学习态度也欠积极,也不爱参加有益的活动。这个实验的目的就是分别让两班不同学习经验的人进行重覆囚徒困境的游戏,验证一下现实会否依从理论所推论的进行。

下文将把这个实验的方法和结果详细阐释及讨论。

二、实验设计

改编Osborne (2004)双寡头垄断的合作和背叛环境,以下列出其盈利剖面。

局中人:A 组及B组学生

胜负规则:1. 使最终盈利比对手多; 盈利不能为负数,否则不分胜负;

2. 盈利越多所获得的分数越高(追求最大盈利);

3. 能击败对手的将有额外分数。

行动:以高价或低价发售产品

重覆博弈回合次数:10个回合

纳什均衡:原本根据书中所指,有限重覆博弈的纳什均衡是任何回合都是(低价,低价), 如果就这样给学生玩,这就太消极了,所以这个实验带有附加的规则,就是最后盈利不能是负数(可以为0,经济学上的均衡情况),否则当作输,这个规则加强了现实性,因没有商业希望盈利是负数的,而且提高学生思考的积极性,所以这个实验的纳什均衡跟书中有点不同,表1利用”冷酷触发策略” 配合后退归纳法推出各回合的纳什均衡。

因为在第10回合不合作不用受到下一回合惩罚,而且可以较高盈利取胜,所以第10回合的纳什均衡是(低价, 低价),由于累绩盈利不能为负数否则当输论,所以各局中人以第十回合累积盈利最少为0的结局进行后退归纳法,倒推出在第三回合中如果不合作便不论如何也获得最少是0的盈利,这个推论引用自(施锡铨, 2000),说明在有限重复博弈中有可能导致在均衡结局中出现一次非均衡结局的博弈。以上策略也可防止对方在中途不合作导致自己输掉。 这个实验理论上会将双方的盈利偏离了最大化的方向。

三、结果及讨论

实验一结果:普通中学生为局中人。

实验一的局中人是素质比较低的学生,两组局中人的回报都是负回报,亦即是不能获得任何分数,这令人非常气馁,原先认为以游戏的方式引导他们竞争,以该科目的实际分数作为奖励,应该可以诱发他们主动思考和作出正面的行为,就算他们不用任何数学辨法分析出最优的行动,也不至于一开始B组就摆出一副完全不合作,而且必定是两败具伤的态势,直接点说就是损人不利己,是这个博弈的最差结局。

有限重覆博弈,耙换睾纤作出的行动是由历史行动所影响,B组一开始就选择以不合作的态度去玩,似乎是他们从一开始就不相信A组会合作,那为什么会这样的呢?笔者没有问学生们为何那样,因为答案都未必是真。以笔者的推断,那可能是他们根据A组的日常生活行为比较自私而导致B组不相信他们,又或者A组是成绩比较好的一组,两败具伤对B组有利,因为这样可以控制A组的盈利。无论如何,这个结局的出发点是自私和两败具伤,负面的态度令这个博弈在一开始便偏离了盈利最大化的目的,是自己不好也不想人家好的态度。

实验二结果:领袖生为局中人。

然而,实验二的局中人是素质比较高的学生,他们从小已接受纪律训练,自我要求高,热爱思考和重视道德,这样的素质,能冲破第三回合不合作的预测,使双方的盈利皆有机会在0之上。这个耐性一直持续至第六个回合,实在是令人安慰的。由此可以想像他们身处的道德世界是正面的,思考也较成熟,懂得以大局为重,以自己及别人的角度思考。但从另一个角度看他们,是训练有素但未有战争经验的士兵,他们的世界太美好,未曾经历人性的险恶。

实验二的转变点(不均衡结局)是第七回合,C组出卖了D组,导致往后的博弈变为(低价, 低价)的纳什均衡。显然,C组比D组更有野心,C组的背叛行为非但没有受罚,反而使他们胜出。从好的方面看,他们有商业头脑;从坏的角度看,他们的不合作较迟使出,技术上未够炉火纯清。

游戏完结后,D组同声表示自己品格比较好一点,原先他们的策略是在第八局中不合作的,结果别人比他们早了一步。通过这游戏,他们学会了防人之心不可无的处世之道,再问他们下次再玩这个游戏会如何,他们都说早一点不合作比较好。

四、结论

笔者的原意本是一个小型的博弈游戏,岂料普通中学生组的表现着实令人失望。于是笔者便决定跟其他人再玩一次,结果就由一个小博弈变成验证博弈论的实验。

两个实验的结果偏离了理论所预测的结果,可以分两方面解释:

1.局中人的思考复杂性。局中人只是高中生,没有受过严格经济学或数学训

练,而且之前也没接触过这种游戏,不懂其思考方法,可见知识是重要的。

2.局中人生活的背景。亦即是局中人对对手的历史行为的认识程度,实验一

和实验二两班局中人身处的背景不同,行为偏好也不同,普通生就是因为对游戏态度不积极,结果两败具伤,极其负面,不能以理性为前题预测和解释他们的行为。因此,透过教育改善人的积极性是需要的,这样可减少一点社会成本。

这个实验证明了良好的教育能塑造出正面的道德行为,至少他们的出发点是正面的。这个社会上需要设定多些机制保障正面的行为,否则当人学会了有限重覆博弈致胜策略后,惩罚好人将会成为主流,人们将只顾自己的利益而破坏了社会的整体盈利。然而,在现实商业中,也不一定需要以盈利较高胜出游戏,所以,正如施锡铨(2000)所指,在重复有限博弈中可通过谈判协商来加强双方合作的意欲,使双方达致能使盈利最大化的纳什均衡。

参考文献:

[1]Osborne, M.J. Introduction to Game Theory. Ch.2.2.2.2004.

博弈论的局限性第6篇

博弈论又称为“对策论”,一种使用严谨数学模型来解决现实世界中的利害冲突的理论。由于冲突、合作、竞争等行为是现实世界中常见的现象,因此很多领域都能应用博弈论,例如军事领域、经济领域、政治外交,解决诸如战术攻防、国际纠纷、定价定产、兼并收购、投标拍卖甚至动物进化等问题。

博弈论的研究开始于本世纪,1944年诺依曼和摩根斯坦合著的《博弈论和经济行为》一书的出版标志着博弈理论的初步形成,随后发展壮大为一门综合学科。1994年三位长期致力于博弈论研究实践的学者纳什、海萨尼、塞尔顿共同获得诺贝尔经济学奖,使博弈论在经济领域中的地位和作用得到权威性的肯定。

2.博弈论的基本原理和方法

文献[1][2]用浅白的语言叙述了博弈论的思想精髓和基本概念。文献[3][4]更注重理论上的分析和数学的严谨。概括起来,博弈论模型可以用五个方面来描述

G={P,A,S,I,U}

P:为局中人,博弈的参与者,也称为“博弈方”,局中人是能够独立决策,独立承担责任的个人或组织,局中人以最终实现自身利益最大化为目标。

A:为各局中人的所有可能的策略或行动的集合。根据该集合是否有限还是无限,可分为有限博弈和无限博弈,后者表现为连续对策,重复博弈和微分对策等。

S:博弈的进程,也是博弈进行的次序。局中人同时行动的一次性决策的博弈,成为静态博弈,如齐威王和田忌赛马;局中人行动有先后次序,称为动态博弈,如下棋。

I:博弈信息,能够影响最后博弈结局的所有局中人的情报,如效用函数,响应函数,策略空间等。打仗强调“知己知彼,百战不殆”,可见信息在博弈中占重要的地位,博弈的赢得很大程度依赖于信息的准确度与多寡。得益信息是博弈中的重要信息,如果博弈各方对各种局势下所有局中人的得益状况完全清楚,称之为完全信息博弈(gamewithcompleteinformation),例如齐威王和田忌赛马,各种马的组合对阵的结果双方都不严而喻。反之为不完全信息博弈(gamewithincompleteinformation),例如投标拍卖,博弈各方均不清楚对方的估价。在动态博弈中还有一类信息:轮到行动的博弈方是否完全了解此前对方的行动。如果完全了解则称之为“具有完美信息”的博弈(gamewithperfectinformation),例如下棋,双方都清楚对方下过的着数。反之称为“不完美信息的动态博弈”(gamewithimperfectinformation)。由于信息不完美,博弈的结果只能是概率期望,而不能象完美信息博弈那样有确定的结果。

U:为局中人获得利益,也是博弈各方追求的最终目标。根据各方得益的不同情况,分为零和博弈和变和博弈。零和博弈中各方利益之间是完全对立的。变和博弈有可能存在合作关系,争取双赢的局面。

还有另一类型博弈称为多人合作博弈,例如安理会投票表决,OPEC联合限产保价等问题。这类问题重点放在联盟利益的分配上,它的理论和方法广泛应用于利益损失的共同分担问题。多人合作博弈的研究方法主要是特征函数模型。以个可能的联盟为定义域,特征函数表示各个联盟的得益(N是局中人的数目),它的分配解必须符合一定的合理性和稳定性,它的解的概念也发展成多种多样,包括稳定集、核心、核仁、Shapely值等。解的多样性符合现实世界复杂多样的需要,针对不同的问题选择或创造合适的解的概念是博弈论深入研究的课题。

不管博弈各方是合作、竞争、威胁还是暂时让步,博弈论模型的求解目标就是使自身最终的利益最大化,这种解建立在对方也采取各自“最好策略”为前提,各方最终达到一个力量均衡,也就是说谁也无法通过偏离均衡点而获得更多的利益。这就是博弈论求解的本质思想。

3、博弈论与电力市场

博弈论是研究市场经济的重要工具。电力作为特殊的商品,它的生产、运输、销售和消费也逐渐走向市场化。世界范围内很多国家的电力工业走向放松管制、引进竞争的进程中,遇到很多前所未有的新课题,运用博弈论来分析解决其中一些问题是一个研究方向。用博弈论模拟电力市场,模拟的结果可能更加接近实际,为市场模式设计提供依据。另外,电厂或用电用户作为市场的参与者,可以用博弈论来分析市场,研究如何报价获利最大。

正确运用博弈论关键要针对电力市场的特点正确选择模型和解的概念。例如:力量相当的两个区域电网之间交换功率的情形比较适合用古诺模型和Nash谈判解方法;而自备电厂与公用电网之间的交易可能更适合用Stackleberg模型。还有局中人结盟问题:如何识别合作伙伴,结盟利益如何在联盟内分配。电力市场环境下,电网输电作为一项服务,它的网损、固定资产投资如何在网络使用者之间分担。这些分配问题有不同的概念的解:稳定集,核心,核仁,Shapely值等,如何合理选择或创造最接近实际的解的概念也是面临的课题。

博弈的结果是依赖于拥有的信息,采用什么样的信息披露政策是设计电力市场模式的一个方面。例如:电厂竞价上网,一个成功的报价不仅取决于自己的实力,还有赖于他人如何报价。但是各方往往不清楚互相之间成本、报价等信息,因为这些信息都是各自的商业秘密。如何处理这种信息既不完全也不完美的博弈是一个重要的课题。反过来,博弈的实验结果也为电力市场披露怎样的信息提供依据。

博弈论和电力市场理论都是很年轻的科学,两者都有广阔的发展天地,两者的结合可以互相促进。

4、博弈论在电力市场中的应用

4.1自备电厂与公用电网之间的交易

开放发电市场的进程中,拥有自备电厂的用户是一类特殊的市场参与者,它既是用电用户,也可以是电力的供应者。随着电力市场深入发展和工业的进步,自备电厂将成长为一支生力军。

文献[5]用博弈论来分析评价在分时定价的环境下拥有自备电厂的用户(NCP)对定价的影响作用。NCP既可以从公用电网购电,也可以自己发电来满足自身需求。为解决两者的冲突,作者提出了三种博弈模型:非合作Nash博弈模型,合作博弈模型和超博弈模型。作者构造了三个局中人:公用电网,普通用户,带自备电厂的用户(NCP),并且假设它们的需求函数、边际成本、收益函数等均是线性的,通过数字模拟得出了一些有趣的结果:①NCP的加入促使公用电网降低出售给NCP的电价;②冲突还使普通用户得到更多益处。该文为解决自备电厂与公用电网的相互作用提供了很有用的分析思想。但是尚有三点可以进一步改进:①该文尚未考虑NCP将自己多余的自发电卖给公用电网的情况;②该文将公用电网和NCP置于平等的市场地位可能不符合实际市场,如果公用电网规模很大,NCP数目很多但规模小,考虑Stackerlberg模型更符合两者实际;③该文假设公用电网的目标函数是整个社会利益最大化,而并非是自身利益最大化,这个假设不符合电力市场需要解除管制的发展方向。

文献[6]部分解决了以上问题,它重点放在自备电厂和公用电网相互作用的方式的选择:公用电网回购NCP多余电力(buy-backsystem)或者公用电网收取NCP运转电力的过网费(wheelingcharges)。该文分析了在不同市场环境下,各方的得益情况,得出了一些可能只有用博弈论才能得出的结论。

4.2区域间输电交易分析

互联网间短期电力交换是一种经济运行的手段。白晓民等在文献[7]中应用Nash博弈论来分析简单的两区域系统单时段交易分析,得出双方都可接受的交换功率和交易价格。在此基础上,文献[8]提出了一种两阶段迭代计算方法来处理外部交易计划与内部经济调度的协调。该文所用的博弈模型是二人非零和对策,采取合作型对策,应用Nash谈判公理作为仲裁程序,决策出双方都可接受的交换功率和交易价格。应该指出,白晓民等的分析是基于完全信息的博弈也即博弈双方均对对方在各种情况下的得益了解非常清楚。如果缺少这方面的信息,又应该如何分析处理呢?这个问题值得进一步深入探究。

4.3转运市场中电网的固定成本分摊问题

运转市场中一个难题是网络输电服务定价,这个定价能够给网络使用者一个信号,以达到全网最优化;并且能够补偿网络的投资者,网损、变动成本、固定成本等费用在网络使用者中合理分摊;同时能够正确激励网络增容。节点实时价格(nodalspotprice)制度可以解决网损和网络阻塞问题。但是文献[9]的作者认为节点实时价格制度不能完全回收输电系统的固定投资,为了解决双边贸易中输电系统固定成本公正分摊问题,作者提出了基于多人合作博弈模型,可以计算出逐条线路逐笔交易的分摊费用。文中使用“核仁”作为模型的解。该方法的优点:①使用“核仁”而不用Shapely值,因为“核仁”处于核心,分配值更加稳定和易于被各方接受;②提供了一种激励,减轻线路过载。

4.4基于Pool或PX模式的多边贸易市场

电力市场环境下的博弈具有行动策略随机性、信息隐蔽性,这些特点都给建模和计算造成困难,从而限制了实际应用。各种文献在处理这种不确定信息环境下的决策问题中,通常需要假设或者估计对方的信息,方法各有特色。

在文献[10]作者认为在完全竞争的市场环境下,市场参与者相对于市场规模都显得很小,市场影响力很小。在这种情况下,优化报价决策不需要博弈的思想。文中作者认为电力市场属于不完全竞争市场,单个市场参与者对市场是有影响力的,其模型本质上属于不完全信息的非合作博弈。例如:每个参与者只知道自己的成本信息,而不知道对方的成本等信息。在这种情况下作者提出了这样的一个问题:在无法完全了解对方的信息情况下,参与者如何投标(选择高价投标还是低价投标)才能使自己收益最大。该文通过转化的方式把不完全信息的博弈变为信息完全但不完美的动态博弈来求解。每个市场参与者均对自己的对手可能的出价进行分类,并对每一类的可能性进行概率估计,形成一个概率意义上的期望收益矩阵,用Nash平衡点的概念求解矩阵,得到问题的解。

文献[11][12]作者提出了一种谈判模型。每一个局中人进行决策时,都同时执行以下两个步骤:①对可能的合作对象按照一定的指标进行优先排序;②按照谈判优先顺序,逐一进行讨价还价,谈判的规则与程序是预先设定好的。该文的特色是谈判对象的优先顺序表的形成。排序的准则基于该局中人A对关于他人的信息的了解程度。先分别对其他局中人的成本信息进行分类,并对每一类出现的可能性进行概率估计。然后假设与某局中人B进行合作,互相交换共享所拥有的信息,联合成博弈的一方,剩下的局中人结合为博弈的另一方。这样的博弈模型的Nash平衡点是概率意义上的期望值,作为与B合作的优先指标。对每个局中人都进行一遍以上计算,得到了A的谈判对象优先顺序表。每个局中人都有自己的一张优先顺序表。最后按照预先设定的谈判规则与程序,各方同时进行合作谈判,谈判要解决如何合理分配或均衡比单干多出的利益。

该文关键的一点:正确掌握对方的成本、策略等信息。各方可能从每一次博弈的结果中得到有用的反馈信息,并用这种反馈来更新自己的知识库,提高对他人了认识。遗憾的是作者并没有提到如何实现这样重要的学习过程。该文的模拟算法中的一个缺点:计算量随局中人的数目和每个局中人类型的数目的增长呈指数增长。

对于多边贸易模式的电力市场,文献[13]提出了多理论模型,解决贸易合作问题,文中的模型基于完全信息的博弈模型。模拟的过程包括四个阶段:①确定自身成本等信息;②与对方互相交换信息,互相寻求合作伙伴;③按照预先设定的准则和协议进行联合分组,形成一个谈判对象优先顺序表,这个顺序表获得方法于[11][12]的方法不一样。作者采用公平性合作标准和Shapely值来确定这个顺序表;④按照优先顺序表进行双边谈判。作者认为这四个阶段可以反复迭代进行,直至没有人愿意改变合作格局为止或者达到预先设定的计算时间。作者在文中考虑了多种情况,但是模型仍偏于简单。

4.5用博弈论解释和实现算法

文献[14]用博弈论来解释拉格朗日松弛法法解决机组经济组合的算法。该文认为在电力市场的环境下,竞争各方均以实现自身利益最大化为目标,旋转备用的约束变得软起来,PX(powerexchange)机构可能通过松弛这一约束进一步降低成本。该文提出了一种基于博弈论的算法获取最优的旋转备用。

作者认为拉格朗日松弛法的拉格朗日乘子是有经济含义的,松弛旋转备用的乘子被看作是提供备用的价格信息,各时段的旋转备用根据这个信息不断在规定的高低两种备用水平之间调整(例如:为t时段负荷)。根据优化原理,如果拉格朗日函数存在鞍点,则鞍点是原问题的最优解。

鞍点的概念与博弈论中的Nash平衡点有非常相似之处,如以上公式所示。基于此想法,作者构造了两厂商博弈模型。其中一局中人P代表整个实际电网的利益,它控制的决策变量是p,u(p向量表示各机组分配的有功,u向量表示机组启停),目标是使整个系统成本最低。另一个局中人Q,是一个假想的发电商,它以价格向P销售备用容量和有功容量。双方就旋转备用交易进行讨价还价,最终达到一个平衡的交易量和交易价格。作者证明以上博弈过程的Nash平衡解就是拉格朗日函数的解。基于以上结论,作者设计了自适应的次梯度算法寻求平衡点,其中一个关键技术作者设计了厂商P对厂商Q备用容量报价的反应函数该函数将映射到备用容量的两种水平之间(例如:5%Dt-%Dt,Dtt时段负荷),形成一个随价格信息变动的备用容量。根据厂商Q是否了解厂商P的反应函数,模型可细分为两种:Nash模型(不了解对方反应函数)和Stackelberg模型(Q了解P的反应函数),作者认为后一种模型掌握的信息较多,因此收敛的速度和优化的效果梢好于前一种模型。

用博弈论来解释并且设计一些算法是一个新鲜而具有挑战性的课题。博弈论本身就是带有优化功能的一门严谨的数学,不过它更具有人的逻辑思维的色彩,融合了一些用别的方法难以表达的信息。

博弈论的局限性第7篇

博弈论又称为“对策论”,一种使用严谨数学模型来解决现实世界中的利害冲突的理论。由于冲突、合作、竞争等行为是现实世界中常见的现象,因此很多领域都能应用博弈论,例如军事领域、经济领域、政治外交,解决诸如战术攻防、国际纠纷、定价定产、兼并收购、投标拍卖甚至动物进化等问题。

博弈论的研究开始于本世纪,1944年诺依曼和摩根斯坦合著的《博弈论和经济行为》一书的出版标志着博弈理论的初步形成,随后发展壮大为一门综合学科。1994年三位长期致力于博弈论研究实践的学者纳什、海萨尼、塞尔顿共同获得诺贝尔经济学奖,使博弈论在经济领域中的地位和作用得到权威性的肯定。

2.博弈论的基本原理和方法

文献[1][2]用浅白的语言叙述了博弈论的思想精髓和基本概念。文献[3][4]更注重理论上的分析和数学的严谨。概括起来,博弈论模型可以用五个方面来描述

G={P,A,S,I,U}

P:为局中人,博弈的参与者,也称为“博弈方”,局中人是能够独立决策,独立承担责任的个人或组织,局中人以最终实现自身利益最大化为目标。

A:为各局中人的所有可能的策略或行动的集合。根据该集合是否有限还是无限,可分为有限博弈和无限博弈,后者表现为连续对策,重复博弈和微分对策等。

S:博弈的进程,也是博弈进行的次序。局中人同时行动的一次性决策的博弈,成为静态博弈,如齐威王和田忌赛马;局中人行动有先后次序,称为动态博弈,如下棋。

I:博弈信息,能够影响最后博弈结局的所有局中人的情报,如效用函数,响应函数,策略空间等。打仗强调“知己知彼,百战不殆”,可见信息在博弈中占重要的地位,博弈的赢得很大程度依赖于信息的准确度与多寡。得益信息是博弈中的重要信息,如果博弈各方对各种局势下所有局中人的得益状况完全清楚,称之为完全信息博弈(gamewithcompleteinformation),例如齐威王和田忌赛马,各种马的组合对阵的结果双方都不严而喻。反之为不完全信息博弈(gamewithincompleteinformation),例如投标拍卖,博弈各方均不清楚对方的估价。在动态博弈中还有一类信息:轮到行动的博弈方是否完全了解此前对方的行动。如果完全了解则称之为“具有完美信息”的博弈(gamewithperfectinformation),例如下棋,双方都清楚对方下过的着数。反之称为“不完美信息的动态博弈”(gamewithimperfectinformation)。由于信息不完美,博弈的结果只能是概率期望,而不能象完美信息博弈那样有确定的结果。

U:为局中人获得利益,也是博弈各方追求的最终目标。根据各方得益的不同情况,分为零和博弈和变和博弈。零和博弈中各方利益之间是完全对立的。变和博弈有可能存在合作关系,争取双赢的局面。

还有另一类型博弈称为多人合作博弈,例如安理会投票表决,OPEC联合限产保价等问题。这类问题重点放在联盟利益的分配上,它的理论和方法广泛应用于利益损失的共同分担问题。多人合作博弈的研究方法主要是特征函数模型。以个可能的联盟为定义域,特征函数表示各个联盟的得益(N是局中人的数目),它的分配解必须符合一定的合理性和稳定性,它的解的概念也发展成多种多样,包括稳定集、核心、核仁、Shapely值等。解的多样性符合现实世界复杂多样的需要,针对不同的问题选择或创造合适的解的概念是博弈论深入研究的课题。

不管博弈各方是合作、竞争、威胁还是暂时让步,博弈论模型的求解目标就是使自身最终的利益最大化,这种解建立在对方也采取各自“最好策略”为前提,各方最终达到一个力量均衡,也就是说谁也无法通过偏离均衡点而获得更多的利益。这就是博弈论求解的本质思想。

3、博弈论与电力市场

博弈论是研究市场经济的重要工具。电力作为特殊的商品,它的生产、运输、销售和消费也逐渐走向市场化。世界范围内很多国家的电力工业走向放松管制、引进竞争的进程中,遇到很多前所未有的新课题,运用博弈论来分析解决其中一些问题是一个研究方向。用博弈论模拟电力市场,模拟的结果可能更加接近实际,为市场模式设计提供依据。另外,电厂或用电用户作为市场的参与者,可以用博弈论来分析市场,研究如何报价获利最大。

正确运用博弈论关键要针对电力市场的特点正确选择模型和解的概念。例如:力量相当的两个区域电网之间交换功率的情形比较适合用古诺模型和Nash谈判解方法;而自备电厂与公用电网之间的交易可能更适合用Stackleberg模型。还有局中人结盟问题:如何识别合作伙伴,结盟利益如何在联盟内分配。电力市场环境下,电网输电作为一项服务,它的网损、固定资产投资如何在网络使用者之间分担。这些分配问题有不同的概念的解:稳定集,核心,核仁,Shapely值等,如何合理选择或创造最接近实际的解的概念也是面临的课题。

博弈的结果是依赖于拥有的信息,采用什么样的信息披露政策是设计电力市场模式的一个方面。例如:电厂竞价上网,一个成功的报价不仅取决于自己的实力,还有赖于他人如何报价。但是各方往往不清楚互相之间成本、报价等信息,因为这些信息都是各自的商业秘密。如何处理这种信息既不完全也不完美的博弈是一个重要的课题。反过来,博弈的实验结果也为电力市场披露怎样的信息提供依据。

博弈论和电力市场理论都是很年轻的科学,两者都有广阔的发展天地,两者的结合可以互相促进。

4、博弈论在电力市场中的应用

4.1自备电厂与公用电网之间的交易

开放发电市场的进程中,拥有自备电厂的用户是一类特殊的市场参与者,它既是用电用户,也可以是电力的供应者。随着电力市场深入发展和工业的进步,自备电厂将成长为一支生力军。

文献[5]用博弈论来分析评价在分时定价的环境下拥有自备电厂的用户(NCP)对定价的影响作用。NCP既可以从公用电网购电,也可以自己发电来满足自身需求。为解决两者的冲突,作者提出了三种博弈模型:非合作Nash博弈模型,合作博弈模型和超博弈模型。作者构造了三个局中人:公用电网,普通用户,带自备电厂的用户(NCP),并且假设它们的需求函数、边际成本、收益函数等均是线性的,通过数字模拟得出了一些有趣的结果:①NCP的加入促使公用电网降低出售给NCP的电价;②冲突还使普通用户得到更多益处。该文为解决自备电厂与公用电网的相互作用提供了很有用的分析思想。但是尚有三点可以进一步改进:①该文尚未考虑NCP将自己多余的自发电卖给公用电网的情况;②该文将公用电网和NCP置于平等的市场地位可能不符合实际市场,如果公用电网规模很大,NCP数目很多但规模小,考虑Stackerlberg模型更符合两者实际;③该文假设公用电网的目标函数是整个社会利益最大化,而并非是自身利益最大化,这个假设不符合电力市场需要解除管制的发展方向。

文献[6]部分解决了以上问题,它重点放在自备电厂和公用电网相互作用的方式的选择:公用电网回购NCP多余电力(buy-backsystem)或者公用电网收取NCP运转电力的过网费(wheelingcharges)。该文分析了在不同市场环境下,各方的得益情况,得出了一些可能只有用博弈论才能得出的结论。

4.2区域间输电交易分析

互联网间短期电力交换是一种经济运行的手段。白晓民等在文献[7]中应用Nash博弈论来分析简单的两区域系统单时段交易分析,得出双方都可接受的交换功率和交易价格。在此基础上,文献[8]提出了一种两阶段迭代计算方法来处理外部交易计划与内部经济调度的协调。该文所用的博弈模型是二人非零和对策,采取合作型对策,应用Nash谈判公理作为仲裁程序,决策出双方都可接受的交换功率和交易价格。应该指出,白晓民等的分析是基于完全信息的博弈也即博弈双方均对对方在各种情况下的得益了解非常清楚。如果缺少这方面的信息,又应该如何分析处理呢?这个问题值得进一步深入探究。

4.3转运市场中电网的固定成本分摊问题

运转市场中一个难题是网络输电服务定价,这个定价能够给网络使用者一个信号,以达到全网最优化;并且能够补偿网络的投资者,网损、变动成本、固定成本等费用在网络使用者中合理分摊;同时能够正确激励网络增容。节点实时价格(nodalspotprice)制度可以解决网损和网络阻塞问题。但是文献[9]的作者认为节点实时价格制度不能完全回收输电系统的固定投资,为了解决双边贸易中输电系统固定成本公正分摊问题,作者提出了基于多人合作博弈模型,可以计算出逐条线路逐笔交易的分摊费用。文中使用“核仁”作为模型的解。该方法的优点:①使用“核仁”而不用Shapely值,因为“核仁”处于核心,分配值更加稳定和易于被各方接受;②提供了一种激励,减轻线路过载。

4.4基于Pool或PX模式的多边贸易市场

电力市场环境下的博弈具有行动策略随机性、信息隐蔽性,这些特点都给建模和计算造成困难,从而限制了实际应用。各种文献在处理这种不确定信息环境下的决策问题中,通常需要假设或者估计对方的信息,方法各有特色。

在文献[10]作者认为在完全竞争的市场环境下,市场参与者相对于市场规模都显得很小,市场影响力很小。在这种情况下,优化报价决策不需要博弈的思想。文中作者认为电力市场属于不完全竞争市场,单个市场参与者对市场是有影响力的,其模型本质上属于不完全信息的非合作博弈。例如:每个参与者只知道自己的成本信息,而不知道对方的成本等信息。在这种情况下作者提出了这样的一个问题:在无法完全了解对方的信息情况下,参与者如何投标(选择高价投标还是低价投标)才能使自己收益最大。该文通过转化的方式把不完全信息的博弈变为信息完全但不完美的动态博弈来求解。每个市场参与者均对自己的对手可能的出价进行分类,并对每一类的可能性进行概率估计,形成一个概率意义上的期望收益矩阵,用Nash平衡点的概念求解矩阵,得到问题的解。

文献[11][12]作者提出了一种谈判模型。每一个局中人进行决策时,都同时执行以下两个步骤:①对可能的合作对象按照一定的指标进行优先排序;②按照谈判优先顺序,逐一进行讨价还价,谈判的规则与程序是预先设定好的。该文的特色是谈判对象的优先顺序表的形成。排序的准则基于该局中人A对关于他人的信息的了解程度。先分别对其他局中人的成本信息进行分类,并对每一类出现的可能性进行概率估计。然后假设与某局中人B进行合作,互相交换共享所拥有的信息,联合成博弈的一方,剩下的局中人结合为博弈的另一方。这样的博弈模型的Nash平衡点是概率意义上的期望值,作为与B合作的优先指标。对每个局中人都进行一遍以上计算,得到了A的谈判对象优先顺序表。每个局中人都有自己的一张优先顺序表。最后按照预先设定的谈判规则与程序,各方同时进行合作谈判,谈判要解决如何合理分配或均衡比单干多出的利益。

该文关键的一点:正确掌握对方的成本、策略等信息。各方可能从每一次博弈的结果中得到有用的反馈信息,并用这种反馈来更新自己的知识库,提高对他人了认识。遗憾的是作者并没有提到如何实现这样重要的学习过程。该文的模拟算法中的一个缺点:计算量随局中人的数目和每个局中人类型的数目的增长呈指数增长。

对于多边贸易模式的电力市场,文献[13]提出了多理论模型,解决贸易合作问题,文中的模型基于完全信息的博弈模型。模拟的过程包括四个阶段:①确定自身成本等信息;②与对方互相交换信息,互相寻求合作伙伴;③按照预先设定的准则和协议进行联合分组,形成一个谈判对象优先顺序表,这个顺序表获得方法于[11][12]的方法不一样。作者采用公平性合作标准和Shapely值来确定这个顺序表;④按照优先顺序表进行双边谈判。作者认为这四个阶段可以反复迭代进行,直至没有人愿意改变合作格局为止或者达到预先设定的计算时间。作者在文中考虑了多种情况,但是模型仍偏于简单。

4.5用博弈论解释和实现算法

文献[14]用博弈论来解释拉格朗日松弛法法解决机组经济组合的算法。该文认为在电力市场的环境下,竞争各方均以实现自身利益最大化为目标,旋转备用的约束变得软起来,PX(powerexchange)机构可能通过松弛这一约束进一步降低成本。该文提出了一种基于博弈论的算法获取最优的旋转备用。

作者认为拉格朗日松弛法的拉格朗日乘子是有经济含义的,松弛旋转备用的乘子被看作是提供备用的价格信息,各时段的旋转备用根据这个信息不断在规定的高低两种备用水平之间调整(例如:为t时段负荷)。根据优化原理,如果拉格朗日函数存在鞍点,则鞍点是原问题的最优解。

鞍点的概念与博弈论中的Nash平衡点有非常相似之处,如以上公式所示。基于此想法,作者构造了两厂商博弈模型。其中一局中人P代表整个实际电网的利益,它控制的决策变量是p,u(p向量表示各机组分配的有功,u向量表示机组启停),目标是使整个系统成本最低。另一个局中人Q,是一个假想的发电商,它以价格向P销售备用容量和有功容量。双方就旋转备用交易进行讨价还价,最终达到一个平衡的交易量和交易价格。作者证明以上博弈过程的Nash平衡解就是拉格朗日函数的解。基于以上结论,作者设计了自适应的次梯度算法寻求平衡点,其中一个关键技术作者设计了厂商P对厂商Q备用容量报价的反应函数该函数将映射到备用容量的两种水平之间(例如:5%Dt-%Dt,Dtt时段负荷),形成一个随价格信息变动的备用容量。根据厂商Q是否了解厂商P的反应函数,模型可细分为两种:Nash模型(不了解对方反应函数)和Stackelberg模型(Q了解P的反应函数),作者认为后一种模型掌握的信息较多,因此收敛的速度和优化的效果梢好于前一种模型。

用博弈论来解释并且设计一些算法是一个新鲜而具有挑战性的课题。博弈论本身就是带有优化功能的一门严谨的数学,不过它更具有人的逻辑思维的色彩,融合了一些用别的方法难以表达的信息。