博弈论案例分析(基本概念讲解和具体案例分析)
博弈论,又称博弈理论或对策理论,是研究具有斗争或竞争性质的现象的数学理论和 *** 。考虑博弈论中个体的预测行为和实际行为,研究其优化策略。从表面上看,不同的互动可能表现出相似的激励结构,所以是同一博弈的特例。其中一个著名而有趣的应用例子是囚徒困境。
竞争性或对抗性的行为称为博弈行为。在这种行为中,参与斗争或竞争的各方有不同的目标或利益。为了实现各自的目标和利益,各方都必须考虑对手所有可能的行动方案,尽量选择对自己最有利或最合理的方案。博弈论是研究博弈各方之间是否存在最合理的行为计划,以及如何寻找这种合理的行为计划的数学理论和 *** 。
起源概述
约翰·冯·诺依曼是一个超级跨界者——他在数学、物理、经济学、计算机等多个领域做出了划时代的贡献,留下了很多以他名字命名的东西。比如程序员应该都听说过冯诺依曼系统,比如数学上的冯诺依曼代数和冯诺依曼遍历定理,理论物理上的冯诺依曼量子测量和冯诺依曼遍历定理。还有很多其他的东西,虽然没有以他的名字命名,但都是他首先研究出来的,比如:量子力学的公理化表达,希尔伯特第五问题,连续几何(空之间的维数不是整数),蒙特卡罗 *** ,以及归并排序算法。1944年与奥斯卡·摩根斯坦合作出版了《博弈论与经济行为》,一举奠定了博弈论体系的基础,因此也被称为博弈论。
游戏类型
合作博弈与非合作博弈
无论是合作博弈还是非合作博弈,在博弈的过程中都可能出现合作的现象。不同的是,对于合作博弈来说,存在着某种外部约束力,这样背叛就会受到这种外部约束力的惩罚。对于非合作博弈,没有这样的外部约束力,对背叛的惩罚只能依靠博弈过程中的其他参与者。通常,博弈指的是非合作博弈。
同时博弈和顺序博弈
同时,博弈有时也被称为静态博弈,是指博弈中的任何参与者在选择自己的行为之前,并不知道其他参与者的行为信息。顺序博弈有时被称为动态博弈。在这种游戏中,参与者的动作是按时间顺序的,后面执行动作的玩家可以看到其他玩家前面的动作,然后根据别人的动作思考自己的行为。
零和博弈与非零和博弈
零和游戏这个名字有误导性,让很多人以为各方收益之和为零。零和博弈是指博弈结束后,参与各方的利益总和是不变的(可以是零,可以是正的,也可以是负的)。非零和博弈是指博弈结束后,参与各方的利益总和是可变的。因此,这种游戏有时被称为和游戏。对于这种博弈,在某些情况下,参与各方的利益总和可能会增加,从而使各方合作成为可能。
非重复博弈和重复博弈
非重复博弈有时也叫单博弈;相应地,重复博弈也称为多重博弈。重复博弈可以进一步细分为有限重复博弈和无限重复博弈。更严格的说是:有限重复的博弈——确定重复的博弈,无限重复的博弈——不确定重复的博弈。
游戏策略
收入矩阵和决策树
这两个概念意在更直观的描述游戏过程,帮助你看清各方的优劣。支付矩阵通常用来描述静态博弈(同时博弈),一般用来描述两个参与者的静态博弈。多人的静态博弈也可以用收益矩阵来表示,但是画出来会复杂很多。由于动态博弈(序贯博弈)比较复杂,通常不用“回报矩阵”来描述。决策树可以用来描述静态和动态博弈。
策略和策略 ***
以象棋为例。完成一个游戏需要很多步骤。对于每一步,您都有多个决策选项(拿哪一块,去哪里)。而策略指的是——从之一步到最后一步所有决策选项的总和。你可以通俗地把策略理解为某种算法指导思想,指导你从之一步走到最后一步。所有可能的策略构成一组策略。
有限策略集和无限策略集
石头剪子布是典型的有限策略集,只有三个元素。为了说明无限策略集,我们举一个分蛋糕游戏的例子,一个人把蛋糕随机分成两块,然后另一个人先选择其中一个。对于蛋糕分享的负责人来说,策略集是无限的。很多人直观地认为,策略集无限的博弈比策略集有限的博弈复杂。其实围棋虽然很复杂,但是它的策略集还是有限的。相比之下,分享蛋糕的游戏比围棋简单得多,但分享蛋糕的游戏有无限多的策略。
纯策略和混合策略
在实际博弈中,如果你总是在策略 *** 中选择某一个策略,这种情况叫做纯策略。如果你在博弈过程中总是随机选择策略集中的一些策略,这种情况叫做混合策略。如果一个混合策略包含策略集中的所有元素,则称之为完全混合策略。
优策略
假设你有两个策略A&B,在任何情况下,如果A优于B,就叫A优于B或者B被A优,优策略也叫优策略。如果一个策略可以支配所有其他策略,那么它就是一个支配策略。通俗地说,无论对手采取什么策略,你的优势策略总是比你的其他策略有更好的结果。有时优势策略会进一步细分为强优势和弱优势。对于前者,无论如何都比其他策略好;对于后者,它在某些情况下优于其他策略,在某些情况下与其他策略一样好。胜利策略,也称制胜策略,通常只在零和游戏中使用,意思是只要你采取这种策略,无论对方如何应对,你总是赢。制胜策略肯定是占优策略;但是优势策略不一定是获胜策略。
极大极小定理
比较的说法是更大损失最小化,比较通俗的说法是最坏情况下损失最小化。这个定理和算法最早是由冯·诺依曼在《博弈论与经济行为》一书中提出的。
逆向归纳法&这种 *** 的概念
它的本质是向前看和向后推理。首先,你需要思考你的每一个决定,以及对方在处理你的决定时会采取什么样的决定。这个思维过程类似于决策树的扩展,这个扩展过程要一直推演到最后一步,也就是决策树的叶节点。至此,你可以看到最后一步双方的更优选择;然后反推回之一步。当你想用逆向归纳法进行预测和推理时,前提是——你要获得充分的信息;换句话说,如果一个玩家没有掌握足够的信息,他就不能使用这种 *** 。
盗版游戏
问题描述
五个海盗抢了100个金币,商量如何分赃。这五个海贼等级不同(假设A > B > C > D > E)。首先由等级更高的海盗提出分赃方案,然后进行投票。超过半数(含半数)同意的,按此方案划分,游戏结束;如果赞成的不到一半,就把提出方案的海盗扔到海里喂鲨鱼,然后下一级的海盗再提出新的方案;诸如此类。每一个海贼的特点是:足够理性(追求个人利益更大化),知道别人足够理性;足够残酷(当个人利益相等时,他们倾向于把更多的同伴扔进海里)。
战略分析
为了逆向推理,假设最后只剩下两个海盗(D&E)。这时候必须投过半数的票(D肯定投了他的方案)。在这种情况下,D可以采取最极端的方案——他可以得到全部100个金币,而E一个也拿不到。
现在后退一步。当只剩下三个海盗(C,D,E)时,C提出一个计划。他只需要给e 1个金币,E就会投赞成票(否则D提出提案时E什么也得不到)。所以在C的计划中,他自己拿99个金币,E拿1个金币。
再向前一步。只剩下四个海盗(B,C,D,E)。如果B提出一个方案,他当然能想到刚才那些推论。他只要给D 1金币,D就会支持他(如果C想出方案,D什么也得不到)。所以B提出的方案是B: 99,C: 0,D: 1,E: 0,也能得到一半的支持。
基于以上分析,再看A的方案,就很明显了——A:98,B: 0,C: 1,D: 0,e。
纳什均衡
1951年,美国数学家纳什发表了一篇名为《非合作博弈》的小论文,他在论文中提出了纳什均衡的概念,并基于不动点定理给出了相应的数学证明。通俗地说,就是在多人非合作博弈中,如果每个人都不能单方面改善自己的处境,此时的处境就叫做纳什均衡。冯·诺依曼在《博弈论与经济行为》一书中已经证明,零和博弈中必然存在这样一个均衡点。纳什的贡献在于他从零和博弈提升到非零和博弈,并证明了这样的均衡点依然存在。当博弈情况处于纳什均衡时,此时系统是稳定的。如果每个玩家都足够理性,他们不愿意改变当前的策略。
心理因素
换位考虑
前面提到的很多游戏相关的技能,都是靠同理心的能力。你需要站在对手的角度思考,才能看清形势,更好地选择自己的策略。一般来说,共情能力越强,批判性思维能力越强。
理性人假设
微观经济学在进行数学建模时,通常会引入一个理性人假设,假设市场的行为主体是完全理性的,这里的完全理性也意味着掌握了充分的信息。这个假设是为了数学建模的需要而引入的。任何一个国家的大多数人都很平庸,他们的一个共同点就是非常不理智。理性的、拥有充分信息的个体是绝对罕见的,理性的人假设所有设定市场的行为者都是完全理性的。有了博弈论,这种荒谬的理性人假设就可以扔进垃圾桶了。
旧的经济理论(理性人的解释)会说——所有公司的老板都是完全理性的,有充分的信息知道应该生产什么样的商品才能满足市场需求。新经济理论(博弈论的解释)会说公司的老板既优秀又平庸。平庸的公司生产的商品没人要,自然会亏损破产。随着时间的推移,经过自然选择,幸存下来的公司当然是那些聪明的公司。
假装疯了
理性玩家把自己伪装成非理性玩家,可以达到一些虚张声势的效果。对这种战术,我称之为装疯策略。
影响范围
经济学
要说博弈论的影响,当然首先要说它对经济学的影响。有了博弈论,就不需要胡说八道的理性人假设。这是博弈论诞生后对微观经济学的一个很大的影响,还有很多其他的影响。比如,在博弈论诞生之前,传统微观经济学建立了由供求关系决定价格的数学模型。这个模型只考虑了供求关系的变化对价格的影响,而完全没有考虑供需双方的力量对比。如果其中一个供应商变强或者另一个变弱。即使供求保持不变,价格也会发生变化,朝着有利于强势一方的方向移动。
生物
生物学中受博弈论影响更大的分支是进化生物学,即进化论。借助博弈论的研究成果,进化生物学家可以更好地建立物种进化的数学模型。