博弈——社会科学播放幻灯片 | 文档首页文档目录

制度

分类

博雅教育
中式教育

现象

古迹

学习

战争

分类

游击战

社会

政治

事件

法理

历史

历史

生活

文化

经济

娱乐

服饰

饮食

社交

信息

其他

教育

其他

企业

行业

法律

法律

犯罪

暴力

罪名

职场

情感

情感

分类

情绪

爱情

刑罚

理论

节日

婚姻

货币

节日

责任

礼节

酒

玄学

其他

现象

其他

简介

类型

合作博弈与非合作博弈

:::: tabs top-start

::: tab-pane 简介不论是“合作博弈”or“非合作博弈”，在博弈过程中都可能会出现“合作”的现象。差别在于：

对于“合作博弈”，存在某种外部约束力，使得“背叛”的行为会受到这种外部约束力的惩罚。

对于“非合作博弈”，没有上述这种“外部约束力”，对“背叛”的惩罚只能依靠博弈过程的其它参与者。

举例：商业活动中有“合同法”，就相当于上述所说的外部约束力。

通常所说的“博弈”大都指“非合作博弈”。 :::

::: tab-pane 合作博弈合作博弈是指一些参与者以同盟、合作的方式进行的博弈，博弈活动就是不同集团之间的对抗。在合作博弈中，参与者未必会做出合作行为，然而会有一个来自外部的机构惩罚非合作者。合作博弈亦称为正和博弈，是指博弈双方的利益都有所增加，或者至少是一方的利益增加，而另一方的利益不受损害，因而整个社会的利益有所增加的。 :::

::: tab-pane 非合作博弈非合作博弈是指在策略环境下，非合作的框架把所有的人的行动都当成是个别行动。它主要强调一个人进行自主的决策，而与这个策略环境中其他人无关。通常也就是我们字面上博弈的意思。博弈并非只包含了冲突的元素，往往在很多情况下，既包含了冲突元素，也包含了合作元素。即冲突和合作是重叠的。 :::

::::

同时博弈与顺序博弈

:::: tabs top-start

::: tab-pane 同时博弈

“同时博弈”有时也称作“静态博弈”，指的是——博弈的任何一个参与者在选择自己的行为之前，并不知道其它参与者的行为信息。

举例：“石头/剪刀/布” :::

::: tab-pane 顺序博弈

“顺序博弈”有时也称作“动态博弈”。在这类博弈中，参与者的动作有时间上的先后，并且后一个执行动作的博弈者可以看到其他博弈者之前的动作，然后根据别人的动作，思考自己的行为。

举例：绝大部分棋牌类游戏都属于这种。 :::

::::

零和博弈与非零和博弈

:::: tabs top-start

::: tab-pane 零和博弈

”零和博弈”这个名称具有误导性，使得很多人以为各方的收益总和为零。

“零和博弈”指的是——在博弈结束之后，参与各方的利益总和为常量。

举例：大多数棋类游戏属于这种；“石头/剪刀/布”也属于这种。 :::

::: tab-pane 非零和博弈

“非零和博弈”指的是——在博弈结束之后，参与各方的利益总和为变量。所以这类博弈有时候称为变和博弈。

对于这类博弈，在某些情况下可能会让参与各方的利益总和变大，从而使得各方存在合作的可能性。

举例：在“非零和博弈”中，最有名的应该就是“囚徒困境”了。 :::

::: tab-pane 负和博弈负和博弈，是指双方冲突和斗争的结果，是所得小于所失，就是我们通常所说的其结果的总和为负数。它既包括一种两败俱伤的情况，这种情况下结果双方都有不同程度的损失；它也包括另一种“胜者”取得的利益小于“败者”承受的损失的博弈。 :::

::::

单次博弈与多次博弈

:::: tabs top-start

::: tab-pane 简介 “非重复博弈”有时也称作“单次博弈”；相应的，“重复博弈”也被称作“多次博弈”。

以“囚徒困境”为例。如果困境中的两个嫌疑人只被抓进去一次，那就是“单次博弈”；如果被抓进去不止一次，就是“多次博弈”。 :::

::: tab-pane 单次博弈单次博弈随机性强。 :::

::: tab-pane 多次博弈

“重复博弈”还可以进一步细分为“有限重复博弈”与“无限重复博弈”。

这2个术语容易产生歧义。更严谨的说法是：

“有限重复博弈”——重复次数确定的博弈

“无限重复博弈”——重复次数不确定的博弈 :::

::::

分析

囚徒困境

:::: tabs top-start

::: tab-pane 简介

囚徒困境是指两个被捕的囚徒之间的一种特殊博弈，说明为什么甚至在合作对双方都有利时，保持合作也是困难的。囚徒困境是博弈论的非零和博弈中具代表性的例子，反映个人最佳选择并非团体最佳选择。虽然困境本身只属模型性质，但现实中的价格竞争、环境保护、人际关系等方面，也会频繁出现类似情况。 :::

::: tab-pane 起源

两个嫌疑犯作案后被警察抓住，分别关在不同的屋子里接受审讯。警察知道两人有罪，但缺乏足够的证据。警察告诉每个人：如果两人都抵赖，各判刑两年；如果两人都坦白，各判八年；如果两人中一个坦白而另一个抵赖，坦白的放出去，抵赖的判十年。于是，每个囚徒都面临两种选择：坦白或抵赖。然而，不管同伙选择什么，每个囚徒的最优选择是坦白：如果同伙抵赖、自己坦白的话放出去，抵赖的话判十年，坦白比不坦白好；如果同伙坦白、自己坦白的话判八年，比起抵赖的判十年，坦白还是比抵赖的好。结果，两个嫌疑犯都选择坦白，各判刑八年。如果两人都抵赖，各判两年，显然这个结果好。 :::

::: tab-pane 碎碎念

如果改变对应的量刑年份，会不会改变囚徒的选择呢？

甲/乙	坦白	抵赖
坦白	8年/8年	0年/10年
抵赖	10年/0年	2年/2年

其实这种情况对于囚徒来说，无论是坦白还是抵赖，区别并不大。因为自己坦白的结果是8年或者0年；抵赖的结果是10年或者2年，间值都是8年。选择坦白也只是少2年，而选择抵赖的最坏结果无非是多2年，所以囚徒选择抵赖的概率更高。

当：

坦白坦白-坦白抵赖=抵赖坦白-抵赖抵赖

的时候，抵赖就会产生纳什平衡，选择抵赖是最优解。

甲/乙	坦白	抵赖
坦白	3年/3年	0年/10年
抵赖	10年/0年	2年/2年

将双方坦白的时间改为3年之后，坦白的间值就成了3年或者0年，抵赖的间值就成了10年或者2年。

坦白坦白-坦白抵赖<抵赖坦白-抵赖抵赖

这个时候坦白的概率就会很高。

甲/乙	坦白	抵赖
坦白	9年/9年	0年/10年
抵赖	10年/0年	8年/8年

::::

纳什平衡

:::: tabs top-start

::: tab-pane 简介

基本信息

基本信息	详细信息	基本信息	详细信息
提出时间	1951年	提出者	约翰·纳什
英文	Nash equilibrium	-	-

纳什平衡，又称为非合作博弈均衡，是博弈论的一个重要术语，以约翰·纳什命名。在一个博弈过程中，无论对方的策略选择如何，当事人一方都会选择某个确定的策略，则该策略被称作支配性策略。如果任意一位参与者在其他所有参与者的策略确定的情况下，其选择的策略是最优的，那么这个组合就被定义为纳什平衡。一个策略组合被称为纳什平衡，当每个博弈者的平衡策略都是为了达到自己期望收益的最大值，与此同时，其他所有博弈者也遵循这样的策略。

:::

::: tab-pane 智猪博弈

假设猪圈里有一头大猪、一头小猪。猪圈的一头有猪食槽，另一头安装着控制猪食供应的按钮，按一下按钮会有10个单位的猪食进槽，但是谁按按钮就会首先付出2个单位的成本。按钮和猪食槽在相反位置，按按钮的猪要付出2个单位的成本，并且丧失了先到槽边进食的机会。

若小猪先到槽边进食，因为缺乏竞争，进食的速度一般，最终大小猪吃到食物的比率是6∶4；若同时到槽边进食，大猪进食速度加快，最终大小猪收益比是7∶3；若大猪先到槽边进食，大猪会霸占剩余所有猪食，最终大小猪收益比9∶1。

大猪选择行动的时候，小猪如果行动，小猪其收益是1。

大猪选择行动，小猪等待的话，小猪收益是4。

大猪选择等待的时候，小猪如果行动的话，小猪其收益是-1，

大小猪都等待的话，大小猪收益都是0。

综合来看，无论大猪是选择行动还是等待，小猪的选择都将是等待，即等待是小猪的占优策略。

那么，在两头猪都有智慧的前提下，最终结果是：小猪选择等待，大猪去按按钮。

在小企业经营中，学会如何“搭便车”是一个精明的职业经理人最为基本的素质。在某些时候，如果能够注意等待，让其他大的企业首先开发市场，是一种明智的选择。 :::

::::

帕累托最优

:::: tabs top-start

::: tab-pane 简介

基本信息

基本信息	详细信息	基本信息	详细信息
别名	帕累托效率	提出者	帕累托
英文	Pareto Optimality	-	-

指资源分配的一种理想状态，假定固有的一群人和可分配的资源，从一种分配状态到另一种状态的变化中，在没有使任何人境况变坏的前提下，使得至少一个人变得更好，这就是帕累托改进或帕累托最优化。 :::

::: tab-pane 帕累托改进改变一种状态，如果没有任何人的处境变坏，但是至少有一个人的处境变好，我们称之为帕累托改进。显然，如果一个社会已经处于帕累托最优状态，就不存在帕累托改进的可能(即改变现状必然有一部分人受损)，反之，如果现在的状态不是帕累托最优的，就存在帕累托改进的空间。

卡尔多-希克斯改进

卡尔多改进，也称卡尔多-希克斯效率，为1939年，约翰·希克斯提出的、以比较不同的公共政策和经济状态。

如果一个人的境况由于变革而变好，因而他能够补偿另一个人的损失而且还有剩余，那么整体的效益就改进了，为福利经济学的一个著名的准则。

在一项变革中，主要考虑的是社会价值最大化和社会财富最大化，当然这里可能包含着很大的收入分配不公。应该强调的是，如果谈判成本不是很高，卡尔多－希克斯改进都可以转化成帕累托改进。

:::

::::

懦夫博弈

在懦夫博弈中，影响博弈结果的因素有：信息的可信度、信息的传输度、双方的理智程度。

1、信息的可信度。在家长教育孩子的过程中，为了表示威胁，家长可以说如果你不听话就要挨揍了，也可以说如果你不听话就要把你送给其他人。相较而言，前者的可信度较高，博弈的效果也就更好。

2、信息的传输度。在某些校园霸凌案件中，弱小的一方往往会藏刀具在身，当双方在进入激烈冲突之后，突然用刀杀人，这种便是无效的博弈，因为霸凌者并不知道对方藏有刀具。信息的准确传输是非常重要的。

3、双方的理智程度。当对方是一个非理智状态，己方的最优选择是避让，俗语中的“狭路相逢勇者胜”，也只是在别人眼中只会看到一股子愚蠢。勇者胜的前提是双方硬实力相差无几，退让方理智的知道互相攻击造成的伤害大于避让的亏损。

双赢

万物守恒，比如市场上的蛋糕就那么大，A企业盈利多，必然是导致B企业盈利减少。或者说A、B企业合作互赢，那也只是以侵害C、D企业的利益为前提。

利己必然是损他的，利己和利他永远不可能同时。

经典案例

:::: collapse-panel accordion

::: collapse-item 分蛋糕

两个人合分一个蛋糕时，由于每个人都有私心，都想要到尽可能大的一份，这时就很难做到公平。为了让两个人都满意，最佳的解决办法就是让一个人切蛋糕，而让另外一个人先选。制定了这一规则后，切蛋糕的人为了不吃亏便会尽可能切得一样大，而选蛋糕的人也因为自己可以先选择而避免了利益的损失。 :::

::: collapse-item 海盗分金币

1、5个海盗抢得100枚金币，他们按抽签的顺序依次提方案：首先由1号提出分配方案，然后5人表决，投票要超过半数同意方案才被通过，否则他将被扔入大海喂鲨鱼，依此类推。

答案是：97，0，1，2，0 或 97，0，1，0，2 两种方案。

2、5个海盗抢得100枚金币，他们按抽签的顺序依次提方案：首先由1号提出分配方案，然后5人表决，投票要超过或包括半数同意方案才被通过，否则他将被扔入大海喂鲨鱼，依此类推。

答案是：98，0，1，0，1 一种方案。

海盗分金 – 百度百科 :::

::: collapse-item 红鬼绿鬼

荒郊野外里，你碰到两只鬼，一个绿鬼，一个红鬼，正好你手里有一把枪，但枪里只有两颗子弹，绿鬼打一枪就over了，但红鬼要打两枪才能死，这时候你应该怎么办？

射一箭红鬼，然后，谁不听话，那一箭就射谁。 :::

::::

工具

The Evolution of Trust：博弈模拟演示]。

简言

语录

付出的一方有随时停止的权利，而索取的一方没有。

趣事

:::: collapse-panel accordion

::: collapse-item 动物的攻击性

对于攻击性强的动物来说，并不是获胜方不伤害对手，而是势均力敌的双方，伤害对方的代价太高。势均力敌的两个动物，即使其中一方获胜，那也是惨胜，这种后果就是如果动物真的用这种策略很快就会灭亡了。所以那些攻击型动物会用吼声之类的示威，而不是真正的搏杀。

人类相较于其他动物更热衷于杀戮同类，是因为人类的需求与欲望远远大于其他动物。对于肉食性大型动物来说，它们需要的大概是领地、食物、配偶，水源等寥寥数种，所以只要有了这些就没必要发生冲突，而人类不一样

:::

::::