新国大傅强教授：一篇文章读懂博弈论精华

2022年02月21日 • 1万次阅读

01 博弈论的由来

何为博弈论？

首先，我们来追根溯源，对博弈论做一个简单的介绍，什么是博弈论？Stanford的经济学家David Kreps对博弈论做过一个非常精准的概括，他说，博弈论是有关情境的知识。博弈论就其本质而言，是研究人的决策，我们无时无刻不面对决策。博弈论的基本前提在于，决策的正确与否，什么是最优选，并不仅仅依赖于自身的行动本身，更在于所处的情境。简而言之，我需要做什么，应该做什么，取决于你在和谁打交道，他们在做什么，会做什么。

2005年的诺贝尔经济学奖得主Robert Aumann曾经给博弈论下了一个简单但是非常精当的定义，他说，博弈论是互动的决策科学。所谓互动，就是指这个情境的参与者，他们的行动和决策会互相影响，所以我要做出最优的选择，必须要考虑对手的行动和反应，主体之间相互依存，相互影响。

所谓博弈二字，中文的原意指的就是棋局，下棋，就是一种在互动中进行决策的情境。我们经常讲人生如棋，这样的场景，其实无处不在，夫妻，亲子，企业竞争，大国外交，其实莫不如此。博弈论因此有非常丰富的应用场景。

己欲立而立人，己欲达而达人

博弈论带给我们的最大价值，是带来一种处事和思考的方式。你如何制定你的决策，不是依靠教条，重要的是去认识自己的对手，理解对方的行动逻辑，要希望达到自己的目的，希望实现自身利益的最大化，就要学会从别人的角度来考虑问题，也就是我们经常所说的，换位思考。一厢情愿可能处处碰壁，相反，在很多的时候，己欲立而立人，己欲达而达人。比如说，你要员工为你死心塌地干活，首先就要想清楚人家想要什么，这样才能有的放矢地提供激励。就像胡雪岩说过的一句话，前半夜想自己，后半夜想别人。

这样的一种思维方式，就是所谓的策略性思维。策略性思维并不是博弈论的发明，博弈论的贡献，就是以这样一种古老的智慧，对复杂的互动决策问题进行科学系统的分析和研究。

博弈论之父——冯诺伊曼

现代博弈论的鼻祖，被公认为冯诺伊曼。可能很多从事不同领域工作的朋友都听说过这个名字。冯诺依曼是匈牙利裔的犹太人，被广泛认为是有史以来最聪明的人。在1944年，冯诺依曼和摩根斯坦合作写了一本书，叫《博弈论与经济行为》，这本书被认为代表了现代博弈理论的兴起，所以冯诺依曼也是博弈论之父。

冯诺依曼对博弈论产生兴趣，他的灵感来自于他的一个业余爱好，就是打扑克。他非常喜欢打牌，而且打牌的时候非常喜欢算牌，但是很不幸，表现非常非常糟糕。后来有一天，他痛定思痛，概率不是打牌的全部，如何出牌不仅仅取决于算准牌面，更要读懂人心，实现对对手的洞察和操控，这就是我们所说的策略，于是开始从事对策略的研究。对于冯诺依曼而言，这项研究几乎就是一个茶余饭后的闲情逸致，但是博弈论在几十年以后改变了当代经济学的研究范式，而且在二战期间，他以博弈论为基础建立了战争分析模型，为盟军出谋划策，推演战局发展。二战之后，他又建立了美苏互动的模型，预测冷战的发展。但是，我需要告诉大家的是，博弈论起源于扑克，基于博弈论的模型让他能指点江山，预知天下兴亡，但是在牌桌上，他还是没能占到什么便宜。几十年以来，有很多数学家和计算机科学家希望借助基于博弈论模型的计算找到打牌的最佳策略，但是努力收效并不显著，并不能从职业赌徒身上占到便宜。

讲这个故事，我想要告诉大家两件事：

01 第一，我们要充分认识世界的复杂性；

02 第二，博弈论从技术角度，是数学的应用，但是博弈论来自于人的策略性思维。策略的智慧源远流长，根植于我们的DNA。比如这些职业赌客，他们没有正经地学习过博弈论，但是他们其实已经在实践复杂的策略判断，而博弈论的作用，就是对策略思维的智慧进行系统化，删繁就简，从复杂的现实中抽象出简单的模型，帮助我们把握决策问题的关键。

John Nash与纳什均衡

早期的博弈论是非常抽象的，对于绝大多数人是完全摸不到头脑的，很难广泛应用于具体的场景。我们要说的下一个人，就是John Nash，也就是美丽心灵《Beautiful Mind》这部电影的主人公原型。一个游戏，或者说一个互动的情境，最终会演变成一个什么样的结果，如果对此做出合理可靠的预测，用经济学的术语而言，什么样的结果可以构成一种均衡？John Nash给出了答案，他提出了一个概念，叫做纳什均衡，成为博弈论分析的基石，博弈论也因此被广泛应用，彻底改变了经济学和国际关系研究的方法论。

纳什均衡这个概念，帮助我们对一个博弈的结果做出可靠的预测，它告诉我们什么样的发展才具有稳定性，是一个均衡。

所谓纳什均衡，就是说，当局中的每一个行动主体，给定其他人策略，都已经不能通过单方面的策略改变而实现额外的收益。也就是说，每个人的策略选择都已经实现了自身利益的最大化，因此每个人都没有改变现状的积极性，这样的局面就在互动中实现了平衡。

02 静态博弈经典情景之一

囚徒困境

我们先来看一看著名的囚徒困境。有两个犯罪嫌疑人，A和B，涉嫌共同作案。警方怀疑他们作案，但是并没有确切的证据，所以最终的量刑要取决于供词。如果两个人都招供，会各判六年；如果两人都不招，没有足够证据，只能以请罪提控，各判一年了事。警方希望得到有利的供词，所以正确的做法，可能很多朋友知道，就是把两人分开关押，单独审讯。

警方可以对每一个人说，你有一个得到宽大处理的机会，如果你招供，你的同伴抵赖，恭喜你，你无罪释放，你的同伴从严处理，判十年；但是如果你讲义气，一旦你的同伙招供，那对不起，你就要把牢底坐穿了。

我们以这样一个矩阵，来表述这个情境。嫌犯甲，有上、下两个战略选项，招供或者抵赖。嫌犯乙，有左右两个选项，招供和抵赖，这个博弈，会有四个可能的策略组合或者结果，两人都招供，两人都抵赖，甲招供，乙抵赖，或者反过来，甲抵赖，乙招供。每格代表一个可能的结果，左边的数字，代表甲在这个策略组合之下获得的回报，右边数字代表嫌犯乙。比如说我们看这里，甲选择招供，乙选择抵赖，所以乙坐牢10年，甲可以无罪释放。

这样一个情境，最终的结果会是什么样的呢？我们先来看一看甲的权衡。他必须考虑乙可能的行动。甲会想，如果乙招供，那么自己没有理由死扛，最优选择一定也是招供；如果乙抵赖呢？甲是否应该与之统一战线？如果这样做，其结果自己会被判一年，如果选择招供，自己就可以全身而退，对于自己这显然有利，虽然这样坑了队友，是不是？

总结下来，在这个情境之中，对于甲而言，无论乙做什么，最优的选择，都应该是招供！甲会这样想问题，乙呢？乙所面对的权衡是一样的，甲会这么想，乙也会这样想，同时也会想到对方一定会招供。在这个情境里，招供是唯一的选择，这就做所谓的占优策略，就是不管对方怎么做，招供可以带来更高的回报。那么（招供，招供）这样的策略组合，我们看，就完全符合了纳什均衡的定义：给定其它参与人的策略，任何一个参与人不能通过单方面改变自己的行动获益，给定乙招供，招供是甲的最优策略；给定甲招供，招供也是乙的最优选择。我们就得到了这个博弈的唯一纳什均衡。

那么我请各位来思考一个问题。如果我们考虑两个人的总体利益，哪一个结果带来最高的回报？很显然，要最大化集体利益，应该是两人合作，坚决抵赖，这样的话警方也没有太好的办法。但是这样的结果不是一个均衡。囚徒困境，带给我们的这样的一种启示，个体与群体之间的矛盾。个体理性带来背叛的诱惑，个体的最优选择带来群体利益的损失，这就是所谓的囚徒困境。

千夫之诺诺

这样的场景其实在社会、在市场无处不在。我们来举几个例子。

大家可能听到过这样的故事，1956年苏共20大，赫鲁晓夫向大会代表作报告，系统批判斯大林，要求肃清个人崇拜的流毒。很多人都在心中质疑，你现在秋后算账，斯大林掌权的时候，你在干什么？所以有人从观众席递过来一张纸条，上面写着：当时你在哪里？赫鲁晓夫拿起纸条，念出了上面的内容，然后望向台下，喊道：这是谁写的，请你马上站起来。台下鸦雀无声，他又念了一遍，然后说：当时我就坐在你现在坐的那个位子上。我们看到，这也是囚徒困境的一种体现，一士之谔谔违背个体理性，千夫之诺诺才是纳什均衡。

为什么看不见的手会失灵？

亚当斯密在《国富论》中有这样一段经典描述：“当个人在追求他自己的私利的时候，市场看不见的手会导致最佳经济后果。我们的晚餐并不是来自于屠夫、啤酒酿造商或者点心师傅的善心，而是源于他们对自身利益的考虑。每个人只关心自己的安全、他自己的得益。他由一只看不见的手引导著，去提升他原先没有想过的另一目标。他通过追求自身的利益，结果也提升了社会的利益，比他一心要提升社会利益还要有效。”他告诉我们，受看不见的手的指引，个人的自利行为会带来互利，自由市场经济也因此变成了一种价值准则。但是博弈论在一定程度上，颠覆了亚当斯密以来的经济学道统，它告诉我们，个体理性与集体理性之间存在冲突，社会利益的损失，并不是由于个体决策的失误，恰恰相反，可能是个体理性的结果与反映。

旅行者困境

比如我们来看一看这样一个例子，叫做旅行者困境。两位旅行者从一个生产细瓷花瓶的地方归来，在当地购买的花瓶都在托运过程中摔坏了。航空公司需要赔偿，他们知道花瓶的价格应在八九十元左右，但不知道确切价格。怎么办呢？航空公司要求两位旅客各自在一百元以内写下花瓶价格，如果所报价格一致，以所报价格赔偿；如果不一致，以较低价格赔偿，并对报低价者奖励两元，以奖励其诚实，并对虚报者处以两元罚款。我们来思考一下，这个博弈的最终结果（纳什均衡）会是什么？

如果两个人都写100，就会是一个互利的结果，但这是一个均衡吗？假定我相信另外一个人会写100，我的最优选择不是100，我会想，我应该写99，这样我将获赔99，同时获得2元的奖励。但这是均衡吗？不是，因为我会这么想，我准备占他的便宜，我能想得到，他也能想到，他也会写99，给定他写99，我的最优选择应该是写98，这样最终我的实际获利就是100。但是这同样不是均衡，我知道这个道理，对方也可以，所以如果对方写98，我的最优就是97。这个故事最后如何收场呢？纳什均衡，只有一个，那就是都写0。如果另外一个人写0，我写任何的数字都不能得到赔偿，还要被罚款2元。航空公司一毛不拔，通过两个乘客的勾心斗角而坐收渔利，对于两个乘客这是最坏的结果，但其原因，并不是乘客的愚蠢，恰恰是他们拥有完全的个体理性。

这个故事略有夸张之处，它只是以一个极端的案例，说明个体利益的最大化往往结果事与愿违。我们看看现实中企业的价格战，互相压价倾销，明明知道会两败俱伤，还是欲罢不能。给定对手的价格，我稍微降一点价，损失一点单位利润，但是窃取了市场份额，但是一家企业这么想，其它企业同样不会坐以待毙，于是轮番降价，最后谁也奈何不了谁，利润拱手让给了消费者。

次贷危机，黑天鹅还是灰犀牛？

曾经有两本畅销书，一本叫《黑天鹅》，一本叫《灰犀牛》。黑天鹅指的是概率极低并不认为会发生但是会对市场带来深远影响的事件，比如次贷危机。而灰犀牛，指的是已知的风险，但是大家并不采取行动来防患于未然。这本书的开篇介绍了2001年阿根廷主权债券违约的事件，阿根廷面对经济灾难，债务难以为继，所以有识之士提出债务重组建议，债权人主动减记30%，实现软着陆，债券机构私下也都如此认为，但是不付诸行动，导致阿根廷违约，债权人损失70%。作者米歇尔沃克认为这是一种错误。

但是我们学过博弈论就会知道，这才是纳什均衡。给定其它债权人减记，阿根廷政府财务状况改善，那么我应该拒绝让步，其它债权人的牺牲，会让阿根廷政府有更大的财务空间来清偿对我的债务。如果其它债权人拒绝减记，那么阿根廷政府注定违约，我又为什么要做出牺牲？看似漠视风险的结果，其实恰恰是一种个体理性驱动的必然。

那么我们再来看看黑天鹅。在次贷危机之后，塔勒布的黑天鹅一时洛阳纸贵。但是次贷危机真的是不可知的黑天鹅吗？

1/3