博弈论的概念是什么？

2019-11-18财经

（本回答系原创，禁止转载）

我尝试从一个新的角度来阐述博弈论。

博弈论实际上是一种多人决策模型。

博弈有四个基本参数，参与人及每个参与人的偏好集、策略集、信息集。

第一，决策。参与人会根据偏好和信息来从策略集中选定对自己最有利的策略，也就是选择该策略的利润（收益减去成本）最大，这里的利润被称作支付函数。

选择策略的过程即决策，决策要考虑的是收益、成本、不确定性和时效。风险就是具有不确定性的成本，往往需要采取一定策略来减少或规避。

具体的决策过程参照前景理论——

第二，约束。约束是达成参与人间合作的相互协调。

信息集包括积累的信息（知识）、获取信息的信源和传播信息的信道。

除了决策外，参与人还会尝试通过信息或行为去影响其他参与人的决策，这就是约束。

约束又可分为向其直接传递信息的激励约束和改变其策略集的策略约束。

第三，均衡。参与人们互相形成约束，最终都稳定地选择了某项策略，导向了一个或多个稳定的结果，这就是均衡。参与者在均衡中得到的权利义务就构成了他的角色。两个相关角色构成了一段关系，比如师生关系就是老师和学生两个角色的关系。

博弈不止一个，而是多个且可能不断重复，因此一个博弈的均衡又可能影响接下来别的博弈的策略集。

制度是不断重复的均衡，而现实中会有许多正式制度（如法律、政令等）或非正式制度（如文化、道德、习俗、潜规则等），违背制度往往需要付出成本（越轨）。

均衡反映的是人际关系中的位置。

结构洞。

第四，声誉。由于信息不完全，因此有可能不清楚其他人的偏好集、策略集（背后是拥有的资源）和信息集，此时就要通过之前的博弈或在本博弈过程中对方或他人已展示出的信息来完善有关对方的信息，一个参与人在别的参与人眼中的偏好集、策略集、信息集的信息就构成了他的声誉。声誉也起着影响他人决策的作用。

第五，序贯。获取信息、计算决策、执行策略、传递信息都会有一个速度或者说顺序的问题。

这里还要解释两个问题：决定策略集的因素是什么和策略与支付函数的关系。

第一，决定策略集的因素是资源，资源分为三种，第一种是掌控的物质，第二种是其他博弈达成的均衡，第三种是技能，即获取、处理、掌握或传递对方所需要的信息的能力（这里不是去影响他人决策，而是对方需要己方提供处理信息或帮其传递信息）。

资源也就是成本，参与人通过付出成本来从观测点获取信息和影响系统的控制点，最终获取收益。因此，信息影响成本的付出，成本的付出也就意味着策略集的改变（可用资源变少了）。可投入资源的最大值就是预算约束。

在金融领域，往往要考虑流动性，实际上就是考虑策略集的大小。

第二，策略+外界因素=结果，观测到的结果+偏好=支付函数。

再说一下有限理性。有限理性是由于信息获取的不完全和信息处理的不完全（计算错误）。因此可以利用有限理性设置陷阱，一种是调虎离山，一种是请君入瓮。

比如——

这里红方引诱黑车吃红车，一旦黑车调走，黑方就会被红方将杀。如果黑方没有看到吃车的危险而只顾眼前的短期利益，就会付出更大的代价，这就是调虎离山。

再比如给你封口费让你签封口协议，转手告你敲诈勒索，这便是请君入瓮。

收集信息。

临时信源。

自报。

互相告发。

稳定信源。

决策主要考虑效用（利润）、不确定性、时效等因素。

效用增加可从收益增加、成本减少、谈判三方面入手。

收益增加。

畜养与收割。

感激收益。感激收益是指给对方带来的效用在对方期望之上，从而让对方感激。感激形成的根本原因是对方希望自己能够继续给他带来这种效用，实质上提高了对方的期望，一旦不能满足，便会转化为怨恨，同时也会让对方有一种负债的感觉，就容易造成「杀恩」。

让对方感激前往往需要先降低对方期望，这会带来怨恨。如如何让猫吃辣椒？先在猫屁股上悄悄抹辣椒，它就不得不去舔，造成其舍小保大的局面，且由于隐瞒了信息，其不会怨恨你。之后再给它一碗清水，它还要感激你。

山本勘助骗友人演戏去刺杀板垣信方，之后自己再挺身而出杀掉友人，救下板垣信方并获得其信任。

减少成本的方法一般有削减开支、成本分摊、成本转嫁、消灭成因、欺骗抵赖、制度化和组织化等。

削减开支就是减少边际利润小的开支以将资源投入更大边际利润的地方获得更多效用，是一个卡尔多改进。

成本分摊是指将成本分摊给多人，如利用股票募集资金。

成本转嫁分为转嫁给他人和转嫁给自身。转嫁给他人可以用激励换取他人同意，也可以直接改变他人策略集让其不得不这样做。转嫁给自身往往是将边际成本大的方面往小的方面转嫁。

消灭成本的成因。

欺骗抵赖就是逆向选择和道德风险。

制度化是将参与人的策略选择固定化以形成制度，之后参与人们只需要遵循这个制度而无需再博弈，是将博弈成本转化为一般而言更小的信息传递成本的过程。然而有时博弈模型的参数改变了，均衡改变了，制度却因时滞问题还停留在原处，束缚着许多人。

组织化是通过将分散的对象组织起来，减少其交易成本和重复成本，当然这也会增加其管理成本和代理成本（包括选出代理人和决策达成一致的成本）。

节省交易成本的例子是拆迁承包商与分散的拆迁户谈判会耗费很多交易成本，而由拆迁户选取代表或建立组织，减少拆迁承包商谈判的成本。

节省重复成本的例子是自然垄断。很多行业有很高的固定成本作为其门槛，此时每有一个厂商进入该市场，就会付出固定成本。而一个厂商进行垄断，就可以节省下固定成本的重复支付。

信息搜寻成本。

机会成本。机会成本越小，该选择越不容易白日取代。机会成本就是资源的其它用途的利润。

沉没成本。让人先投入一部分成本，这时其机会成本就会变小（用于此处的资源多了，用于它处的资源就少了）。

怨恨成本。

越轨成本是指违背制度所付出的成本。

下面以历史上的高阳公主案中李治的表现来说明如何减少成本。

唐太宗死后，年轻的李治继位，虽然有托孤大臣长孙无忌的辅佐，但仍有许多元勋和宗室内心不服，且李治的兄长李恪也对其皇位有着威胁。这时，李治通过让长孙无忌查办高阳公主和驸马房遗爱谋反一案，诱使房遗爱攀扯到李恪，之后又在朝堂上向长孙无忌等大臣求情不要杀李恪，长孙无忌等以国法无情为由拒绝。

这个过程如下——

第一步，本是李治想铲除房家势力和李恪，但其不能直接杀人，因为有王法这一制度在，对方犯罪皇帝才能杀人，违反该制度会承受越轨成本，因此必须要有罪证；

第二步，让长孙无忌去查案，转嫁怨恨成本，维护了自己的声誉；

第三步，李恪实际上并未参与谋反，但要攀扯到他，只能伪造证据，这是在达成契约后（有罪才杀人）却违约并隐瞒的道德风险行为；

第四步，告诉房遗爱只要他诬告李恪，就饶他不死（激励），达成契约，但之后并没有履行饶房遗爱不死的承诺，又是道德风险行为；

第五步，要杀李恪，这里又遇到了一个制度，那就是皇帝要保持仁君形象，杀死兄弟有损声誉，于是他要通过求情来维持自己的声誉，而将越轨成本转嫁给边际成本较小的群臣。

意识形态与组织管理成本的降低。

谈判涉及到委托代理理论。

约束主要靠传递信息和在对方那里的声誉。

多人策略：借势、结盟（共谋）、分化。

效用即价值。

价值分为使用价值和交换价值（兑换比）。

使用价值会因存在偏好和边际效用递减而产生各自手里的都没对方手里的价值高的价值差，交换价值会因供需关系而波动。交换可以更高效率地解决价值差的问题，借贷则可以一定程度上利用供需关系导致的波动获利。

稀缺增加交换价值。

资源。

人类的所有理性行为都是通过付出成本（生产）来获得收益（分配）。

分配的过程也就是产权界定的过程，产权又可分为剩余控制权（控制资源的配置）和剩余索取权（享受分配的资源）。

组织。

组织的产生来源于生产中的规模效应（一个人不能承担的成本一群人能够承担，且信息的集中带来不必要和重复的成本的节约，并克服有限理性带来的囚徒困境）和比较优势（先天禀赋和后天学习使得人各有专长，分工各自进行专长的生产效率大于自给自足）所带来的合作剩余（合作比不合作生产更多的那部分）。

合作的形成过程详见后面的声誉模型（无限次囚徒困境重复博弈）。

但是，在合作过程中，成本的分摊和配置、收益的分配（包括大家共享的公共品和私人独享的私人品）需要一群人来进行管理，于是组织的管理部门便诞生了。管理部门通过合作剩余作为谈判筹码来约束人们的行为。

就国家而言，其最基础的分工是暴力机构和生产组织间的分工。暴力机构提供公共安全（包括暴力机构不侵犯生产组织、保护生产组织不受别的暴力组织侵犯和生产组织内部成员之间不进行暴力侵犯）给生产组织，生产组织则向暴力机构提供各种产品服务（税收）。

公共安全是依赖于合作才能生产的公共品，因此暴力组织必须依赖于合作的规模效用和比较优势。

然而仅仅依靠单一的暴力公共品和物质资源造成的管理成本还是有点高。于是，又有了提供永生、幸福感和归属感等产品的宗教为代表的意识形态和以道德为代表的长期博弈均衡形成的非正式制度等来降低管理成本。

管理者之间的授权关系（合作剩余产生的权力的分配关系）决定了其是分封制还是官僚制。

管理者为了进一步降低管理成本，还会利用到制衡分化（囚徒困境）等方式。

组织的最大边界就是扩张的边际效用（利润）为0的时候，此时组织扩张的边际收益等于组织扩张的边际成本（管理成本，即统一内部的行为的成本）。

组织与市场的区别在于，组织达成的是关系契约（约定双方间各自的角色），而市场达成的是古典契约（自由交换）。

组织管理部门三大职能：生产资源（成本）的配置、公共品的提供、私人品的划分。

最初的交换往往只能面对面进行，于是就出现了货币和书面契约来使得交换可以跨时空进行。

接下来介绍几种重要的博弈模型：

1.囚徒困境与离间、声誉模型与合作

囚徒困境实际上反应的是个人利益与整体利益的冲突，当信任无法建立时，参与人会选择背叛而非合作。

公地悲剧正是典型的囚徒困境，一群养牛户中间有一片公共草地，养牛户都想自己的牛多吃一点草，由此导致草被吃完无法再生，草地由此荒废。类似竭泽而渔的事情很多。常见的解决方法有将草地私有化（但需要协调冲突）、设置一个专门管理的机构、对草地进行收费（外部性内在化）等。

苏联在阿富汗推行改革时便因将资源私有化，却没有协调冲突的机构而产生极大的管理成本和怨恨成本。

而作为局外人的警察，可以利用这种矛盾来对囚徒们进行离间分化。

所谓帝王术中也有皇帝分化离间臣属，从而实现平衡巩固统治的方法。

而由此还可以推出万元陷阱的模型，即一拍卖人拍卖一万元钞票，两个竞标人争相出价，甚至不惜以高于一万元的价格买走。最终，拍卖人成为最大赢家。

内卷过了火，受伤的是局内人，得利却是局外人。

社会学中的布若威制造同意模型就是万元陷阱。

声誉模型。

有限次囚徒困境重复博弈。当囚徒困境被有限次重复时，其是一个动态博弈，可从最后一次博弈分析起。最后一次中双方的纳什均衡为（认罪，认罪）。然后再看倒数第二次，由于下一次博弈的纳什均衡已确定为（认罪，认罪），因此本次也为（认罪，认罪）……以此类推到第一次，每次博弈的纳什均衡皆为（认罪，认罪）。

无限次囚徒困境重复博弈。

我们先假设一个无限次的对抗与合作博弈——

并引入折现因子的概念——

然后做出两个假设——

假设2中的针锋相对，指的是一旦对方在上一次博弈中选择对抗，则我方永远选择对抗；而对方在上一次博弈中选择选择合作，则我方可选择对抗也可选择合作。

计算结果如下：

折现因子越大，说明未来对现在越重要。折现因子大于5/9时，合作可以维持。

以牙还牙策略。

合作者入侵：当一群人中产生一对合作者时，其可能会依靠合作剩余的优势对其他人产生碾压，其他人要么主动采取合作，要么在竞争中被淘汰，于是合作开始不断扩大。

2.信号传递模型

由于信息不完全，参与人往往一开始并不知道对方的真实信息，而只能猜测对方可能的类型，接下来通过获取信息来判断出对方的类型，再采取行动。

根据信息经济学，不知道私有信息的人被称为委托人，掌握私有信息的人被称为代理人。于是，一开始无法判断对方类型的参与人是委托人，而了解自身类型的对方则是代理人。

委托人需要代理人发送信号（信息甄别）或设置激励让代理人发送信号（信号传递），之后再根据信号判断出代理人的类型。能让委托人判断出类型的信号叫分离信号，不能判断出的叫混同信号。

同时，代理人也可以向委托人发出虚假或不完整的信号，从而让委托人做出他想让他做出的行为。

3.淘金者博弈、市场准入博弈

有两个淘金者发现了一个金矿，他们都打算占有金矿。但如果其中一人完全占有，必然招致另一人的反抗从而造成损失，而将金矿的一部分分给对方以避免对方反抗的利润可能更大，于是两人之间划定了各自可接受的份额。这便是淘金者博弈。

某垄断者垄断了一个市场，这时有一个进入者想要进入这个市场，于是垄断者必须要采取行动，使得进入者相信，他进入市场必然招致激烈的抵抗，让他得不偿失不如不进，这便是市场准入博弈。

两个博弈的原理是一致的，你有影响对方利润的能力，才有和对方谈判的资本。面对他人的试探、攻击，要展现出反击的能力，杜绝对方得寸进尺，不把你放在眼里。

人世间的事，无非野兽们各怀绝技，横行江湖，只为捕获到猎物，再在群兽口中争一口肉吃。而不带刺的豪猪在豪猪群中，必然会被扎的鲜血淋漓。

游戏中的参与人，永远只会站在自身利益上说话做事，所以到最后能依靠的，都只有自己。