博弈論的概念是什麽？

2019-11-18財經

（本回答系原創，禁止轉載）

我嘗試從一個新的角度來闡述博弈論。

博弈論實際上是一種多人決策模型。

博弈有四個基本參數，參與人及每個參與人的偏好集、策略集、資訊集。

第一，決策。參與人會根據偏好和資訊來從策略集中選定對自己最有利的策略，也就是選擇該策略的利潤（收益減去成本）最大，這裏的利潤被稱作支付函數。

選擇策略的過程即決策，決策要考慮的是收益、成本、不確定性和時效。風險就是具有不確定性的成本，往往需要采取一定策略來減少或規避。

具體的決策過程參照前景理論——

第二，約束。約束是達成參與人間合作的相互協調。

資訊集包括積累的資訊（知識）、獲取資訊的信源和傳播資訊的通道。

除了決策外，參與人還會嘗試透過資訊或行為去影響其他參與人的決策，這就是約束。

約束又可分為向其直接傳遞資訊的激勵約束和改變其策略集的策略約束。

第三，均衡。參與人們互相形成約束，最終都穩定地選擇了某項策略，導向了一個或多個穩定的結果，這就是均衡。參與者在均衡中得到的權利義務就構成了他的角色。兩個相關角色構成了一段關系，比如師生關系就是老師和學生兩個角色的關系。

博弈不止一個，而是多個且可能不斷重復，因此一個博弈的均衡又可能影響接下來別的博弈的策略集。

制度是不斷重復的均衡，而現實中會有許多正式制度（如法律、政令等）或非正式制度（如文化、道德、習俗、潛規則等），違背制度往往需要付出成本（越軌）。

均衡反映的是人際關系中的位置。

結構洞。

第四，聲譽。由於資訊不完全，因此有可能不清楚其他人的偏好集、策略集（背後是擁有的資源）和資訊集，此時就要透過之前的博弈或在本博弈過程中對方或他人已展示出的資訊來完善有關對方的資訊，一個參與人在別的參與人眼中的偏好集、策略集、資訊集的資訊就構成了他的聲譽。聲譽也起著影響他人決策的作用。

第五，序貫。獲取資訊、計算決策、執行策略、傳遞資訊都會有一個速度或者說順序的問題。

這裏還要解釋兩個問題：決定策略集的因素是什麽和策略與支付函數的關系。

第一，決定策略集的因素是資源，資源分為三種，第一種是掌控的物質，第二種是其他博弈達成的均衡，第三種是技能，即獲取、處理、掌握或傳遞對方所需要的資訊的能力（這裏不是去影響他人決策，而是對方需要己方提供處理資訊或幫其傳遞資訊）。

資源也就是成本，參與人透過付出成本來從觀測點獲取資訊和影響系統的控制點，最終獲取收益。因此，資訊影響成本的付出，成本的付出也就意味著策略集的改變（可用資源變少了）。可投入資源的最大值就是預算約束。

在金融領域，往往要考慮流動性，實際上就是考慮策略集的大小。

第二，策略+外界因素=結果，觀測到的結果+偏好=支付函數。

再說一下有限理性。有限理性是由於資訊獲取的不完全和資訊處理的不完全（計算錯誤）。因此可以利用有限理性設定陷阱，一種是調虎離山，一種是請君入甕。

比如——

這裏紅方引誘黑車吃紅車，一旦黑車調走，黑方就會被紅方將殺。如果黑方沒有看到吃車的危險而只顧眼前的短期利益，就會付出更大的代價，這就是調虎離山。

再比如給你封口費讓你簽封口協定，轉手告你敲詐勒索，這便是請君入甕。

收集資訊。

臨時信源。

自報。

互相告發。

穩定信源。

決策主要考慮效用（利潤）、不確定性、時效等因素。

效用增加可從收益增加、成本減少、談判三方面入手。

收益增加。

畜養與收割。

感激收益。感激收益是指給對方帶來的效用在對方期望之上，從而讓對方感激。感激形成的根本原因是對方希望自己能夠繼續給他帶來這種效用，實質上提高了對方的期望，一旦不能滿足，便會轉化為怨恨，同時也會讓對方有一種負債的感覺，就容易造成「殺恩」。

讓對方感激前往往需要先降低對方期望，這會帶來怨恨。如如何讓貓吃辣椒？先在貓屁股上悄悄抹辣椒，它就不得不去舔，造成其舍小保大的局面，且由於隱瞞了資訊，其不會怨恨你。之後再給它一碗清水，它還要感激你。

山本勘助騙友人演戲去刺殺板垣信方，之後自己再挺身而出殺掉友人，救下板垣信方並獲得其信任。

減少成本的方法一般有削減開支、成本分攤、成本轉嫁、消滅成因、欺騙抵賴、制度化和組織化等。

削減開支就是減少邊際利潤小的開支以將資源投入更大邊際利潤的地方獲得更多效用，是一個卡爾多改進。

成本分攤是指將成本分攤給多人，如利用股票募集資金。

成本轉嫁分為轉嫁給他人和轉嫁給自身。轉嫁給他人可以用激勵換取他人同意，也可以直接改變他人策略集讓其不得不這樣做。轉嫁給自身往往是將邊際成本大的方面往小的方面轉嫁。

消滅成本的成因。

欺騙抵賴就是逆向選擇和道德風險。

制度化是將參與人的策略選擇固定化以形成制度，之後參與人們只需要遵循這個制度而無需再博弈，是將博弈成本轉化為一般而言更小的資訊傳遞成本的過程。然而有時博弈模型的參數改變了，均衡改變了，制度卻因時滯問題還停留在原處，束縛著許多人。

組織化是透過將分散的物件組織起來，減少其交易成本和重復成本，當然這也會增加其管理成本和代理成本（包括選出代理人和決策達成一致的成本）。

節省交易成本的例子是拆遷承包商與分散的拆遷戶談判會耗費很多交易成本，而由拆遷戶選取代表或建立組織，減少拆遷承包商談判的成本。

節省重復成本的例子是自然壟斷。很多行業有很高的固定成本作為其門檻，此時每有一個廠商進入該市場，就會付出固定成本。而一個廠商進行壟斷，就可以節省下固定成本的重復支付。

資訊搜尋成本。

機會成本。機會成本越小，該選擇越不容易白日取代。機會成本就是資源的其它用途的利潤。

沈沒成本。讓人先投入一部份成本，這時其機會成本就會變小（用於此處的資源多了，用於它處的資源就少了）。

怨恨成本。

越軌成本是指違背制度所付出的成本。

下面以歷史上的高陽公主案中李治的表現來說明如何減少成本。

唐太宗死後，年輕的李治繼位，雖然有托孤大臣長孫無忌的輔佐，但仍有許多元勛和宗室內心不服，且李治的兄長李恪也對其皇位有著威脅。這時，李治透過讓長孫無忌查辦高陽公主和駙馬房遺愛謀反一案，誘使房遺愛攀扯到李恪，之後又在朝堂上向長孫無忌等大臣求情不要殺李恪，長孫無忌等以國法無情為由拒絕。

這個過程如下——

第一步，本是李治想鏟除房家勢力和李恪，但其不能直接殺人，因為有王法這一制度在，對方犯罪皇帝才能殺人，違反該制度會承受越軌成本，因此必須要有罪證；

第二步，讓長孫無忌去查案，轉嫁怨恨成本，維護了自己的聲譽；

第三步，李恪實際上並未參與謀反，但要攀扯到他，只能偽造證據，這是在達成契約後（有罪才殺人）卻違約並隱瞞的道德風險行為；

第四步，告訴房遺愛只要他誣告李恪，就饒他不死（激勵），達成契約，但之後並沒有履行饒房遺愛不死的承諾，又是道德風險行為；

第五步，要殺李恪，這裏又遇到了一個制度，那就是皇帝要保持仁君形象，殺死兄弟失真聲譽，於是他要透過求情來維持自己的聲譽，而將越軌成本轉嫁給邊際成本較小的群臣。

意識形態與組織管理成本的降低。

談判涉及到委托代理理論。

約束主要靠傳遞資訊和在對方那裏的聲譽。

多人策略：借勢、結盟（共謀）、分化。

效用即價值。

價值分為使用價值和交換價值（兌換比）。

使用價值會因存在偏好和邊際效用遞減而產生各自手裏的都沒對方手裏的價值高的價值差，交換價值會因供需關系而波動。交換可以更高效率地解決價值差的問題，借貸則可以一定程度上利用供需關系導致的波動獲利。

稀缺增加交換價值。

資源。

人類的所有理性行為都是透過付出成本（生產）來獲得收益（分配）。

分配的過程也就是產權界定的過程，產權又可分為剩余控制權（控制資源的配置）和剩余索取權（享受分配的資源）。

組織。

組織的產生來源於生產中的規模效應（一個人不能承擔的成本一群人能夠承擔，且資訊的集中帶來不必要和重復的成本的節約，並克服有限理性帶來的囚徒困境）和比較優勢（先天稟賦和後天學習使得人各有專長，分工各自進行專長的生產效率大於自給自足）所帶來的合作剩余（合作比不合作生產更多的那部份）。

合作的形成過程詳見後面的聲譽模型（無限次囚徒困境重復博弈）。

但是，在合作過程中，成本的分攤和配置、收益的分配（包括大家共享的公共品和私人獨享的私人品）需要一群人來進行管理，於是組織的管理部門便誕生了。管理部門透過合作剩余作為談判籌碼來約束人們的行為。

就國家而言，其最基礎的分工是暴力機構和生產組織間的分工。暴力機構提供公共安全（包括暴力機構不侵犯生產組織、保護生產組織不受別的暴力組織侵犯和生產組織內部成員之間不進行暴力侵犯）給生產組織，生產組織則向暴力機構提供各種產品服務（稅收）。

公共安全是依賴於合作才能生產的公共品，因此暴力組織必須依賴於合作的規模效用和比較優勢。

然而僅僅依靠單一的暴力公共品和物質資源造成的管理成本還是有點高。於是，又有了提供永生、幸福感和歸屬感等產品的宗教為代表的意識形態和以道德為代表的長期博弈均衡形成的非正式制度等來降低管理成本。

管理者之間的授權關系（合作剩余產生的權力的分配關系）決定了其是分封制還是官僚制。

管理者為了進一步降低管理成本，還會利用到制衡分化（囚徒困境）等方式。

組織的最大邊界就是擴張的邊際效用（利潤）為0的時候，此時組織擴張的邊際收益等於組織擴張的邊際成本（管理成本，即統一內部的行為的成本）。

組織與市場的區別在於，組織達成的是關系契約（約定雙方間各自的角色），而市場達成的是古典契約（自由交換）。

組織管理部門三大職能：生產資源（成本）的配置、公共品的提供、私人品的劃分。

最初的交換往往只能面對面進行，於是就出現了貨幣和書面契約來使得交換可以跨時空進行。

接下來介紹幾種重要的博弈模型：

1.囚徒困境與離間、聲譽模型與合作

囚徒困境實際上反應的是個人利益與整體利益的沖突，當信任無法建立時，參與人會選擇背叛而非合作。

公地悲劇正是典型的囚徒困境，一群養牛戶中間有一片公共草地，養牛戶都想自己的牛多吃一點草，由此導致草被吃完無法再生，草地由此荒廢。類似竭澤而漁的事情很多。常見的解決方法有將草地私有化（但需要協調沖突）、設定一個專門管理的機構、對草地進行收費（外部性內在化）等。

蘇聯在阿富汗推行改革時便因將資源私有化，卻沒有協調沖突的機構而產生極大的管理成本和怨恨成本。

而作為局外人的警察，可以利用這種矛盾來對囚徒們進行離間分化。

所謂帝王術中也有皇帝分化離間臣屬，從而實作平衡鞏固統治的方法。

而由此還可以推出萬元陷阱的模型，即一拍賣人拍賣一萬元鈔票，兩個競標人爭相出價，甚至不惜以高於一萬元的價格買走。最終，拍賣人成為最大贏家。

內卷過了火，受傷的是局內人，得利卻是局外人。

社會學中的布若威制造同意模型就是萬元陷阱。

聲譽模型。

有限次囚徒困境重復博弈。當囚徒困境被有限次重復時，其是一個動態博弈，可從最後一次博弈分析起。最後一次中雙方的拿殊均衡為（認罪，認罪）。然後再看倒數第二次，由於下一次博弈的拿殊均衡已確定為（認罪，認罪），因此本次也為（認罪，認罪）……以此類推到第一次，每次博弈的拿殊均衡皆為（認罪，認罪）。

無限次囚徒困境重復博弈。

我們先假設一個無限次的對抗與合作博弈——

並引入折現因子的概念——

然後做出兩個假設——

假設2中的針鋒相對，指的是一旦對方在上一次博弈中選擇對抗，則我方永遠選擇對抗；而對方在上一次博弈中選擇選擇合作，則我方可選擇對抗也可選擇合作。

計算結果如下：

折現因子越大，說明未來對現在越重要。折現因子大於5/9時，合作可以維持。

以牙還牙策略。

合作者入侵：當一群人中產生一對合作者時，其可能會依靠合作剩余的優勢對其他人產生碾壓，其他人要麽主動采取合作，要麽在競爭中被淘汰，於是合作開始不斷擴大。

2.訊號傳遞模型

由於資訊不完全，參與人往往一開始並不知道對方的真實資訊，而只能猜測對方可能的類別，接下來透過獲取資訊來判斷出對方的類別，再采取行動。

根據資訊經濟學，不知道私有資訊的人被稱為委托人，掌握私有資訊的人被稱為代理人。於是，一開始無法判斷對方類別的參與人是委托人，而了解自身類別的對方則是代理人。

委托人需要代理人發送訊號（資訊甄別）或設定激勵讓代理人發送訊號（訊號傳遞），之後再根據訊號判斷出代理人的類別。能讓委托人判斷出類別的訊號叫分離訊號，不能判斷出的叫混同訊號。

同時，代理人也可以向委托人發出虛假或不完整的訊號，從而讓委托人做出他想讓他做出的行為。

3.淘金者博弈、市場準入博弈

有兩個淘金者發現了一個金礦，他們都打算占有金礦。但如果其中一人完全占有，必然招致另一人的反抗從而造成損失，而將金礦的一部份分給對方以避免對方反抗的利潤可能更大，於是兩人之間劃定了各自可接受的份額。這便是淘金者博弈。

某壟斷者壟斷了一個市場，這時有一個進入者想要進入這個市場，於是壟斷者必須要采取行動，使得進入者相信，他進入市場必然招致激烈的抵抗，讓他得不償失不如不進，這便是市場準入博弈。

兩個博弈的原理是一致的，你有影響對方利潤的能力，才有和對方談判的資本。面對他人的試探、攻擊，要展現出反擊的能力，杜絕對方得寸進尺，不把你放在眼裏。

人世間的事，無非野獸們各懷絕技，橫行江湖，只為捕獲到獵物，再在群獸口中爭一口肉吃。而不帶刺的豪豬在豪豬群中，必然會被紮的鮮血淋漓。

遊戲中的參與人，永遠只會站在自身利益上說話做事，所以到最後能依靠的，都只有自己。