纳什均衡:博弈活动中的概率与策略分析
纳什均衡:博弈活动中的概率与策略分析
纳什均衡是博弈论中的一个核心概念,它帮助我们理解在竞争环境中如何通过计算期望收益来制定最佳策略。例如,在零和博弈中,当一方的最佳应对策略使得对方无法通过改变策略获得额外收益时,就达到了纳什均衡状态。这种理论不仅适用于经济学领域,还可以应用到日常生活中的决策问题上,比如足球射门的选择。通过学习纳什均衡,我们可以更好地理解和预测对手的行为,从而做出最优决策。
纳什均衡的基本概念
在博弈论中,纳什均衡(Nash Equilibrium)是博弈各方的一种策略组合,在这个组合下,每个参与者的策略都是对其他参与者策略的最优反应。换句话说,在纳什均衡下,任何一方都没有动机单方面改变自己的策略,因为那样做不会带来更高的收益。
然而,纳什均衡的稳定性问题引发了大量的研究,特别是当我们考虑到现实中的人们有时会“犯错”或者随机地偏离最优策略时,传统的纳什均衡可能显得不够稳定。为了解决这个问题,颤抖手纳什均衡(Trembling Hand Perfect Nash Equilibrium)应运而生,它通过允许博弈参与者有一定概率选择非最优策略,从而增强了纳什均衡的稳定性,是解决多重纳什均衡问题的一个途径。
颤抖手纳什均衡
在任何一个博弈中,每个局中人都有一个犯错误的可能性(类似一个人用手抓东西时,手一颤抖,他就抓不住他想抓的东西)。一个策略对是一个颤抖手精炼均衡时,它必须具有如下性质:各局中人(i)要采用的策略,不仅在其他局中人不犯错误时是最优的;而且在其他局中人偶尔犯错误(概率很小,但大于0)时还是最优的,可知颤抖手精炼均衡是一种较稳定的均衡。为了解决纳什均衡的稳定性问题,诺贝尔经济学奖得主 Reinhard Selten 提出了颤抖手纳什均衡(Trembling Hand Perfect Nash Equilibrium)这一概念。这个均衡考虑了现实中决策者可能会犯错的情况,即参与者以极小的概率选择非最优策略。通过允许每个参与者的手“颤抖”一下,理论能够更稳健地描述现实决策过程中的均衡。
1.1 颤抖手均衡的描述
颤抖手纳什均衡是纳什均衡的一种更稳定的加强版本,它要求每个参与者的策略对手的颤抖(即他们选择非最优策略的极小概率)具有鲁棒性。具体来说,在颤抖手均衡中,参与者即使面对对手可能颤抖的情况,也必须选择能最大化其期望收益的策略。
设想一个博弈中每个参与者都可能以极小的概率“犯错”,即以某个(\epsilon> 0)的概率偏离最优策略。这时,参与者不能仅仅选择那些在某些情况下有更高回报的策略,而是必须选择在所有可能偏离情形下都能保证最优收益的策略。
设(\sigma^*)为有限博弈(\Gamma = {I, S, u})的策略包,其中:
- (I)表示博弈中的参与者集合。
- (S)表示每个参与者的策略集合。
- (u)表示每个参与者的收益函数。
若存在一列混合策略包({\sigma^k}),使得对每个参与者(i)的每个策略(s_i),在所有(k)中,(\sigma^k(s_i) > 0)(即每个策略都有正的选择概率),且满足: - ({\sigma^k} \rightarrow \sigma^),表示混合策略包({\sigma^k})收敛于策略(\sigma^)。
- (\sigma^* \subseteq \Delta),表示(\sigma^*)属于策略空间(\Delta)。
- (\sigma_i^* \in BR_i(\sigma_{-i}^k)),表示(\sigma^)是最优反应(Best Response, BR),即参与者(i)的策略(\sigma_i^)是对其他参与者混合策略包(\sigma_{-i}^k)的最佳反应。
则称(\sigma^)为*颤抖手纳什均衡(Trembling-Hand Perfect Equilibrium, THPE)。
这里**(\sigma^)为有限博弈的策略包:(\sigma^)是一个混合策略,表示博弈中各参与者在每个策略上选择的概率分布。
混合策略包({\sigma^k}):表示博弈参与者所选择的混合策略的一个序列,其中每个策略组合都有一定的概率,且所有策略的概率大于0(即没有策略被完全忽略)。这个序列最终会收敛于一个特定的策略组合(\sigma^*)。
混合策略空间(\Delta):(\Delta)是所有参与者的混合策略构成的空间。
最优回应(BR_i(\sigma_{-i}^k)):(BR)是Best Response(最优反应)的缩写。对每个博弈者(i),(\sigma_i^*)是对其他博弈者策略组合(\sigma_{-i}^k)的最优选择,即在给定对手的策略情况下,博弈者(i)的策略选择能够使其收益最大化。
颤抖手精炼均衡的关键点:颤抖手精炼均衡是纳什均衡的一种精炼,要求参与者的策略不仅仅是纳什均衡,还必须是对策略的“颤抖”(即轻微偏离)具有鲁棒性。在定义中,博弈者的策略不允许包含弱劣策略(即在偏离情况下仍无损失的策略),因为这样的策略经不起非理性因素的扰动。
1.2 颤抖手均衡的简化
假设一个博弈中有(n)个参与者,每个参与者(i)选择策略(s_i)的概率为(p_i(s_i)),并且存在一个很小的概率(\epsilon_i)表示参与者(i)选择“非最优策略”的概率。颤抖手纳什均衡要求在每个参与者的策略中,任意小的(\epsilon_i)偏差下,博弈的均衡解仍然保持稳定。也就是说,当(\epsilon_i \to 0)时,参与者的策略选择应该收敛于一个纯策略纳什均衡。
例2: 分析下面博弈的颤抖手纳什均衡
博弈方1\博弈方2 L R
U 10,0 6,2
纳什均衡在博弈论中的应用案例
麻省理工学院(MIT)的研究人员将博弈论的思想引入大模型的改进中。他们共同设计了一个游戏,在游戏中,让模型的两种模式(生成式和判别式)相互对抗,努力找到它们可以达成一致的答案。这个简单的博弈过程,被称为「共识博弈」(CONSENSUS GAME)。
具体来说,这是一种免训练,基于博弈论的语言模型解码过程。新方法将语言模型解码,视为一种正则化的不完全信息序列信号博弈游戏——称之为CONSENSUS GAME(共识博弈)。其中,生成器(GENERATOR)试图使用自然语言句子,向一个判别器(DISCRIMINATOR)传达抽象的正确性参数。然后,研究人员开发了计算程序,以寻找博弈的近似均衡,从而得到一种名为「均衡排序」(EQUILIBRIUM-RANKING)的解码算法。在多个基准测试中,「均衡排序」策略在LLaMA-7B的表现中,明显超越LLaMA-65B,并与PaLM540B相媲美。
纳什均衡的数学分析
零和博弈(Zero-Sum Game)是一种博弈论的基本概念,指的是在博弈过程中,博弈参与者之间的收益和损失之和总是一个常数,特别是总和为零。即博弈一方的收益必然等于另一方的损失,不存在共赢或多赢的情况。换句话说,在零和博弈中,博弈双方的利益是对立的,博弈的结果是一方得利必定伴随着另一方的损失,整个博弈的总体价值是恒定不变的。
对于任意一个两个玩家A和B之间的完全信息、零和、有限策略集的博弈,存在一个数V和玩家A的一个策略σ*,使得无论对手B采取何种策略,通过执行σ*,A所能获得的最小收益至少是V。同时,存在玩家B的一个策略τ*,使得当B执行τ*时,即使面对A的最优策略,其给A带来的最大损失也不超过V。
换句话说,A的最小期望得益(即最大损失)等于B的最大期望损失(即最小得益),这个相同的数值就是游戏的值V。A的最优策略是在所有可能的策略中找到那个能够抵御对手任何反击的策略,以确保最坏情况下的最好结果;而B则反过来尝试最大化A的最坏结果,即最小化自己的最大损失。
假设零和博弈G = { S 1 , S 2 ; A } G={S_1,S_2;A}G={S1 ,S2 ;A},
其中S 1 = { A 1 , A 2 . A 3 } S_1={A_1,A_2.A_3}S1 ={A1 ,A2 .A3 },S 2 = { B 1 , B 2 . B 3 } S_2={B_1,B_2.B_3}S2 ={B1 ,B2 .B3 },
A = [ 6 − 1 0 3 1 2 − 3 0 − 1 ] A=\begin{bmatrix} 6 & -1 & 0 \ 3 & 1 & 2 \ -3 & 0 & -1 \end{bmatrix}A= 63−3 −110 02−1
各局中人应如何选择自己的策略,保证自己在博弈中取得有利的地位。
博弈在纯策略意义下的纳什均衡可以不唯一,博弈的值是唯一的。
假设零和博弈G = { S 1 , S 2 ; A } G={S_1,S_2;A}G={S1 ,S2 ;A},
其中S 1 = { A 1 , A 2 , . . . A m } S_1={A_1,A_2,...A_m}S1 ={A1 ,A2 ,...Am },选择每个策略的概率为X = { x 1 , x 2 , . . . , x m } X={x_1,x_2,...,x_m}X={x1 ,x2 ,...,xm };
S 2 = { B 1 , B 2 , . . . , B n } S_2={B_1,B_2,...,B_n}S2 ={B1 ,B2 ,...,Bn },选择每个策略的概率为Y = { y 1 , y 2 , . . . , y n } Y={y_1,y_2,...,y_n}Y={y1 ,y2 ,...,yn }
A = ( a i j ) m × n A=(a_{ij})_{m\times n}A=(aij )m×n
对于给定的博弈G,
局中人1的所有混合策略构成的集合S 1 ∗ = { X } S_1^*={X}S1∗ ={X}
局中人2的所有混合策略构成的集合S 2 ∗ = { Y } S_2^*={Y}S2∗ ={Y}
期望为G ∗ = { S 1 ∗ , S 2 ∗ ; E } G^={S_1^,S_2^*;E}G∗={S1∗ ,S2∗ ;E},为博弈G的混合扩充。
目标:
任何一个给定的二人零和博弈G一定存在混合策略意义下的纳什均衡
非零和博弈的定义
各方的收益或损失的总和不是零值。
局中人之间不再是完全对立
一个局中人的所得并不一定意味着其他局中人要同样数量的损失
博弈参与方之间可能存在某种共同利益,可以“双赢”或“多赢”
7.1 求解二人非零和博弈混合策略纳什均衡的一般方法
7.2 反复剔除严格劣策略
在“局中人是理性的”假设前提下,如果一个人的策略集合中存在严格劣策略,理性的他永远不会选择严格劣策略。反复剔除严格劣策略适用于零和博弈与非零和博弈。
对于局中人1的b策略严格劣与策略d,所以策略b可以删除。
最后可以得到
奇数定理:几乎所有的有限策略的博弈都有奇数个纳什均衡,包括纯策略纳什均衡和混合策略纳什均衡
简单来说,根据奇数定理,如果一个博弈有两个纯策略纳什均衡,则必定存在至少一个额外的纳什均衡,这导致了纳什均衡的总数是奇数。纳什均衡是指在一个博弈中,没有一个参与者可以通过单独改变自己的策略来改善其结果的稳定策略组合。
需要注意的是,“几乎所有的”这一描述表明并非所有博弈都严格遵循这个规律,但大部分有限博弈确实表现出这样的特性。这个定理对于理解和分析博弈论中的复杂交互行为有着重要意义。
纳什均衡在现实生活中的应用
在实际生活中,零和博弈和纯策略纳什均衡有着广泛的应用。例如,在市场竞争中,企业之间的价格战就类似于零和博弈,企业需要采取最优的策略来保持竞争优势。而在国际政治中,国家之间的领土争端、贸易摩擦等也可以看作是零和博弈,双方需要采取最优策略来维护自身利益。
纯策略纳什均衡则常用于分析企业之间的合作与竞争关系。例如,在寡头市场中,几家企业共同瓜分市场份额,形成了一种微妙的平衡。如果一家企业试图打破这种平衡,就可能导致其他企业采取报复措施,最终导致该企业利益受损。因此,在这种环境下,企业需要采取纯策略纳什均衡的策略来保持稳定的市场份额。
除了上述应用之外,博弈论还有许多其他的应用领域。例如,在经济学中,博弈论被用于分析市场交易行为和政策制定;在政治学中,博弈论被用于研究国际关系和政治体制的稳定性;在生物学中,博弈论被用于解释生物种群之间的竞争与合作行为。
总之,博弈论作为一门研究决策主体之间策略互动的学科,为我们提供了深入理解各种复杂关系的工具。通过了解零和博弈和纯策略纳什均衡等重要概念,我们可以更好地理解现实生活中的各种现象,并制定出更优的策略来应对各种挑战。