问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

博弈论入门:基础知识与核心概念

创作时间:
作者:
@小白创作中心

博弈论入门:基础知识与核心概念

引用
CSDN
1.
https://blog.csdn.net/qq_39567625/article/details/127897183

博弈论是研究决策制定者在竞争和合作环境中如何做出最优选择的理论。它广泛应用于经济学、政治学、生物学等多个领域,帮助人们理解复杂的社会互动和策略选择。本文将从博弈的基本要素出发,介绍博弈论的核心概念,包括参与人、行动、信息、策略、收益和均衡等,并通过经典案例深入解析占优策略和信息在动态博弈中的作用。

1. 博弈的定义

博弈论研究的是决策制定者在竞争和合作环境中如何做出最优选择。一个博弈的基本要素包括:

  • 参与人(players):参与博弈的个体或组织
  • 行动(actions):参与人可以选择的具体行为
  • 信息(information):参与人对博弈状态的了解程度
  • 策略(strategies):参与人关于其行动的完备集合
  • 收益(payoffs):参与人在不同策略组合下的收益
  • 均衡(equilibria):所有参与人选择的最佳策略组合

标准表达式(normal form):设在n个参与者的博弈中,令$S_i$表示参与者i可选择的战略集合(也称为战略空间),其中任意一个特定的战略用$s_i^$表示($s_i^ \in S_i$),当每个参与者都选定一个策略后形成了博弈的一个战略组合$(s_1, \ldots, s_n)$。令$u_i$表示第i个参与者选择对应策略后的收益函数。由此可定义博弈的标准表达式:$G = {S_1, \ldots, S_n, u_1, \ldots, u_n}$。

收益矩阵:两人博弈的标准表达式通常可以使用收益矩阵来表示。例如经典的囚徒困境问题。两个犯罪嫌疑人被逮捕并被分别隔离审问,他们不同的行动将带来不同的后果。如果两人都不坦白(沉默)将被判入狱1个月;如果双方都坦白(招认),两人都将判处6个月;如果一人招认而另一人拒不坦白,则招认一方将马上释放,而不坦白的另一人将判处9个月。两人博弈的收益矩阵可表示为如下形式,其中每一单元格有两个数字,分别表示囚徒1和囚徒2的收益。

策略:参与人关于其行动的完备集合,即考虑每一种可预见情况下选择的行动,即使那种情况出现不一定会出现。书上举例了一个直白的例子,如果参与人在1989年自杀,他的策略里也应当包括如果他在1990年还活着应该采取对应的行动。

策略和行动是有区别的,而在一些简单的博弈中两者的表现可能是一致的,如上述的囚徒困境中博弈双方的策略和行动可选集都是{沉默,招认}。

均衡:由博弈中的n个参与人选取的最佳策略所组成的一个策略组合$s^=(s_1^, \ldots, s_n^*)$。

2. 占优策略

严格占优策略(dominant strategy):参与人i对于其他参与人所选择的策略$s_{-i}$(用-i表示除了i之外的其他参与者)的最佳应对策略$s_i^$。即无论别人选择什么策略,选择$s^$都是最优的。这里的最优是指能使得参与人的收益最大化,$u_i(s_i^*, s_{-i}) > u_i(s_i, s_{-i})$。相对地,那些较差的策略称为占劣策略(dominated strategy)。

在囚徒困境中,招认对于博弈双方都是占优策略,因为无论囚徒2选择沉默还是招认,囚徒1都有更高的收益(当囚徒2选择沉默时候,囚徒1选择招认收益为0,大于其选择沉默的收益-1;当囚徒2选择招认时,囚徒1选择招认的收益-6大于其选择沉默的收益-9),反之亦然。

弱占优策略:在一些博弈中,某些策略的收益至少不劣于其他策略,$u_i(s_i^*, s_{-i}) \geq u_i(s_i, s_{-i})$,这些策略称为弱占优策略。除了在某些情况下该策略和其他策略取得相同的收益,在其他情况下该策略的收益都要优于其他策略。

帕累托占优(pareto optimality):帕累托占优是从局外人的视角看待整个博弈。如果某个状态不能够再改进(这个改进是指在不损害一方的利益下提高另一方的利益),就说这个状态是帕累托最优。例如,在囚徒困境中存在三个帕累托最优策略(沉默,沉默),(招供,沉默),(沉默,招供);而(坦白,坦白)虽然对于参与人都是严格占优策略,但是从上帝视角来看,选择(沉默,沉默)这个策略相比(坦白,坦白)双方都有更高的收益。

3. 信息

在动态博弈中(参与者的行动有先后顺序),信息是至关重要的,为此先定义博弈的扩展式(extensive form)。博弈的扩展式包括(1)博弈中的参与人;(2a)每一参与者在何时行动;(2b)每次轮到某一参与者行动时可供他选择的行动;(3)与参与者可能选择的每一行动组合对应的收益。扩展式可以进一步以博弈树的形式表示。

图中博弈有两位参与者,参与者1可从{L, R}中选择对应的行动$a_1$,接着参与者2观测到参与者1的行动后从{L', R'}中选择$a_2$,两参与者的收益分别为$u_1(a_1, a_2)$和$u_2(a_1, a_2)$。

在动态博弈中可能会出现这么一种情况,参与人i知道现在是该谁行动给了,但却不知道博弈已经到达了博弈树的哪个具体位置,或者说该参与人无法区分他处在哪个节点上。考虑下图这种情况,此时参与人2不知道参与人1做出何种选择,无法区分他所处在左边的节点上还是右边的节点。这些无法区分的节点集合称为信息集

对不同的信息结构对博弈进行划分,总结如下:

信息种类
含义
完美(perfect)
每个信息集都是单结点的
完全(complete)
自然不首先行动或它的最初行动被每个参与人所观察到
对称(symmetric)
没有参与人在行动时或在终点结处有与其他参与人不同的信息

完美信息博弈满足了对于信息的最强要求,在这样的博弈中,每个参与人对于自己所处博弈树中的位置总是一清二楚的,没有行动是同时进行的,且所有参与人都观察到了自然的行动。任何具有不完全或不对称信息的博弈也是不完美信息博弈。进一步地,可以归纳出以下博弈类型。

参考资料

  1. 《博弈与信息——博弈论概论》艾里克·拉斯缪森
  2. 《博弈论入门》吉本斯
  3. Game Theory, Coursera
© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号