混合策略纳什均衡的计算法

混合策略纳什均衡的计算法 纳什均衡原文?

纳什均衡表达式?

纳什均衡原文?

纳什均衡,又称为非合作博弈均衡,是博弈论的一个重要术语,以约翰·纳什命名。在一个博弈过程中,无论对方的策略选择如何,当事人一方都会选择某个确定的策略,则该策略被称作支配性策略。如果两个博弈的当事人的策略组合分别构成各自的支配性策略,那么这个组合就被定义为纳什均衡。

纳什均衡的习题?

1)如果(上,左)是上策均衡,那么agte,bgtd,cgtg,fgth (2)如果(上,左)是上策均衡,上述哪几个不等式必须满足?agte ,bgtd 上策均衡:不管你选择什么策略,我选择的是最好的; 不管我选择什么策略,你选择的是最好的; 纳什均衡:给定你的策略,我所选择的是最好的; 给定我的策略,你选择的是最好的。

博弈论的原理是什么?

用博弈论来教你做出最佳选择

首先建立博弈模型如下

如果去食堂早,有热饭吃收益 1,人少不挤,收益 1,因此有热饭吃且人少不挤的收益就是2了。如上图所示,A选择早去,如果B也选择早去,那么A有热饭吃,但人多(因为B也选择这个时候去了),所以此时A的收益是1,如果B选择晚去,那么A不仅有热饭吃,而且人还少(因为B没去),此时收益是2。反之对于B得情况也是如此,就得到上面的博弈模型,下面来分析这个模型。

如果B选择早去,早去和晚去都是A的优势策略,因为此时对于A来说,不管选择早去还是晚去,他的收益都是1 ;

如果B选择晚去,那么A有绝对优势策略,既选择早去,此时早去的收益是2比晚去的收益0要大。如下图中标黄部分所示:

根据对称性,B的策略选择如下图中标黄部分所示:

将两张图合并

可以看出标黄部分即是博弈的纳什均衡,根据博弈论原理,博弈的最后结果会趋向于纳什均衡,至于为什么会这样可以参见我另外一个回答:中国的劝酒文化背后的逻辑是什么? - EnJoyDJ 的回答

,那里对于纳什均衡有比较详细的描述。那么问题来了,这里有三个纳什均衡,到底会趋向于哪一个均衡点呢?貌似我选择早去和晚去都可以。下面要引入混合纳什均衡的概念,上面说的纳什均衡是纯策略的纳什均衡,下面是混合策略的纳什均衡,接下来有点可能会有点难以理解。假设B选择早去的概率是P,那么选择晚去的概率则是1-P,如下图所示那么对于A来说,选择早去的可能的收益是1*P 2*(1-P)=2-P,选择晚去的可能的收益是1*P 0*(1-P)=P,再混合纳什均衡中有个很重要的定理:B的策略选择会使得A选择早去和选择晚去的收益相等,即2-P=P。试想一下,如果2-PgtP,那么A选择早去的收益比选择晚去的收益大,那么A就肯定会选择早去,即把劣势策略晚去排除掉了,那么就变成纯策略了,要想让A保持一定概率会选择晚去,那么就必须让早去和晚去的收益是一样的,即2-P=P。再比如从甲乙两个人里面选身高最高的人,如果明知道甲比乙高,那我肯定不会选择乙,只有当甲和乙是一样高的情况下我才有一定的概率选择乙。然后根据2-P=P,可以解得P=1,即B有1的概率选择早去,0的概率选择晚去的情况下,A才有一定概率选择早去,一定概率选择晚去,即混合了早去和晚去这两个策略,而不是纯粹只选择一个策略。到底A选择早去的概率和选择晚去的概率各式多少呢?那就要从B的收益上来考虑。假设A选择早去的概率是Q,那么选择晚去的概率则是1-Q,如下图所示那么对于B来说,选择早去的可能的收益是1*Q 2*(1-Q)=2-Q,选择晚去的可能的收益是1*Q 0*(1-Q)=Q,同理可得2-Q=Q,解得Q=1。最后可得A的混合策略是P(早去,晚去)=(1,0),B的混合策略是Q(早去,晚去)=(1,0)。所以根据博弈论原理分析,最后的结论是,你应该选择早点去食堂吃饭,去得越早收益越大,也就是说如果可以的话你应该选择食堂一开门,你第一个到。这里可能对于混合策略的纳什均衡有点难以理解,如果需要深究的话可以去自己看看博弈论的书自学。如果不需要深究的话,从上面的回答便可以看到如何用博弈论的知识来做出去食堂吃饭的最佳选择。其实从简单的角度再来理解一下,假设你就是A,其它人是B,如果你选择早去,不管别人选择早去还是晚去,你的收益都是大于或等于1的,如果你选择晚去,你的收益是大于或等于0的,很明显选择早去你的收益要大。再简单地讲,你选择早去你至少会有热饭吃,有时候碰巧别人晚去了,此时你不仅有热饭吃,而且你人还少。如果你晚去了,顶多是人少,但有时候万一别人也晚去了,此时不仅人多,而且还没有热饭吃了。