动态Fictiousplay和Gradientplay条件下纳什均衡的收敛性问题探讨_百 ...

动态Fictious play和Gradient play条件下纳什均衡的收敛性问题探讨西南票务网
在连续时间情况下,研究了只有两个博弈主体参与下的重复博弈模型中,每个主体的策略更新问题。每个主体可以得到对方的策略信息,但是却不能得到在对应策略下对方的收益信息。一般的策略更新采用最佳反应规则(Best Reponse),比如在静态的Fiticious play和Gradient play中所采用的策略更新机制,但是这些机制不能保证对纳什均衡的收敛性。这篇文章采用了动态的策略更新机制,主要是动态的Fiticious play和Gradient play。这些机制引入了一个行为的导数来处理对方的行为信息,在某些条件下,可以使得以前不会收敛到纳什均衡的行为具有收敛性。本文研究了两种情况下的收敛性:精确和近似导数测量信息下的动态策略更新机制。在理想的精确导数测量信息下的动态策略更新机制,其收敛性总是可以得到保证;然而,在一般的近似导数测量信息条件下,我们得到了一些局部收敛的特性,并且知道了动态策略更新机制是如何更新策略来达到收敛的。本文的两个主体博弈的情况可以扩展到多个主体参与的情况下。新一代普力马
在连续时间形式的重复博弈中,个体在知道对方策略而不知对方收益信息的条件下,如何更新策略得到纳什均衡,也就是一个双方都不会单方面背叛的一个策略集合,是一个很热门的研究问题。一般来说,每一步博弈的时候,个体都会从可行的行为中根据一定的概率分布选择自己的策略,概率分布代表了个体的策略。每个个体的收益依赖于博弈双方所采取的策略。策略可以被双方分享,但是收益不能被分享得到。假定一个个体一直采用相同的概率分布来产生自己的策略,也就是保持一个策略不变,那么另外
一个个体可以通过重复演绎,保持一个对方策略的运行均值来学习这个概率分布。这个运行均值就被称为经验频率。通过对所观测到的经验频率采用最佳反应策略,个体将最终收敛到对手策略固定情况下的自己的最优策略。
那么,如果两个对手都假定对方采用固定的策略不变,他们的策略更新机制将会互相影响。其中一个著名的过程就称为fictitious play(FP)。在FP中,假定经验频率是一个常值概率分布的代表,个体对对方的经验频率作出最佳反应。如果经验频率收敛,那么重复博弈模型也收敛到均衡。Fp的过程被用来作为计算得到纳什均衡的机制,被广泛采用和研究。
姆拉迪奇其中的主要关注点在于:是否策略重复的演绎更新能够收敛到纳什均衡。可以证明的是经验频率不需要收敛。在Shapley和Jordan博弈模型中,都存在唯一一个纳什均衡,并且这个均衡是completely mixed的,也就是说每一个可行的行为都有一定的概率被采用。混合纳什均衡的概念因为其公正性得到了大家的广泛关注。确实,也有不少关于混合纳什均衡的负面结果。因为很多的策略更新机制不能够保证收敛到混合纳什均衡,并且所有具有可行行为数大于2的博弈模型将不能够利用FP的最佳反应机制收敛到混合纳什均衡。尤其值得注意的是,一般的Jordan博弈模型,只要主体间不共享收益函数并且更新机制是经验频率的静态函数,那么在任何的策略更新机制条件下博弈模型将不能够收敛,不管是否采用最佳反应机制与否。
秩序作文
与FP并行存在的策略更新机制有并行随机搜索,它可以到纳什均衡的一个邻域。与FP 逐步调整策略的方式不同的是,这个方法是分布式随机搜索的。
陈映真
与纳什均衡不同的是,存在很多方法使得博弈模型收敛到所谓的相关均衡的集合,这是一个包含纳什均衡的集合的凸集合。这些就是所谓的regret-based算法,主要是通过对过去的决策信息进行重新访问,从而朝那些可以获得更大收益的策略方向前进。数字增长背后的高质量发展密码
在引文【26】中,很重要的一个假设就是策略更新机制是建立在经验频率的静态函数的基础上的。在本文中,我们将探索在重复博弈模型中,利用对方策略的动态函数建立更新机制的可能性。目前的方法是将问题看成是一个反馈稳定性的一个问题。与标准的反馈稳定性问题不同的是,我们努力稳定的那个均衡点是未知的,但是又是通过重复的非合作交互行为后必然要求出现的。与我们持有相同的反馈稳定性观点的文章是参考文献【14】,在那里,通过在策略更新机制中引入一个积分项,同时给定了收敛的充分条件。在本文中,我们主要关注利用微分行为。在标准的控制理论中的微分行为,在生物运动控制系统模型中也很重要。我们将利用与传统机制类似的策略更新机制,但是同时利用了经验频率和他们的导数项。同样的,这种新方法在概念上和前面提到的随机搜索方法和no-regret方法都不同。我们将在理想的精确导数测量方法中确立对纳什均衡的收敛性,同时在近似导数测量方法中确立近似的均衡收敛性。我们将展示近似微分的使用怎样可能或者不可能允许我们去得到理想的结果。除了与fp的最佳反应外,我们同时将研究与gradient算法类似的较佳反应策略更新机制。同时在Shapley
博弈模型上对这些方法进行验证。最后给出了多参与个体博弈的框架,并且在Jordan博弈模型上给出了收敛性的验证。

本文发布于:2024-09-22 11:39:49,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/628540.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:策略   机制   博弈
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议