专利类型:发明专利
发明人:刘宇,张现杰,赵哲焕,单世民
申请号:CN202111200399.4
申请日:20211015
公开号:CN114037048A
公开日:
20220211
专利内容由知识产权出版社提供
摘要:本发明提供一种基于变分循环网络模型的信念一致多智能体强化学习方法,该方法启发于人类团队之间的可以产生默契合作的现象,即通过共同的信念在任务上达成一致性共识。与人类社会体类似,分布式学习系统中的智能体也可以受益于一致的信念,在有限的通信条件下实现协作。在本文中,我们展示了在分散式协作任务中智能体之间的一致性信念的作用。我们提出了一种新的基于值的方法——一致性信念多智能体强化学习方法,它使用变分模型来学习智能体之间的信念。我们还利用与变分模型结合的循环网络模型(RNN)充分利用智能体历史行为轨迹。我们的算法使智能体能够学习一致的信念,以优化完全分散的策略。我们在两个网格世界游戏以及星际争霸II微观管理基准上验证了该方法。我们的实验结果表明,该方法学习到的共同信念可以有效提高离散和连续状态下的智能体的协作效果。
申请人:大连理工大学
地址:116024 辽宁省大连市凌工路2号
国籍:CN
代理机构:辽宁鸿文知识产权代理有限公司
代理人:苗青