基于注意力机制的多智能体值函数分解方法及装置[发明专利]

(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 202010824845.8
(22)申请日 2020.08.17
(71)申请人 清华大学
地址 100084 北京市海淀区清华园
(72)发明人 杨以钦 马骁腾 李承昊 杨君 
梁斌 
(74)专利代理机构 北京清亦华知识产权代理事
务所(普通合伙) 11201
代理人 白雪静
(51)Int.Cl.
G06N  20/00(2019.01)
G06N  3/04(2006.01)
G06N  3/08(2006.01)
(54)发明名称
基于注意力机制的多智能体值函数分解方
法及装置
(57)摘要
本发明公开了一种连续动作控制下基于注
意力机制的多智能体值函数分解方法及装置,该
方法包括:获取多个智能体决策下的状态轨迹;
构建注意力机制网络、各个智能体的主值网络、
各个智能体的主策略网络、QMIX主值网络、各个
智能体的副值网络、各个智能体的副策略网络、
QMIX副值网络;基于状态轨迹和离轨策略算法的
多智能体值函数分解学习过程,对Attention注
意力机制网络、各个智能体的主值网络、各个智
能体的主策略网络、QMIX主值网络、各个智能体
的副值网络、各个智能体的副策略网络、QMIX副
值网络进行更新;根据更新的多个网络生成更新
后的策略模型,对策略模型进行测试。该方法设
计出一种在连续控制量的仿真环境中基于注意
力机制学习值函数分解的多智能体算法。权利要求书3页  说明书9页  附图3页CN 112101564 A 2020.12.18
C N  112101564
A
1.一种连续动作控制下基于注意力机制的多智能体值函数分解方法,其特征在于,包括以下步骤:
步骤S1:获取多个智能体决策下的状态轨迹;
步骤S2:构建Attention注意力机制网络、各个智能体的主值网络、各个智能体的主策略网络、QMIX主值网络、各个智能体的副值网络、各个智能体的副策略网络、QMIX副值网络;
步骤S3:基于状态轨迹和离轨策略算法的多智能体值函数分解学习过程,对所述Attention注意力机制网络、各个智能体的主值网络、各个智能体的主策略网络、QMIX主值网络、各个智能体的副值网络、各个智能体的副策略网络、QMIX副值网络进行更新;以及步骤S4:根据更新的多个网络生成更新后的策略模型,对策略模型进行测试。
2.根据权利要求1所述的方法,其特征在于,所述步骤S1,包括:
根据应用场景设计部分观测仿真器,通过所述仿真器与所述应用场景进行交互得到所述应用场景下一时刻的观测状态。
3.根据权利要求1所述的方法,其特征在于,所述步骤S3,包括:
步骤S31,初始化所述仿真环境env、所述Attention注意力机制网络Attentionψ、所述各个智能体主值网络Q i、所述各个智能体主策略网络πi、所述QMIX主值网络QMIX、所述各个智能体副值网络Q′i、所述各个智能体副策略网络π′i、所述QMIX副值网络QMIX′;
步骤S32,在当前状态依据策略选取动作并转移到下一状态并得到当前时刻的奖励值r t,根据当前状态o t、当前动作a t、当前时刻的奖励值r t和下一状态o t+1组成四元组(o t,a t,r t,o t+1),并将所述四元组存储进生成数据缓存器Bπ;
步骤S33,在所述生成数据缓存器Bπ中的数据量达到预设数据量阈值后,每个时间步取出部分数据对所述Attention注意力机制网络、所述各个智能体主值网络、所述QMIX主值网络进行更新;
步骤S34,每隔预设时间利用确定性策略梯度对所述各个智能体主策略网络进行更新,并对所述各个智能体副值网络Q′i、所述各个智能体副策略网络π′i、所述QMIX副值网络QMIX′的参数进行软更新。
4.根据权利要求3所述的方法,其特征在于,所述步骤S33,包括:
S331,依据各个智能体的策略网络π′i和随机扰动选择下一时刻的动作:
其中,为智能体i的副策略网络,代表引入的随机扰动;
S332,计算各个智能体的状态-动作值
其中,为智能体i的状态-动作值;为智能体i主值网络Q i中的两层全连接网络;为智能体i主值网络Q i中的编码网络;为除智能体i外,其它智能体值函数的加权和。
S333,计算各个智能体的目标状态-动作值
其中,为智能体i的目标状态-动作值;为智能体i目标主值网络Q′i中的两层全连接网络;为智能体i目标主值网络Q′i中的编码网络;为除智能体i外,其它智能体值函数的加权和。
S334,利用QMIX主值网络计算混合状态-动作值
其中,为QMIX主值网络的两层全连接网络,并对该网络的权重取绝对值,s为所有智能体的全局观测。
S335,利用QMIX副值网络计算目标混合状态-动作值
其中,为QMIX副值网络的两层全连接网络,并对该网络的权重取绝对值,s′为所有智能体的下一时刻的全局观测;
,QMIX主值网络参数
S336,利用梯度下降法更新所述各个智能体主值网络的参数θ
Attention注意力机制网络参数ψ:
其中,为混合状态-动作值,为目标混合状态-动作值,N为从Bπ中采集到的样本数量。
5.根据权利要求3所述的方法,其特征在于,在所述步骤S34中,所述各个智能体主策略网络的更新方式为:
其中,k为计算梯度所用的样本编号,为对智能体i所选择的动作a i求梯度,
为智能体i的值函数,a i为智能体i所选择的动作,a-i为除智能体i外的其它智能体所选择的动作,为对智能体i的策略网络求导,φi为智能体i的策略网络,o i为智能体i的观测。
6.根据权利要求1所述的方法,其特征在于,所述对所述各个智能体副值网络Q′i、所述各个智能体副策略网络π′i、所述QMIX副值网络QMIX′的参数的更新方式为:φ′i←τφi+(1-τ)φ′i,
θ′i←τθi+(1-τ)θ′i,
其中,τ是超参数,用于控制从主网络更新副网络参数的程度。
7.根据权利要求4所述的基于注意力机制的多智能体值函数分解方法,其特征在于,所述步骤S332进一步包括:
其中,为输入的嵌入向量,V为线性变换矩阵,W q为query矩阵,W k为key矩阵,这三个矩阵在所有智能体中共享,h为非线性转移函数。
8.根据权利要求1-7任意一项所述的基于注意力机制的多智能体值函数分解方法,其特征在于,还包括:
将所述状态轨迹存入数据缓存器。
9.一种连续动作控制下基于注意力机制的多智能体值函数分解装置,其特征在于,包括:
获取模块,用于获取多个智能体决策下的状态轨迹;
构建模块,用于构建Attention注意力机制网络、各个智能体的主值网络、各个智能体的主策略网络、QMIX主值网络、各个智能体的副值网络、各个智能体的副策略网络、QMIX副值网络;
更新模块,用于基于状态轨迹和离轨策略算法的多智能体值函数分解学习过程,对所述Attention注意力机制网络、各个智能体的主值网络、各个智能体的主策略网络、QMIX主值网络、各个智能体的副值网络、各个智能体的副策略网络、QMIX副值网络进行更新;以及生成模块,用于根据更新的多个网络生成更新后的策略模型,对策略模型进行测试。
10.根据权利要求9所述的基于注意力机制的多智能体值函数分解装置,其特征在于,所述获取模块进一步用于将所述状态轨迹存入数据缓存器。
基于注意力机制的多智能体值函数分解方法及装置技术领域
[0001]本发明涉及机器学习技术领域,特别涉及一种连续动作控制下基于注意力机制的多智能体值函数分解方法及装置。
背景技术
[0002]最近几年,强化学习在很多领域取得重大突破,例如围棋、星际争霸、Dota2等大规模策略优化问题。与目前流行的大多数单智能体强化学习算法不同,真实世界常常是多个智能体在动态变化的环境中相互竞争或合作的,因此智能体需要在适应多智能体环境的同时,学习与环境中其它智能体的交互。在多智能体控制算法中,值函数设计的环节具有十分关键的地位。由于值函数是一条样本轨道的奖励之和,因此有效的值函数设计可以加速多智能体学习。
[0003]目前基于值函数的多智能体算法主要有三类:独立值函数,中心值函数,分解值函数。其中,独立值函数学习算法将多个智能体单独训练,并最大化自己的值函数,是最简单的值函数学习算法。但是由于单个智能体的环境是动态非平稳的,因此这种方法违背了强化学习的基本假设。相较而言,中心值函数在计算单个智能体的状态动作值函数时考虑了其它智能体的动作,并在连续动作控制场景下超越了其它传统多智能体算法的性能,这种算法具有更强的鲁棒性。然而,由于多智能体合作环境为多人博弈场景,中心值函数的设计忽略了单个值函数的性质,其在复杂合作场景下性能欠佳。
[0004]将多个智能体的中心值函数进行分解是目前多智能体值函数学习的主流算法,具有代表性的算法为QMIX算法,该算法在基于全局状态信息的条件下,将各个智能体的值函数融合,并保证总体值函数相对于单个智能体的值函数是单调的。这种算法在复杂离散动作控制场景下取得了突出的效果。现实世界中多个智能体之间是相互影响的,在合作场景下多智能体间的Q值相对于总体值函数应当是单调的,而QMIX算法只考虑总体值函数相对于单个智能体的值函数的单调性,忽略了多智能体间Q值信息,缺乏一些探索性和合作性。同时,QMIX算法仅适用于离散动作控制的环境,而现实中的大多数多智能体环境是连续动作控制的。因此,如何将多智能体间的Q值与单个智能体的Q值有效结合,并应用在连续动作控制下的多智能体环境中具有一定的挑战性。
发明内容
[0005]本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
[0006]为此,本发明的一个目的在于提出一种连续动作控制下基于注意力机制的多智能体值函数分解方法,该方法设计出一种利用多智能体连续控制量下的状态轨迹在仿真环境中学习连续动作控制的值函数分解算法。
[0007]本发明的另一个目的在于提出一种连续动作控制下基于注意力机制的多智能体值函数分解装置。
[0008]为达到上述目的,本发明一方面实施例提出了一种连续动作控制下基于注意力机
说 明 书
1/9页CN 112101564 A

本文发布于:2024-09-22 14:17:24,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/423387.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:智能   网络   函数   策略   动作   状态
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议