首页 > 专利查询

MADRL（多智能体深度强化学习）

《多Agent深度强化学习综述》

从多 agent 深度强化学习中通信过程的⾓度对现有的多 agent 深度强化学习算法进⾏归纳，将其归纳为全通信集中决策、全通信⾃主决策、⽋通信⾃主决策三种主流形式。

当前 DRL 的两个主要⽅向 – 深度 Q ⽹络和深度策略梯度。⼀种是⽤神经⽹络函数近似Q⽹络，另⼀种是将状态空间映射到动作空间的函数或者分布，策略优化的⽬标是寻最优的策略映射。

两者针对的过程不同

连续动作空间的策略梯度算法分为随机策略梯度算法和深度确定策略梯度算法。

多智能体任务中环境是动态性的，⼀般建模为部分可观测MDP环境（POMDP）

协作多智能体分为两类，单个学习者和多个学习者。

全通信集中决策：联合感知，中⼼决策（神经⽹络内部通信）

全通信⾃主决策：联合感知，独⽴决策（神经⽹络之前通信）

⽋通信⾃主决策：⽆信息交互，独⽴决策（⼀般⽤循环神经⽹络）

全通信集中决策可转换为单智能体问题，适⽤于智能体数量少且固定，动作空间⼩的情况。

在全通信集中决策架构中，现有研究⽅法主要集中在隐藏层信息池化共享通信和双向 RNN 通信等两种⼿段，通过神经⽹络的隐藏层间信息传递保证全通信条件下 agent 间的协商。

难以设计合适的通信协议——>利⽤双向LSTM⾃⾏学习通信协议

不合适的奖励——>基于全局奖赏的值分解⽹络

主-从多智能体架构（教练和球员）

全通信⾃主决策架构只需在输⼊端进⾏通信，将信息进⾏本地融合，⾃主的完成决策过程。

⼀种⽅式是⾃适应的端到端的通信协议学习算法，将通信定义为⼀组动作。根据通信动作的连续性，将决策⽹络的梯度更新⽅式分为增强和可微两类。

针对全通信的⾃主决策结构，他们设计了 AC-CNet 架构，对局部状态进⾏嵌⼊编码，之后利⽤预定义/⾃学习通信协议对所有局部状态编码进⾏联合编码，同待决策 agent 的局部状态结合⼀同作为决策输⼊，产⽣动作。

预定义通信协议在部分环境中不可⽤——>将通信定义为⼀组动作

对局部状态进⾏嵌⼊编码

电动卷帘门控制器

个体奖赏带来的 “囚徒困境”——>采⽤联合动作评估⽅法

⽋通信⾃主决策中强化学习任务⾯临着环境⾮平稳性的问题。

解决⽅法⼀：忽略。采⽤分散滞后深度 RNN 的架构，克服环境⾮平稳带来的值估计偏差。

解决⽅法⼆：改进replaybuffer。记录其余agent的动态变化信息。

解决⽅法三：⾃主决策，整体评价。

解决⽅法四：分层，将 agent 的动作分为宏观和⼀般两类动作

解决⽅法五：对对⼿（包括⼰⽅其他）进⾏建模

解决⽅法六：改进信⽤分配⽅式

解决⽅法七：同质智能体共享参数

多智能体实验平台：

1 DeepMind 和暴雪公司合作，开发了⼀个基于星际争霸 II 游戏的强化学习平台 SC2LE

python接⼝、minigame

2 上海交通⼤学开发了⼀种⽀持多 agent 强化学习研究和发展的 MAgent 平台该平台聚焦含成千上万 agent 的任务和应⽤

开源：

3 Brodeur 等⼈ [79] 提出了⼀个⾯向⼈⼯ agent的家庭多模态环境（HoME），在逼真的环境下，从视觉、⾳频、语义、物理以及与对象和其他 agent的交互等⽅⾯进⾏学习.

HoME 侧重于室内 3D环境下的图像研究，利⽤该平台进⾏多 agent 研究的学者较少.

4 Facebook AI 研究室提出⼀个⾯向 RTS游戏的⼴泛的、轻量级和灵活的多 Agent 强化学习平台 ELF.

C/C++ python 该平台主要为两⼈对战

关键问题及展望：

如何构建合适的模型能够更加准确的描述 MAS

总体样本数量依然有限，数据效率低

DRL 训练通常⾯临着对环境过拟合的问题，⽽ MADRL 则⾯临着对对⼿和环境的双重过拟合问题

1 多 agent 训练要素研究

对抗学习架构（alphazero）

将 DRL 策略和实证博弈论分析进⾏混合，计算策略选择的元策略

2 样本增强技术研究

增强⽣成对抗⽹络利⽤状态 - ⾏为与后继状态 - 奖赏之间的关系提⾼由 GAN ⽣成的样本的质量

将基于模型的和⽆模型的⽅法结合。

vobu在 DRL 研究中，⽆模型⽅法数据利⽤低效，仅仅使⽤了转移中的奖赏信号，忽视了样本的转移过程；基于模型的⽅法有较⾼的数据效率，但所获得的策略往往不是最优解.

3 鲁棒性研究

在 MAS 中，仿真环境同现实环境的差距巨⼤，这⼀困境导致在仿真环境中的策略学习的结果难以迁移；另外，即使策略的学习样本来⾃于现实环境，学习数据的不⾜也使得强化学习难以收敛。

堆芯

增加扰动以增加鲁棒性

迁移学习（⽬前没有针对不同agent进⾏迁移的解决⽅案）

针对agent会消失的场景场景，是将每个可能消失/产⽣的 agent单独建模，或者利⽤参数共享。（针对异步通信、较⼤规模也没有相应的解决⽅案）

4 对⼿建模研究

对对⼿策略进⾏推断

利⽤⽹络对对⼿策略进⾏学习

在上述学习算法中往往假设知晓对⼿的相关域知识，如可正确描述对⼿观测的属性和特征

Is multiagent deep reinforcement learning the answer or the question? A brief survey蜂窝不粘锅

AAMAS (International Conference on Autonomous Agents and Multiagent Systems)，属于CCF推荐

学术会议中⼈⼯智能B类的会议

参考内容：博⼠万字总结：

⾸先，本⽂提供了当前多主体深度强化学习(MDRL)⽂献的清晰概述。其次，它提供了补充这⼀新兴领域的指导⽅针，⽅法是(⼀)展⽰DRL 和多智能体学习的⽅法和算法如何帮助解决MDRL的问题，以及(⼆)提供从这些⼯作中吸取的⼀般经验教训。

深度强化学习(DRL)，其中深度神经⽹络被训练来逼近最优策略或价值函数，其中泛化的承诺预期由深度神经⽹络(作为函数逼近器)的表⽰能⼒来传递。

⽬前强化学习主要的⼏个分类：

Q学习

蒙特卡洛策略梯度

基于值函数的⽅法

策略梯度⽅法

对多智能体强化学习算法的分类⽅法，将 MARL 算法分为以下四类：

Analysis of emergent behaviors（⾏为分析）

将DRL算法应⽤与多智能体环境中

Learning communication（通信学习）

在MAL中没有充分探讨

Learning cooperation（协作学习）

历史悠久，多从MAL⽅法扩展到MDRL环境

Agents modeling agents（智能体建模）仓库管理流程

为agent建模不仅有助于合作，⽽且有助于为对⼿建模，推断隐藏⽬标，以及解释其他agent的学习⾏为。

emergent behaviors

⾏为分析类别的算法主要是将单智能体强化学习算法（SARL）直接应⽤到多智能体环境之中，每个智能体之间相互独⽴，遵循Independent Q-Learning 的算法思路

Multiagent cooperation and competition with deep reinforcement learning[53]

作者为了全⾯的观察将 DQN 应⽤到多智能体环境下的各⽅⾯表现，通过设计回报函数的⽅式设计了完全协作环境、完全竞争环境以及⾮完全协作/竞争环境。具体回报函数设计如下：

完全协作环境：⼀⽅失球，则两⽅均获得 -1 的回报

完全竞争环境：⼀⽅失球，该⽅获得 -1 的回报；对⽅获得 +1 的回报

⾮完全协作/竞争环境：⼀⽅失球，该⽅获得 -1 的回报；对⽅获得的回报

最终的实验结果表明，在完全协作环境中，智能体学到的策略是尽可能长时间的不失球；⽽在完全竞争环境中，智能体学到的是如何更好的得分（即让对⽅失球）。

从这个结果可以看出，在将 DQN 直接应⽤到多智能体环境中，也能够达到⼀个⽐较好的性能，即便 IQL 算法是⼀个⼗分简单的算法，没有办法处理环境⾮平稳问题，但是依旧是⼀个⽐较强的基准算法。

Multi-agent Reinforcement Learning in Sequential Social Dilemmas[54]

Emergent Complexity via Multi-Agent Competition[58]

Can Deep Reinforcement Learning solve Erdos-Selfridge-Spencer Games?[55]

水处理控制器

Multi-Agent Cooperation and the Emergence of (Natural) Language[56]

Emergence of grounded compositional language in multi-agent populations[57]

Learning communication

属于这⼀类别的多智能体强化学习⽅法显式假设智能体之间存在信息的交互，并在训练过程中学习如何根据⾃⾝的局部观察来⽣成信息，或者来确定是否需要通信、与哪些智能体通信等等。在训练完毕后运⾏的过程中，需要显式依据其余智能体传递的信息来进⾏决策。

本文发布于:2024-09-22 16:45:21，感谢您对本站的认可！

本文链接：https://www.17tex.com/tex/4/107700.html

上一篇：智能家居语音控制系统设计和实现计算机科学和技术专业

下一篇：智能手机操作系统介绍

标签：环境学习智能策略

留言与评论（共有 0 条评论）