基于深度强化学习的自动协商智能体设计方法

(19)中华人民共和国国家知识产权局

	(12)发明专利说明书
		(10)申请公布号 CN 114139680 A (43)申请公布日 2022.03.04

(21)申请号 CN202111318748.2

(22)申请日 2021.11.09

(71)申请人天津大学

地址 300072 天津市南开区卫津路92号

(72)发明人林杰陈锶奇郝建业郑岩马亿

(74)专利代理机构 12201 天津市北洋有限责任专利代理事务所

代理人李素兰

(51)Int.CI

G06N3/04(20060101)

G06N3/08(20060101)

G06Q10/10(20120101)

权利要求说明书说明书幅图

(54)发明名称

基于深度强化学习的自动协商智能体设计方法

(57)摘要

本发明公开了一种基于深度强化学习的自动协商多智能体设计方法，首先，每个智能体使用强化学习算法独立地学习一个策略；其次，使用长短期记忆网络(LSTM，LongShort‑Term Memory)来学习SARSA(λ)中的Q函数，将难以处理的状态空间减少到可管理的特征数；最后，结合强化学习算法SARSA(λ)和神经网络LSTM来构建智能体代理，每个智能体代理各自学习，将学习到的对环境状态的观察结果映射到要采取的行动的策略上，通过在环境中与其他代理交互更新自己的策略，最终学习到一个适当的行为策略来进行自动协商。与现有技术相比，本发明构建的智能体代理能够在自动协商中进行更优的获胜联盟选择，从而提高自身在协商中获得的收益。

法律状态

法律状态公告日	法律状态信息	法律状态
2022-03-04	公开	发明专利申请公布
2022-03-22	实质审查的生效IPC(主分类):G06N 3/04专利申请号:2021113187482申请日:20211109	实质审查的生效