并行化不完美信息博弈策略生成方法、装置、电子设备以及存储介质

(19)中华人民共和国国家知识产权局

	(12)发明专利说明书
		(10)申请公布号 CN 113779870 A (43)申请公布日 2021.12.10

(21)申请号 CN202110975035.7

(22)申请日 2021.08.24

(71)申请人清华大学

地址 100084 北京市海淀区清华园1号

(72)发明人刘启涵杨君梁斌芦维宁陈章

(74)专利代理机构 11201 北京清亦华知识产权代理事务所(普通合伙)

代理人吴婷

(51)Int.CI

G06F30/27(20200101)

G06K9/62(20060101)

权利要求说明书说明书幅图

(54)发明名称

并行化不完美信息博弈策略生成方法、装置、电子设备以及存储介质

(57)摘要

本申请属于机器学习技术领域，具体而言，涉及一种并行化不完美信息博弈策略生成方法、装置、电子设备以及存储介质。该方法包括：利用非完全回忆聚类方法，对不完美信息博弈的原始特征空间进行压缩，得到抽象特征空间；利用MCCFR最小化方法，在所述抽象特征空间内，通过自我博弈，迭代生成蓝图策略；利用特征字符串的哈希算法，对蓝图策略进行分布式存储和更新。该方法使用非完全回忆进行特征空间抽象，提升策略鲁棒性；在MCCFR算法的基础上使用整体期望收益替代后悔值进行间隔更新，使用采样动作频数生成最终策略，结合特征映射和并行框架，提高算法收敛速度，缩短算法训练时间。

法律状态