一种用于麻将的智能决策方法、系统、存储介质及设备与流程



1.本发明涉及麻将智能决策技术领域,特别涉及一种用于麻将的智能决策方法、系统、存储介质及设备。


背景技术:



2.非完备信息博弈是指任意一个参与方在做决策时不知道其他参与方的信息,即在非完备信息博弈过程中,任意一个参与方在做决策时均无法获取其他参与方的信息。麻将博弈属于非完备信息博弈,以麻将为例,在麻将游戏中,决策主要包括出牌决策、吃碰杠决策以及胡牌决策。
3.现有技术当中,麻将博弈具有巨大的隐藏信息,例如:对手的手牌、以及墙牌的牌等,由于缺乏对隐藏信息的考虑,使得对当前博弈局面判断不够准确而影响自身的出牌决策,导致玩家赢牌优势小或赢场得分低,博弈结果得分与玩家能获得的最佳得分相距甚远。


技术实现要素:



4.基于此,本发明的目的是提供一种用于麻将的智能决策方法、系统、存储介质及设备,用于解决现有技术中的出牌决策方案由于未考虑隐藏信息使得对当前博弈局面判断不准导致影响出牌决策的技术问题。
5.用于解决现有技术中的出牌决策方案
6.本发明一方面提供一种用于麻将的智能决策方法,所述方法包括:
7.获取麻将的历史场面信息,根据所述历史场面信息获取麻将的隐藏信息,所述隐藏信息包括竞争对手的手牌信息以及牌墙信息,根据所述历史场面信息结合搜索树算法获取麻将出牌的前瞻特征,所述前瞻特征为搜索树当前节点之后预设步长内的搜索扩展特征;
8.对所述历史场面信息、所述隐藏信息以及所述前瞻特征进行特征编码,获得特征编码后的历史特征矩阵,将所述历史特征矩阵输入至强化学习模型中进行训练,获得最佳出牌决策模型;
9.获取当前场面信息,并对所述当前场面信息进行特征编码,得到当前特征矩阵,将所述当前特征矩阵输入至所述最佳出牌决策模型中,获得麻将出牌决策结果,根据所述出牌决策结果决策出牌。
10.上述用于麻将的智能决策方法,通过获取麻将的隐藏信息,避免因对隐藏信息的判断不够准确而影响自身的出牌决策的情况,提高了麻将博弈过程中的博弈胜率及博弈最终得分,进一步的,结合获取麻将出牌的前瞻特征,通过对历史场面信息、隐藏信息以及前瞻特征进行特征编码得到历史特征矩阵,通过历史特征矩阵对强化学习模型中进行训练,获得最佳出牌决策模型,使得麻将博弈过程中的每次出牌决策为最佳出牌决策,当获取到当前场面信息时,结合最佳出牌决策模型,获得麻将出牌决策结果从而决策出牌,使得玩家最终获取到最佳得分,解决了现有技术中的出牌决策方案由于未考虑隐藏信息使得对当前
博弈局面判断不准导致影响出牌决策的技术问题。
11.另外,根据本发明上述的用于麻将的智能决策方法,还可以具有如下附加的技术特征:
12.进一步地,所述将所述历史特征矩阵输入至强化学习模型中进行训练,获得最佳出牌决策模型的步骤包括:
13.将所述历史特征矩阵输入强化学习模型,所述强化学习模型包括信息提取模块,所述信息提取模块提取并理解所述历史特征矩阵,并输出理解后的信息;
14.所述强化学习模型获取所述理解后的信息,而后配置训练策略并进行分层训练;
15.根据训练结果获得模型训练的策略熵项和散度项;
16.根据所述策略熵项和所述散度项动态调节并优化所述获得强化学习模型以获得最佳出牌决策模型。
17.进一步地,所述策略熵项的动态调节公式为:
18.γ

γ+c1(ent
targ-ent
θ
)
19.其中γ是策略熵在目标函数中的权重系数,ent
targ
是策略熵的目标值,ent
θ
是当前的策略熵值,c1是动态调节策略熵的系数。
20.进一步地,所述散度项的动态调节公式为:
21.δ

δ+c2(kl
targ-kl
θ
)
22.其中δ是散度在目标函数中的权重系数,kl
targ
是散度的目标值,kl
θ
是当前的散度值,c2是动态调节散度的系数。
23.进一步地,在所述根据所述策略熵项和所述散度项调节并优化所述获得强化学习模型以获得最佳出牌决策模型的步骤中,优化函数为:
24.j(θ)=αlc+βlv+γent
θ
+δkl
θ
25.其中αlc是actor网络的损失函数,α是该损失函数的相关系数,βlv是critic网络的损失函数,β是该损失函数的相关系数,γent
θ
是当前更新对局轨迹的策略熵,γ为策略熵的相关系数,δkl
θ
为当前更新对局轨迹的散度项,δ为散度项的相关系数。
26.进一步地,所述将所述历史特征矩阵输入至强化学习模型中进行模型训练,获得最佳出牌决策模型的步骤包括:
27.通过actor网络及critic网络分别结合历史特征进行矩阵计算得到actor网络的损失函数以及critic网络的损失函数;
28.根据所述actor网络的损失函数以及所述critic网络的损失函数获得所述actor网络的损失值以及所述critic网络的损失值,所述actor网络的损失值包括每张牌的出牌概率,所述critic网络的损失值包括当前牌面下的得分预测值;
29.结合所述actor网络的损失值、所述critic网络的损失值、当前更新对局轨迹的策略熵值以及当前更新对局轨迹的散度项值对所述强化学习模型进行收敛值计算;
30.根据计算得到的收敛值,获得最佳出牌决策模型。
31.本发明另一方面提供一种用于麻将的智能决策系统,所述系统包括:
32.获取模块,用于获取麻将的历史场面信息,根据所述历史场面信息获取麻将的隐藏信息,所述隐藏信息包括竞争对手的手牌信息以及牌墙信息,根据所述历史场面信息结合搜索树算法获取麻将出牌的前瞻特征;
33.训练模块,用于对所述历史场面信息、所述隐藏信息以及所述前瞻特征进行特征编码,获得特征编码后的历史特征矩阵,将所述历史特征矩阵输入至强化学习模型中进行训练,获得最佳出牌决策模型;
34.决策模块,用于获取当前场面信息,并对所述当前场面信息进行特征编码,得到当前特征矩阵,将所述当前特征矩阵输入至所述最佳出牌决策模型中,获得麻将出牌决策结果,根据所述出牌决策结果决策出牌。
35.上述用于麻将的智能决策系统,通过获取麻将的隐藏信息,避免因对隐藏信息的判断不够准确而影响自身的出牌决策的情况,提高了麻将博弈过程中的博弈胜率及博弈最终得分,进一步的,结合获取麻将出牌的前瞻特征,通过对历史场面信息、隐藏信息以及前瞻特征进行特征编码得到历史特征矩阵,通过历史特征矩阵对强化学习模型中进行训练,获得最佳出牌决策模型,使得麻将博弈过程中的每次出牌决策为最佳出牌决策,当获取到当前场面信息时,结合最佳出牌决策模型,获得麻将出牌决策结果从而决策出牌,使得玩家最终获取到最佳得分,解决了现有技术中的出牌决策方案由于未考虑隐藏信息使得对当前博弈局面判断不准导致影响出牌决策的技术问题。
36.本发明另一方面提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述的用于麻将的智能决策方法。
37.本发明另一方面还提供一种数据处理设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述的用于麻将的智能决策方法。
附图说明
38.图1为本发明第一实施例中用于麻将的智能决策方法的步骤流程图;
39.图2为本发明第二实施例中用于麻将的智能决策方法的步骤流程图;
40.图3为本发明第二实施例中步骤s202的步骤流程图;
41.图4为本发明第二实施例中私有手牌示意图;
42.图5为本发明第二实施例中私有手牌编码图;
43.图6为本发明第二实施例中dummy编码的编码示意图;
44.图7为标准ppo算法用于实现中国四人麻将的收敛情况;
45.图8为本技术中的ppo算法用于实现中国四人麻将的收敛情况;
46.图9为本发明第三实施例中用于麻将的智能决策方法的系统框图。
47.如下具体实施方式将结合上述附图进一步说明本发明。
具体实施方式
48.为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的若干实施例。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容更加透彻全面。
49.除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相
关的所列项目的任意的和所有的组合。
50.对决策模型中涉及的数据进行数据处理是构建决策模型的前提,以麻将为例,麻将决策模型是先在当前麻将游戏中获取一些数据信息(包括手牌、副露、对手的副露、弃牌、庄家位置等),通过对这些数据信息进行一定的处理,进行合理的决策动作,从而追求在麻将游戏中赢取更多的分数。
51.非完备信息博弈是指任意一个参与方在做决策时不知道其他参与方的信息,即在非完备信息博弈过程中,任意一个参与方在做决策时均无法获取其他参与方的信息。
52.ppo算法是一种基于策略的强化学习算法,在强化学习中有两个主要的组成部分,智能体和环境,智能体是指采用强化学习进行学习的事物本身,可以通过学习而自动获得有价值信息的模型,环境是指智能体所依赖并活动、交互的世界。在每一次智能体与环境交互的过程中,智能体会观察当前时刻自身在环境中所呈现的状态,或者部分状态,并以此为依据来决定自身在当前时刻所应采取的行为。同时,在每一次智能体与环境交互的过程中,智能体会从环境中接受到一个反馈信息,该反馈信息会告诉智能体,当前时刻其在环境的状态表现是有多好或者多糟糕。智能体的学习目标是为了获得最大的累计奖励。
53.强化学习就是一种在智能体与环境不断的信息交互中使得智能体学习如何采取行为来达到它目标的一种方法。
54.本技术中的用于麻将的智能决策方法,通过获取历史场面信息、隐藏信息以及前瞻特征建立最佳出牌决策模型,解决了麻将这类非完备信息博弈中信息缺失、信息集巨大、多人决策下的不确定性等导致的问题。具体地,本技术中的用于麻将的智能决策方法,不仅加入了基本特征,而且加入了隐藏信息、前瞻特征,通过加入隐藏信息和前瞻特征可以使得模型更快更高效地收敛,从而根据收敛结果进行决策出牌。进一步地,本技术中智能决策方法对上述特征进行分类,对不同类别的特征采用不同的特征编码,能够使得各个特征的信息被模型充分获取,保证了信息的正确性,采用了分层强化学习策略来解决模型在训练前期正样本难以获取和正样本数少的问题,从而使得强化学习有足够的正样本数来驱动模型的更新提高,保证了最佳决策模型的出牌决策结果。
55.实施例一
56.请参阅图1,所示为本发明第一实施例中的用于麻将的智能决策方法,所述方法包括步骤s101至步骤s103:
57.s101、获取麻将的历史场面信息,根据历史场面信息获取麻将的隐藏信息,隐藏信息包括竞争对手的手牌信息以及牌墙信息,根据历史场面信息结合搜索树算法获取麻将出牌的前瞻特征。
58.在上述步骤中,通过获取人类视角下麻将的可见信息,包括已放手牌、弃牌以及庄家等等;再利用搜索树搜索出牌后的后面三手内可能的情况,从而给出具有一定前瞻性的特征信息,从而获取麻将出牌的前瞻特征,前瞻特征为搜索树当前节点之后预设步长内的搜索扩展特征,例如将搜索树搜索出牌后的后面三手内可能的出牌和摸牌情况作为前瞻特征;之后,获取麻将的隐藏信息,隐藏信息包括竞争对手的手牌信息以及牌墙信息,在训练的前期也加入了隐藏信息。
59.在进行特征编码前,对于上述信息进行分类,并采用具有创造性的特征编码方式,最终获得三维的特征矩阵,矩阵由0和1组成。
60.s102、对历史场面信息、隐藏信息以及前瞻特征进行特征编码,获得特征编码后的历史特征矩阵,将历史特征矩阵输入至强化学习模型中进行训练,获得最佳出牌决策模型。
61.在本方法中,加入了隐藏信息,包括对手的手牌、牌墙中的牌,便于了解对手及牌墙中的牌,使得模型更快更高效地收敛,提高赢牌概率。结合搜索树算法加入了前瞻特征搜索部分,前瞻特征主要包括通过搜索树获得的推荐出牌结果,包括推荐出牌动作的牌型及番型。
62.采用了分层强化学习策略来解决模型在训练前期正样本难以获取和正样本数少的问题,从而使得强化学习有足够的正样本数来驱动模型的更新提高,利于目标函数获得更好的收敛效果,便于模型决策,达到效果比较好的打牌模型。作为一个具体示例,正样本数可以理解为模型决策后的出牌赢的局数,采用了分层强化学习策略,通过不断更新模型,获取足够多的正样本数,从而使得模型决策更加符合需求,达到效果比较好的打牌模型。
63.通过加入基本特征,通过将场面信息进行编码,同时,加入隐藏信息、前瞻特征,通过加入隐藏信息和前瞻特征可以使得模型更快更高效地收敛,在训练后期再逐步剔除加入的隐藏信息。并且对上述特征进行分类,对不同类别的特征采用不同的特征编码,能够使得各个特征的信息被模型充分获取,保证了信息的正确性。采用了分层强化学习策略来解决模型在训练前期正样本难以获取和正样本数少的问题,从而使得强化学习有足够的正样本数来驱动模型的更新提高,更重要的是达到效果比较好的打牌模型,从而解决了麻将这类非完备信息博弈中信息缺失、信息集巨大、多人决策下的不确定性等导致的问题。
64.s103、获取当前场面信息并对当前场面信息进行特征编码,得到当前特征矩阵,将当前特征矩阵输入至最佳出牌决策模型中,获得麻将出牌决策结果,根据出牌决策结果决策出牌。
65.综上,本发明上述实施例当中的用于麻将的智能决策方法,通过获取麻将的隐藏信息,避免因对隐藏信息的判断不够准确而影响自身的出牌决策的情况,提高了麻将博弈过程中的博弈胜率及博弈最终得分,进一步的,结合获取麻将出牌的前瞻特征,通过对历史场面信息、隐藏信息以及前瞻特征进行特征编码得到历史特征矩阵,通过历史特征矩阵对强化学习模型中进行训练,获得最佳出牌决策模型,使得麻将博弈过程中的每次出牌决策为最佳出牌决策,当获取到当前场面信息时,结合最佳出牌决策模型,获得麻将出牌决策结果从而决策出牌,使得玩家最终获取到最佳得分,解决了现有技术中的出牌决策方案由于未考虑隐藏信息使得对当前博弈局面判断不准导致影响出牌决策的技术问题。
66.实施例二
67.请查阅图2,所示为本发明第二实施例中的用于麻将的智能决策方法,所述方法包括步骤s201至步骤s203:
68.s201、获取麻将的历史场面信息,根据历史场面信息获取麻将的隐藏信息,隐藏信息包括竞争对手的手牌信息以及牌墙信息,根据历史场面信息结合搜索树算法获取麻将出牌的前瞻特征。
69.以中国四人麻将为例,具体来说,首先对中国四人麻将这类非完备信息机器博弈游戏中的场面信息进行分类,主要分为牌集特征,顺序特征,整数特征以及前瞻特征,对不同部分的特征采取不同的编码格式。
70.具体的,牌集特征、顺序特征、前瞻特征中的出牌动作采用矩阵编码,编码格式具
体为:w代表是万,s代表条,t代表筒,d、n、x、b、z、f、ba分别代表东、南、西、北、中、发、白。以图4中的私有手牌为例,对图4中的私有手牌进行编码,编码后的结果如图5所示,由图4可得,私有手牌中,有1张“二万”,2张“四万”,故在图5中,“2w”下方第一行为“1”,“4w”下方第一行及第二行均为“1”,从而代表“2w”有1张,“4w”有2张。
71.s202、对历史场面信息、隐藏信息以及前瞻特征进行特征编码,获得特征编码后的历史特征矩阵,将历史特征矩阵输入至强化学习模型中进行训练,获得最佳出牌决策模型。
72.进一步的,整数特征、前瞻特征中牌型和番型的编码格式采用的是dummy编码,特点是可以全部置为0,在表示具体特征时只能整行置为1。例如,在表示某张特定牌的个数为4时,其编码后的特征如图6所示。
73.通过将场面信息进行编码,便于模型能够更好的识别出场面信息,从而,应用到强化学习模型中进行训练。并且对上述特征进行分类,对不同类别的特征采用不同的特征编码,能够使得各个特征的信息被模型充分获取,保证了信息的正确性。
74.作为一个具体示例,如图3所示,步骤s202还可以包括步骤s2021至步骤s2024:
75.s2021、将历史特征矩阵输入强化学习模型,强化学习模型包括信息提取模块,信息提取模块提取并理解历史特征矩阵,并输出理解后的信息。
76.将编码后的特征矩阵输入强化学习模型中的深度学习提取信息模块,该模块负责提取并理解输入的特征矩阵中不同位置的0和1代表的含义,使得该含义能够被强化学习模型充分获取,进而影响最终的决策效果。
77.s2022、所述强化学习模型获取所述理解后的信息,而后配置训练策略并进行分层训练。
78.采用分层强化学习策略,根据训练的进展调整对手难度,解决模型在训练前期正样本难以获取和正样本数少的问题,使得强化学习有足够的正样本数来驱动模型的更新提高。
79.具体的,将训练的对手,从三个随机出牌模型、两个随机出牌模型加一个简单规则出牌模型、以及最后到三个人类平均水平的出牌模型。具体来说,分层强化学习策略指的是将对手的难度进行分层,三个随机出牌模型为难度系数最低的出牌模式,两个随机出牌模型加一个简单规则出牌模型为难度系数相对高一点的出牌模式,三个人类平均水平的出牌模型为难度系数最高的出牌模式。这一分层强化学习策略通过实验证明,能够使强化学习算法有效地收敛到一个较好的水平。
80.s2023、根据训练结果获得模型训练的策略熵项和散度项。
81.优化函数是本方法提出的一个新的近似策略优化算法的目标函数,结合了actor网络与critic网络的损失函数,可以同时更新这两个网络,并动态调节策略熵(entpolicy)和approxkl散度,实验表明可以使模型更快、性能更优地达到收敛。
82.具体的,根据场面信息分别获得模型中目标函数的当前更新对局轨迹的策略熵、以及当前更新对局轨迹的散度项,当前更新对局轨迹的策略熵包括当前策略熵值,当前更新对局轨迹的散度项包括当前散度值,分别调节当前策略熵值以及当前散度值,使得当前策略熵值收敛于目标策略熵值、当前散度值收敛于目标散度值。
83.s2024、根据策略熵项和散度项动态调节并优化获得强化学习模型以获得最佳出牌决策模型。
84.在目标函数中加入策略熵项,加入该项让ppo算法模型在训练中能平衡探索和利用的选择问题。其次,在目标函数中加入approxkl散度项,加入该项不会因为approxkl散度项的值越来越大,导致模型性能逐渐发散。最后,设定策略熵的目标值以及approxkl散度项的目标值,即目标策略熵值与目标散度值,在训练过程中可以动态调节两个新加项的参数,从而策略熵项及approxkl散度项实现动态的收敛到各自的目标值。
85.具体的,策略熵项的动态调节公式为:
86.γ

γ+c1(ent
targ-ent
θ
)
87.其中γ是策略熵在目标函数中的权重系数,通常初始值为0.01,ent
targ
是策略熵的目标值,ent
θ
是当前的策略熵值,c1是动态调节策略熵的系数,通常是一个很小的正数。
88.上述公式对策略熵(entpolicy)项进行动态调节,使得该项在训练的过程中能够动态地接近目标策略熵值。加入该项让ppo算法模型在训练中能平衡探索(exploration)和利用(exploitation)的选择问题。
89.策略熵(entpolicy)反应的是决策模型出哪张牌的确定性,策略熵越小,其出某张牌的确定性越大,越利于模型的收敛。approxkl散度项反应了两次更新的差异幅度,在训练的过程中通过增加的对散度项的动态调整,从而控制更新的差异,使得更新朝着合理的速度前进,对于收敛的模型,其两次更新的差异幅度应该接近于0。这两项是对于标准ppo算法的优化。
90.进一步的,散度项的动态调节公式为:
91.δ

δ+c2(kl
targ-kl
θ
)
92.其中δ是散度在目标函数中的权重系数,通常初始值为0.005,kl
targ
是散度的目标值,kl
θ
是当前的散度值,c2是动态调节散度的系数,通常是一个很小的正数。
93.上述公式对approxkl散度项进行动态调节,使得该项在训练的过程中能够动态地接近目标散度值。approxkl散度的调节能够控制模型前后两次更新的差异幅度。本技术中,通过在训练过程中,动态调整系数的值,让模型往目标方向优化。
94.散度项表示了决策模型两次之间更新的差异,比如从决策能力很差慢慢变到很强的过程,该过程从宏观上看一定迭代更新的,且朝着更好的方向上更新。所以散度项可以表示为前后两次决策能力的差异值。散度项因为表示两次更新之间的差异,所以并没有初始值。
95.具体的,优化函数为:
96.j(θ)=αlc+βlv+γent
θ
+δkl
θ
97.其中αlc是actor网络的损失函数,α是该损失函数的相关系数,通常为1,βlv是critic网络的损失函数,β是该损失函数的相关系数,通常设置为0.5,γent
θ
是当前更新对局轨迹的策略熵,γ为策略熵的相关系数,取一个很小的正数,δkl
θ
为当前更新对局轨迹的散度项,δ为散度项的相关系数,该系数也取一个很小的正数。
98.通过actor网络及critic网络分别结合历史特征进行矩阵计算得到actor网络的损失函数以及critic网络的损失函数;根据所述actor网络的损失函数以及所述critic网络的损失函数获得所述actor网络的损失值以及所述critic网络的损失值,所述actor网络的损失值包括每张牌的出牌概率,所述critic网络的损失值包括当前牌面下的得分预测值;结合所述actor网络的损失值、所述critic网络的损失值、、当前更新对局轨迹的策略熵
值以及当前更新对局轨迹的散度项值对所述强化学习模型进行收敛值计算;根据计算得到的收敛值,获得最佳出牌决策模型。
99.在特征编码的过程中加入的前瞻特征及隐藏信息,能够使得信息的获取更加充分,不仅包括了牌墙和对手手牌等隐藏信息,而且还包括了未来可能的信息,从而减少了不确定性,体现在改进后的ppo算法中的目标函数中,就是减少了γent
θ
中的ent
θ
,即减少了当前局面下的策略熵。ent
θ
的减少意味着该等式更接近于0,从而减少了训练的时间,能够减少模型的训练时间,使得模型更加快速的收敛。表现在决策系统中能使系统的模型的训练时间缩短,在对局中决策越合理,平均得分越高。
100.本技术中的模型在每一次训练中,得到的当前策略熵值及当前散度值分都是不一样的,设定目标策略熵值及目标散度值,通过调节γ和δ,经过不断的优化迭代,获得满足使用要求的γ和δ,从而调节当前策略熵值及当前散度值,使得当前策略熵值及当前散度值分别收敛于目标策略熵值及目标散度值,从而将收敛后的当前策略熵值、当前散度值以及对应的γ和δ,应用于优化函数中,得到此时目标函数的收敛值。
101.以调节当前策略熵为例,如果当前策略熵值偏大与目标策略熵值,减小γ,使得优化函数中的当前策略熵值收敛到目标策略熵值,得到当前策略熵值符合收敛到目标策略熵值的γ,并将此时的当前策略熵值与γ应用到优化函数中,得到目标函数的收敛值,以使收敛值接近预设阈值。调节当前散度值的原理相同,可参照此处进行理解。
102.如果γ比较大,说明策略熵也就越重要,所以在优化时,需要增加策略熵的模型输出的权重。
103.如果策略熵值比较大,说明此时模型中对每张牌的出牌概率可以理解为一样,导致模型不确定要出哪张牌,此时的模型就不是很好,不利于模型出牌决策。如果策略熵值比较大,就去减小γ,使得下次优化的时候,模型输出的策略熵值才会变小,然后慢慢变小,从而使得策略熵值能达到目标策略熵值。设定目标策略熵值,是为了保存模型每次迭代输出的策略熵值与目标策略熵值大体差不多,从而便于模型决策出牌方式。
104.同理,加入散度项是为了保证后面的更新和前面的更新,更新幅度不要太大,如果幅度太大,说明打牌风格相差很大,此时,不利于出牌,加入散度项,为了保证后一次打牌与前一次打牌的风格、出法一致,利于模型出牌决策。在本技术中,模型的打牌规则需要由散度项和策略熵来进行驱动,进而由目标函数进行出牌决策。
105.s203、获取当前场面信息并对当前场面信息进行特征编码,得到当前特征矩阵,将当前特征矩阵输入至最佳出牌决策模型中,获得麻将出牌决策结果,根据出牌决策结果决策出牌。
106.前期根据模型训练得到最佳出牌决策模型,当在进行麻将博弈需要进行出牌决策时,最佳出牌决策模型获取当前博弈状态下的当前场面信息,根据当前场面信息进行特征编码得到当前特征矩阵,而后将当前特征矩阵输入至最佳出牌决策模型中,最佳出牌决策模型进行提取和识别当前特征矩阵,而后得出最佳的麻将出牌决策结果。
107.如图7和图8可得,本方法得到的最佳出牌决策模型能更快收敛,且收敛后达到的性能更高,相比于标准的ppo算法、标准的基本特征信息,由于本方案存在前瞻特征,并且在前期加入了隐藏信息,以及使用了新的优化函数的缘故。通过在采用相同超参的情况下,本发明方法对比标准的ppo算法实现四人麻将非完备信息博弈决策模型实验,实验结果如下
图所示,ep_reward_mean表示每个batch_size中每局游戏的平均reward,是直接衡量算法性能的标准,图7为标准的ppo算法,图8为使用本方法后的ppo算法。通过实验结果表明了本方法能更快地收敛,且收敛后达到的性能更高,故本技术中的用于麻将的智能决策方法能够更好的决策出牌,解决了现有技术中的出牌决策方案由于未考虑隐藏信息使得对当前博弈局面判断不准导致影响出牌决策的技术问题。
108.综上,本发明上述实施例当中的用于麻将的智能决策方法,通过获取麻将的隐藏信息,避免因对隐藏信息的判断不够准确而影响自身的出牌决策的情况,提高了麻将博弈过程中的博弈胜率及博弈最终得分,进一步的,结合获取麻将出牌的前瞻特征,通过对历史场面信息、隐藏信息以及前瞻特征进行特征编码得到历史特征矩阵,通过历史特征矩阵对强化学习模型中进行训练,获得最佳出牌决策模型,使得麻将博弈过程中的每次出牌决策为最佳出牌决策,当获取到当前场面信息时,结合最佳出牌决策模型,获得麻将出牌决策结果从而决策出牌,使得玩家最终获取到最佳得分,解决了现有技术中的出牌决策方案由于未考虑隐藏信息使得对当前博弈局面判断不准导致影响出牌决策的技术问题。
109.实施例三
110.请参阅图9,所示为本发明第三实施例中的用于麻将的智能决策系统,所述系统包括
111.获取模块,用于获取麻将的历史场面信息,根据所述历史场面信息获取麻将的隐藏信息,所述隐藏信息包括竞争对手的手牌信息以及牌墙信息,根据所述历史场面信息结合搜索树算法获取麻将出牌的前瞻特征,所述前瞻特征为搜索树当前节点之后预设步长内的搜索扩展特征;
112.训练模块,用于对所述历史场面信息、所述隐藏信息以及所述前瞻特征进行特征编码,获得特征编码后的历史特征矩阵,将所述历史特征矩阵输入至强化学习模型中进行训练,获得最佳出牌决策模型;
113.决策模块,用于获取当前场面信息,并对所述当前场面信息进行特征编码,得到当前特征矩阵,将所述当前特征矩阵输入至所述最佳出牌决策模型中,获得麻将出牌决策结果,根据所述出牌决策结果决策出牌。
114.综上,本发明上述实施例当中的用于麻将的智能决策系统,通过获取麻将的隐藏信息,避免因对隐藏信息的判断不够准确而影响自身的出牌决策的情况,提高了麻将博弈过程中的博弈胜率及博弈最终得分,进一步的,结合获取麻将出牌的前瞻特征,通过对历史场面信息、隐藏信息以及前瞻特征进行特征编码得到历史特征矩阵,通过历史特征矩阵对强化学习模型中进行训练,获得最佳出牌决策模型,使得麻将博弈过程中的每次出牌决策为最佳出牌决策,当获取到当前场面信息时,结合最佳出牌决策模型,获得麻将出牌决策结果从而决策出牌,使得玩家最终获取到最佳得分,解决了现有技术中的出牌决策方案由于未考虑隐藏信息使得对当前博弈局面判断不准导致影响出牌决策的技术问题。
115.此外,本发明的实施例还提出一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述实施例中方法的步骤。
116.此外,本发明的实施例还提出一种数据处理设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现上述实施例中方法的步骤。
117.在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
118.计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(ram),只读存储器(rom),可擦除可编辑只读存储器(eprom或闪速存储器),光纤装置,以及便携式光盘只读存储器(cdrom)。另外,计算机可读介质甚至可以是可在其上打印程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序,然后将其存储在计算机存储器中。
119.应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(pga),现场可编程门阵列(fpga)等。
120.在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
121.尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。

技术特征:


1.一种用于麻将的智能决策方法,其特征在于,所述方法包括:获取麻将的历史场面信息,根据所述历史场面信息获取麻将的隐藏信息,所述隐藏信息包括竞争对手的手牌信息以及牌墙信息,根据所述历史场面信息结合搜索树算法获取麻将出牌的前瞻特征,所述前瞻特征为搜索树当前节点之后预设步长内的搜索扩展特征;对所述历史场面信息、所述隐藏信息以及所述前瞻特征进行特征编码,获得特征编码后的历史特征矩阵,将所述历史特征矩阵输入至强化学习模型中进行训练,获得最佳出牌决策模型;获取当前场面信息并对所述当前场面信息进行特征编码,得到当前特征矩阵,将所述当前特征矩阵输入至所述最佳出牌决策模型中,获得麻将出牌决策结果,根据所述出牌决策结果决策出牌。2.根据权利要求1所述的用于麻将的智能决策方法,其特征在于,所述将所述历史特征矩阵输入至强化学习模型中进行训练,获得最佳出牌决策模型的步骤包括:将所述历史特征矩阵输入强化学习模型,所述强化学习模型包括信息提取模块,所述信息提取模块提取并理解所述历史特征矩阵,并输出理解后的信息;所述强化学习模型获取所述理解后的信息,而后配置训练策略并进行分层训练;根据训练结果获得模型训练的策略熵项和散度项;根据所述策略熵项和所述散度项动态调节并优化所述获得强化学习模型以获得最佳出牌决策模型。3.根据权利要求2所述的用于麻将的智能决策方法,其特征在于,所述策略熵项的动态调节公式为:γ

γ+c1(ent
targ-ent
θ
)其中γ是策略熵在目标函数中的权重系数,ent
targ
是策略熵的目标值,ent
θ
是当前的策略熵值,c1是动态调节策略熵的系数。4.根据权利要求3所述的用于麻将的智能决策方法,其特征在于,所述散度项的动态调节公式为:δ

δ+c2(kl
targ-kl
θ
)其中δ是散度在目标函数中的权重系数,kl
targ
是散度的目标值,kl
θ
是当前的散度值,c2是动态调节散度的系数。5.根据权利要求4所述的用于麻将的智能决策方法,其特征在于,在所述根据所述策略熵项和所述散度项调节并优化所述获得强化学习模型以获得最佳出牌决策模型的步骤中,优化函数为:j(θ)=αl
c
+βlv+γent
θ
+δkl
θ
其中αl
c
是actor网络的损失函数,α是该损失函数的相关系数,βlv是critic网络的损失函数,β是该损失函数的相关系数,γent
θ
是当前更新对局轨迹的策略熵,γ为策略熵的相关系数,δkl
θ
为当前更新对局轨迹的散度项,δ为散度项的相关系数。6.根据权利要求1所述的用于麻将的智能决策方法,其特征在于,所述将所述历史特征矩阵输入至强化学习模型中进行模型训练,获得最佳出牌决策模型的步骤包括:通过actor网络及critic网络分别结合历史特征进行矩阵计算得到actor网络的损失函数以及critic网络的损失函数;
根据所述actor网络的损失函数以及所述critic网络的损失函数获得所述actor网络的损失值以及所述critic网络的损失值,所述actor网络的损失值包括每张牌的出牌概率,所述critic网络的损失值包括当前牌面下的得分预测值;结合所述actor网络的损失值、所述critic网络的损失值、当前更新对局轨迹的策略熵值以及当前更新对局轨迹的散度项值对所述强化学习模型进行收敛值计算;根据计算得到的收敛值,获得最佳出牌决策模型。7.一种用于麻将的智能决策系统,其特征在于,所述系统包括获取模块,用于获取麻将的历史场面信息,根据所述历史场面信息获取麻将的隐藏信息,所述隐藏信息包括竞争对手的手牌信息以及牌墙信息,根据所述历史场面信息结合搜索树算法获取麻将出牌的前瞻特征,所述前瞻特征为搜索树当前节点之后预设步长内的搜索扩展特征;训练模块,用于对所述历史场面信息、所述隐藏信息以及所述前瞻特征进行特征编码,获得特征编码后的历史特征矩阵,将所述历史特征矩阵输入至强化学习模型中进行训练,获得最佳出牌决策模型;决策模块,用于获取当前场面信息,并对所述当前场面信息进行特征编码,得到当前特征矩阵,将所述当前特征矩阵输入至所述最佳出牌决策模型中,获得麻将出牌决策结果,根据所述出牌决策结果决策出牌。8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6任一所述的用于麻将的智能决策方法。9.一种数据处理设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-6任一所述的用于麻将的智能决策方法。

技术总结


本发明提供一种用于麻将的智能决策方法、系统、存储介质及设备,方法包括:获取麻将的历史场面信息,根据历史场面信息获取麻将的隐藏信息,根据历史场面信息获取麻将出牌的前瞻特征;而后进行特征编码获得历史特征矩阵,将历史特征矩阵输入强化学习模型中进行训练,获得最佳出牌决策模型;获取当前场面信息,并对当前场面信息进行特征编码得到当前特征矩阵,将当前特征矩阵输入至最佳出牌决策模型中,获得麻将出牌决策结果,根据出牌决策结果决策出牌。上述用于麻将的智能决策方法、系统、存储介质及设备,结合最佳出牌决策模型,获得麻将出牌决策结果从而决策出牌,解决了现有技术中对当前局面判断不够准确而影响自身的出牌决策的技术问题。的技术问题。的技术问题。


技术研发人员:

王嘉旸 曾旺 李一华 修文超 黄伟 熊唤亮 王命延

受保护的技术使用者:

江西中至科技有限公司

技术研发日:

2021.12.31

技术公布日:

2023/2/23

本文发布于:2024-09-21 04:30:47,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/59530.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:所述   特征   出牌   模型
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议