一种基于轨迹修正的在线强化语义学习方法与流程

1.本发明涉及语音识别技术领域，具体涉及一种基于轨迹修正的在线强化语义学习方法。

背景技术：

2.经过多年积累，市面上已经出现了诸如科大讯飞、阿里巴巴、腾讯、百度等语音识别引擎，普通话识别率均宣称在95％以上，在全国性的应用却未如人意。原因是其面对的客户来自五湖四海，具有不同的方言和语音语调，即使说的是普通话，也难免带有口音，使得机器难以识别和理解，人机交互进程推进受到障碍。为此，需要研究一套方法，基于历史统计和语音修正记录库进行分类在线强化学习，应对方言土语和不同发音习惯。

技术实现要素：

3.针对现有技术的不足，本发明提出一种基于轨迹修正的在线强化语义学习方法，能够实现基于用户发音习惯学习的轨迹修正。
4.本发明的技术方案是这样实现的：
5.一种基于轨迹修正的在线强化语义学习方法，包括以下步骤：获取用户的原始输入语音数据；在历史语音数据库中定义与原始输入语音数据距离最近的语义邻居，组成动态刷新的最近邻居数据集；基于最近邻居数据集的历史统计和语音修正记录库，通过强化学习方法对原始输入语音数据的轨迹进行修正，输出准确的语音识别结果。
6.进一步地实施方式，定义最近语义邻居时，还包括以下步骤：
7.定义距离函数d，根据距离函数d到n1个相似用户，提炼所述用户的公共干预策略；使用所述公共干预策略对所述用户进行干预，得到干预效果；比较所述干预效果的近似度，选取近似度最高的用户组成所述最近邻居数据集。
8.进一步地实施方式定义距离函数d时，采用动态时间扭曲算法以最小化配对状态的欧几里得距离之和的方式到两条迹线的时间点的最佳匹配。
9.与现有技术相比，本发明具有以下优点：
10.本发明通过动态定义最近语义邻居，实现最近邻居数据集动态刷新，从而高效、精准的个性化语义识别干预策略，能够按照地域进行准确的语音识别；
附图说明
11.为了更清楚地说明本发明实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
12.图1为本发明一种基于轨迹修正的在线强化语义学习方法的流程图；
具体实施方式
13.下面将结合本发明实施方式中的附图，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式仅仅是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。
14.在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”、“第四”等仅用于描述目的，而不能理解为指示或暗示相对重要性。
15.在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。
16.如图1所示，本发明实施方式公开了一种基于轨迹修正的在线强化语义学习方法，包括以下步骤:
17.s01.获取用户的原始输入语音数据；
18.s02.在历史语音数据库中定义与原始输入语音数据距离最近的语义邻居，组成动态刷新的最近邻居数据集；
19.s03.基于最近邻居数据集的历史统计和语音修正记录库，通过强化学习方法对原始输入语音数据的轨迹进行修正，输出准确的语音识别结果。
20.具体地实施方式，动态刷新最近的语义邻居，通过发现历史数据库中具备相同或相近发音习惯的历史记录，从而结合特定的识别技巧对新输入数据进行特定处理。定义最近邻居是根据距离函数d与使用公共策略干预后的效果e来判定的；s21.根据距离函数d到n1个比较相似的用户(n1个较近的邻居，且状况良好的邻居)收集的数据，提炼出其公共干预策略；s22.采用公共策略对该用户进行干预，获得干预效果；s23.根据干预效果的近似度到最相似的用户，组成其最近的邻居集。
21.最近邻居的定义可以使最近邻居数据集动态的刷新。因为当用户变化时，用户之间的距离会生变化，其次会使用最近邻居中的已存在的规则对当前用户进行干预，利用干预效果的差异剔除掉不太相关的用户，从而实现用户最近邻居的动态刷新。
22.使用动态时间扭曲(dtw)来定义距离函数d，以最小化配对状态的欧几里德距离之和的方式到两条迹线的时间点的最佳匹配，从而寻历史语音数据库中与最新输入数据语义最近的邻居。
23.具体地实施方式，为了寻历史语音数据库中与最新输入数据/语义最近的邻居，需要定义相应距离函数d来估计用户输入的相似性。本项目使用动态时间扭曲(dynamic time warping，dtw)来定义距离。dtw是一种测量两个时间序列距离的技术(可以将轨迹视为时间序列)。该技术计算它们之间的最佳匹配，并基于该最佳匹配计算距离。dtw不仅允许移位的轨迹，还考虑到不同轨迹之间可能存在不同的速度。要计算两条迹线的距离dtw(∑
u1,∑u2)，dtw算法以最小化配对状态的欧几里德距离之和的方式到两条迹线的时间点的最佳匹配，由于这些配对是有序的，所以配对带来了时间顺序需要保持(单调)的约束。因此，跟踪的第一个数据点必须匹配在一起，最后的数据点也是如此。
24.进一步地实施方式，通过强化学习方法对上述轨迹修正，从而形成更为准确的识别结果，并且，将识别能力封装到平台以供复用。
25.基于历史统计和语音修正记录库进行分类在线强化学习，将是应对方言土语和不同发音习惯的有效措施。采用在线刷新的强化学习方法来实现语义强化，实现基于用户发音习惯学习的轨迹修正，从而构造高效、精准的个性化语义识别干预策略。
26.本实施方式的方法可以生成高度个性化的策略。由于使用了该特定用户的最近邻居，因此保证它们与当前用户最相似(与基于集的方法相反)。
27.本发明的有益效果包括：
28.1、主流的语料库建立方式是采集样本加人工打标识，这种方式构建基础语料是必要的，但用于优化识别会导致语料库极度冗余和庞大。采用基于轨迹修正的在线强化语义学习能够在不大幅增加语料库规模的前提下大幅提升识别率。
29.2、采用强化学习算法在一定程度上具备解决复杂问题的通用智能，对于各种不同的方言可替换语料库，进行通用训练。
30.3、上述方法能够封装到平台中，为全国呼叫中心提供服务。
31.以上所述仅为本发明的较佳实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

技术特征：

1.一种基于轨迹修正的在线强化语义学习方法，其特征在于，包括以下步骤：获取用户的原始输入语音数据；在历史语音数据库中定义与原始输入语音数据距离最近的语义邻居，组成动态刷新的最近邻居数据集；基于最近邻居数据集的历史统计和语音修正记录库，通过强化学习方法对原始输入语音数据的轨迹进行修正，输出准确的语音识别结果。2.根据权利要求1所述的基于轨迹修正的在线强化语义学习方法，其特征在于，定义最近语义邻居时，还包括以下步骤：定义距离函数d，根据距离函数d到n1个相似用户，提炼所述用户的公共干预策略；使用所述公共干预策略对所述用户进行干预，得到干预效果；比较所述干预效果的近似度，选取近似度最高的用户组成所述最近邻居数据集。3.根据权利要求2所述的基于轨迹修正的在线强化语义学习方法，其特征在于，定义距离函数d时，采用动态时间扭曲算法以最小化配对状态的欧几里得距离之和的方式到两条迹线的时间点的最佳匹配。

技术总结

本发明提出了一种基于轨迹修正的在线强化语义学习方法，包括以下步骤：获取用户的原始输入语音数据；在历史语音数据库中定义与原始输入语音数据距离最近的语义邻居，组成动态刷新的最近邻居数据集；基于最近邻居数据集的历史统计和语音修正记录库，通过强化学习方法对原始输入语音数据的轨迹进行修正，输出准确的语音识别结果。本发明能够采用在线刷新的强化学习方法来实现语义强化，实现基于用户发音习惯学习的轨迹修正。习惯学习的轨迹修正。习惯学习的轨迹修正。