语音中关键词的检测方法和存储介质与流程



1.本技术涉及计算机领域,具体而言,涉及一种语音中关键词的检测方法和存储介质。


背景技术:



2.目前,关键词检测可以用于在给定的话语中检测预先确定的单词,比如,提前设定通过对手机发出命令,比如,“你好”时可以激活手机,则当在话语中检测到“你好”时,可以激活手机。
3.在相关技术中,是通过语音交互应用功能完成对给定话语中的单词进行检索,但是,上述方法依赖于干净或近距离交谈的音频集,在噪声环境下,精度下降,容易被错误激活,存在对关键词进行检测的鲁棒性低的技术问题。
4.针对上述的问题,目前尚未提出有效的解决方案。


技术实现要素:



5.本技术实施例提供了一种语音中关键词的检测方法和存储介质,以至少解决对关键词进行检测的鲁棒性低的技术问题。
6.根据本技术实施例的一个方面,提供了一种语音中关键词的检测方法和存储介质。该方法可以包括:采集监测到的待检测语音,其中,待检测语音中包含了需要检测的至少一目标关键词;调用关键词预测模型,其中,关键词预测模型为基于多个第一噪声增强样本之间的交叉熵损失进行监督学习,以及基于多个第二噪声增强样本之间的对比损失进行对比学习而训练生成,多个第一噪声增强样本为对第一语音样本进行混合数据增强而得到,不同第二噪声增强样本分别为对相同类型的多个第二语音样本进行混合数据增强而得到;使用关键词预测模型从待检测语音中提取出噪声增强特征;从待检测语音中去除噪声增强特征,以识别出目标关键词。
7.根据本技术实施例的另一个方面,提供了一种模型的确定方法。该方法可以包括:获取第一语音样本和多个第二语音样本,其中,多个第二语音样本的类型相同;对第一语音样本进行混合数据增强,得到多个第一噪声增强样本,且分别对相同类型的第二语音样本进行混合数据增强,得到多个第二噪声增强样本;确定多个第一噪声增强样本之间的交叉熵损失,以及确定多个第二噪声增强样本之间的对比损失;基于交叉熵损失对第一语音样本进行自监督学习,且基于对比损失对多个第二语音样本进行对比学习,得到关键词预测模型,其中,关键词预测模型用于从待检测语音中提取出噪声增强特征,以识别出待检测语音中的目标关键词。
8.根据本技术实施例的另一个方面,提供了另一种语音中关键词的检测方法和存储介质。该方法可以包括:采集向客户端发送的待检测语音,其中,待检测语音中包含了需要检测的至少一目标关键词;使用关键词预测模型从待检测语音中提取出噪声增强特征,其中,关键词预测模型为基于多个第一噪声增强样本之间的交叉熵损失进行监督学习,以及
基于多个第二噪声增强样本之间的对比损失进行对比学习而训练生成,多个第一噪声增强样本为对第一语音样本进行混合数据增强而得到,不同第二噪声增强样本分别为对相同类型的多个第二语音样本进行混合数据增强而得到;从待检测语音中去除噪声增强特征,以识别出目标关键词;基于目标关键词激活客户端。
9.根据本技术实施例的另一个方面,提供了一种语音生成方法。该方法可以包括:采集监测到的待检测语音,其中,待检测语音中包含了需要检测的至少一目标关键词;使用关键词预测模型从待检测语音中提取出噪声增强特征,其中,关键词预测模型为基于多个第一噪声增强样本之间的交叉熵损失进行监督学习,以及基于多个第二噪声增强样本之间的对比损失进行对比学习而训练生成,多个第一噪声增强样本为对第一语音样本进行混合数据增强而得到,不同第二噪声增强样本分别为对相同类型的多个第二语音样本进行混合数据增强而得到;从待检测语音中去除噪声增强特征,以识别出目标关键词;基于目标关键词生成目标语音,且播放目标语音,其中,目标语音包括对待检测语音的答复内容。
10.根据本技术实施例的另一个方面,提供了另一种语音中关键词的检测方法和存储介质。该方法可以包括:在虚拟现实vr设备或增强现实ar设备上输入待检测语音,其中,待检测语音中包含了需要检测的至少一目标关键词;使用关键词预测模型从待检测语音中提取出噪声增强特征,其中,关键词预测模型为基于多个第一噪声增强样本之间的交叉熵损失进行监督学习,以及基于多个第二噪声增强样本之间的对比损失进行对比学习而训练生成,多个第一噪声增强样本为对第一语音样本进行混合数据增强而得到,不同第二噪声增强样本分别为对相同类型的多个第二语音样本进行混合数据增强而得到;从待检测语音中去除噪声增强特征,以识别出目标关键词;使用目标关键词激活vr设备或ar设备。
11.根据本技术实施例的另一个方面,提供了另一种语音中关键词的检测方法和存储介质。该方法可以包括:通过调用第一接口获取监测到的待检测语音,其中,待检测语音中包含了需要检测的至少一目标关键词,第一接口包括第一参数,第一参数的参数值为待检测语音;调用关键词预测模型,其中,关键词预测模型为基于多个第一噪声增强样本之间的交叉熵损失进行监督学习,以及基于多个第二噪声增强样本之间的对比损失进行对比学习而训练生成,多个第一噪声增强样本为对第一语音样本进行混合数据增强而得到,不同第二噪声增强样本分别为对相同类型的多个第二语音样本进行混合数据增强而得到;使用关键词预测模型从待检测语音中提取出噪声增强特征;从待检测语音中去除噪声增强特征,以识别出目标关键词;通过调用第二接口输出目标关键词,其中,第二接口包括第二参数,第二参数的参数值为目标关键词。
12.根据本技术实施例的一个方面,提供了一种语音中关键词的检测装置。该装置可以包括:第一采集单元,用于采集监测到的待检测语音,其中,待检测语音中包含了需要检测的至少一目标关键词;第一调用单元,用于调用关键词预测模型,其中,关键词预测模型为基于多个第一噪声增强样本之间的交叉熵损失进行监督学习,以及基于多个第二噪声增强样本之间的对比损失进行对比学习而训练生成,多个第一噪声增强样本为对第一语音样本进行混合数据增强而得到,不同第二噪声增强样本分别为对相同类型的多个第二语音样本进行混合数据增强而得到;第一提取单元,用于使用关键词预测模型从待检测语音中提取出噪声增强特征;第一处理单元,用于从待检测语音中去除噪声增强特征,以识别出目标关键词。
13.根据本技术实施例的另一个方面,提供了一种模型的确定装置。该装置可以包括:第一获取单元,用于获取第一语音样本和多个第二语音样本,其中,多个第二语音样本的类型相同;第一增强单元,用于对第一语音样本进行混合数据增强,得到多个第一噪声增强样本,且分别对相同类型的第二语音样本进行混合数据增强,得到多个第二噪声增强样本;第一确定单元,用于确定多个第一噪声增强样本之间的交叉熵损失,以及确定多个第二噪声增强样本之间的对比损失;第二处理单元,用于基于交叉熵损失对第一语音样本进行自监督学习,且基于对比损失对多个第二语音样本进行对比学习,得到关键词预测模型,其中,关键词预测模型用于从待检测语音中提取出噪声增强特征,以识别出待检测语音中的目标关键词。
14.根据本技术实施例的另一个方面,提供了另一种语音中关键词的检测装置。该装置可以包括:第二采集单元,用于采集向客户端发送的待检测语音,其中,待检测语音中包含了需要检测的至少一目标关键词;第二提取单元,用于使用关键词预测模型从待检测语音中提取出噪声增强特征,其中,关键词预测模型为基于多个第一噪声增强样本之间的交叉熵损失进行监督学习,以及基于多个第二噪声增强样本之间的对比损失进行对比学习而训练生成,多个第一噪声增强样本为对第一语音样本进行混合数据增强而得到,不同第二噪声增强样本分别为对相同类型的多个第二语音样本进行混合数据增强而得到;第一识别单元,用于从待检测语音中去除噪声增强特征,以识别出目标关键词;第一激活单元,用于基于目标关键词激活客户端。
15.根据本技术实施例的另一个方面,提供了一种语音生成装置。该装置可以包括:第三采集单元,用于采集监测到的待检测语音,其中,待检测语音中包含了需要检测的至少一目标关键词;第三提取单元,用于使用关键词预测模型从待检测语音中提取出噪声增强特征,其中,关键词预测模型为基于多个第一噪声增强样本之间的交叉熵损失进行监督学习,以及基于多个第二噪声增强样本之间的对比损失进行对比学习而训练生成,多个第一噪声增强样本为对第一语音样本进行混合数据增强而得到,不同第二噪声增强样本分别为对相同类型的多个第二语音样本进行混合数据增强而得到;第三处理单元,用于从待检测语音中去除噪声增强特征,以识别出目标关键词;第四处理单元,用于基于目标关键词生成目标语音,且播放目标语音,其中,目标语音包括对待检测语音的答复内容。
16.根据本技术实施例的另一个方面,提供了另一种语音中关键词的检测装置。该装置可以包括:输入单元,用于在虚拟现实vr设备或增强现实ar设备上输入待检测语音,其中,待检测语音中包含了需要检测的至少一目标关键词;第四提取单元,用于使用关键词预测模型从待检测语音中提取出噪声增强特征,其中,关键词预测模型为基于多个第一噪声增强样本之间的交叉熵损失进行监督学习,以及基于多个第二噪声增强样本之间的对比损失进行对比学习而训练生成,多个第一噪声增强样本为对第一语音样本进行混合数据增强而得到,不同第二噪声增强样本分别为对相同类型的多个第二语音样本进行混合数据增强而得到;第五处理单元,用于从待检测语音中去除噪声增强特征,以识别出目标关键词;第二激活单元,用于使用目标关键词激活vr设备或ar设备。
17.根据本技术实施例的另一个方面,提供了另一种语音中关键词的检测装置。该装置可以包括:第二获取单元,用于通过调用第一接口获取监测到的待检测语音,其中,待检测语音中包含了需要检测的至少一目标关键词,第一接口包括第一参数,第一参数的参数
值为待检测语音;第六处理单元,用于调用关键词预测模型,其中,关键词预测模型为基于多个第一噪声增强样本之间的交叉熵损失进行监督学习,以及基于多个第二噪声增强样本之间的对比损失进行对比学习而训练生成,多个第一噪声增强样本为对第一语音样本进行混合数据增强而得到,不同第二噪声增强样本分别为对相同类型的多个第二语音样本进行混合数据增强而得到;第五提取单元,用于使用关键词预测模型从待检测语音中提取出噪声增强特征;第七处理单元,用于从待检测语音中去除噪声增强特征,以识别出目标关键词;输出单元,用于通过调用第二接口输出目标关键词,其中,第二接口包括第二参数,第二参数的参数值为目标关键词。
18.在本技术实施例中,采集监测到的待检测语音,其中,待检测语音中包含了需要检测的至少一目标关键词;调用关键词预测模型,其中,关键词预测模型为基于多个第一噪声增强样本之间的交叉熵损失进行监督学习,以及基于多个第二噪声增强样本之间的对比损失进行对比学习而训练生成,多个第一噪声增强样本为对第一语音样本进行混合数据增强而得到,不同第二噪声增强样本分别为对相同类型的多个第二语音样本进行混合数据增强而得到;使用关键词预测模型从待检测语音中提取出噪声增强特征;从待检测语音中去除噪声增强特征,以识别出目标关键词。也就是说,在本技术实施例中,基于多个第一噪声增强样本之间的交叉熵损失进行监督学习,且基于多个第二噪声增强样本之间的对比损失进行对比学习生成关键词预测模型,以完成对关键词预测模型的严格限制,本技术实施例不是从单一实例中进行噪声增强,有助于直接优化关键词预测模型,并且输入的待检测语音是通过混合增强得到的,从而避免了关键词预测模型的过训练拟合,进而实现了提高对关键词进行检测的鲁棒性的技术效果,解决了对关键词进行检测的鲁棒性低的技术问题。
附图说明
19.此处所说明的附图用来提供对本技术的进一步理解,构成本技术的一部分,本技术的示意性实施例及其说明用于解释本技术,并不构成对本技术的不当限定。在附图中:
20.图1是根据本技术实施例的一种计算环境的结构框图;
21.图2是根据本技术实施例的一种语音中关键词的检测方法的流程图;
22.图3是根据本技术实施例的一种模型的确定方法的流程图;
23.图4是根据本技术实施例的另一种语音中关键词的检测方法的流程图;
24.图5是根据本技术实施例的另一种语音生成方法的流程图;
25.图6是根据本技术实施例的另一种语音中关键词的检测方法的流程图;
26.图7是根据本技术实施例的另一种语音中关键词的检测方法的流程图;
27.图8(a)是根据相关技术中的一种对比学习的示意图
28.图8(b)是根据本技术实施例的一种正则化框架的示意图;
29.图8(c)是根据本技术实施例的一种正则化监督模型的示意图;
30.图9是根据本技术实施例的一种语音中关键词的检测方法的服务网格的结构框图;
31.图10是根据本技术实施例的一种语音中关键词的检测装置的示意图;
32.图11是根据本技术实施例的另一种模型的确定装置的示意图;
33.图12是根据本技术实施例的另一种语音中关键词的检测装置的示意图;
34.图13是根据本技术实施例的一种语音生成装置的示意图;
35.图14是根据本技术实施例的另一种语音中关键词的检测装置的示意图;
36.图15是根据本技术实施例的另一种语音中关键词的检测装置的示意图;
37.图16是根据本技术实施例的一种计算机终端的结构框图。
具体实施方式
38.为了使本技术领域的人员更好地理解本技术方案,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分的实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本技术保护的范围。
39.需要说明的是,本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
40.首先,在对本技术实施例进行描述的过程中出现的部分名词或术语适用于如下解释:
41.关键词检索(keyword spotting,简称为kws),又可以称为关键词检测,可以为话语中的关键词检测;
42.信噪比(signal noise ratio,简称为snr),可以为电子设备或电子系统中信号与噪声的比例,可以用于以单位分贝衡量噪音水平;
43.交叉熵(cross-entropy error,简称为ce),可以为模型训练的优化函数,可以用于度量两个概率分布间的差异信息;
44.交并比(intersection over union,简称为iou),可以为目标检测中使用的一个度量,可以为预测的候选框与标记框的重叠率,即它们的交集与并集的比值。
45.实施例1
46.根据本技术实施例,还提供了一种语音中关键词的检测方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
47.本技术实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1以框图示出了使用上述图1所示的计算机终端30(或移动设备)作为计算环境101中计算节点的一种实施例。图1是根据本技术实施例的一种计算环境的结构框图,如图1所示,计算环境101包括运行在分布式网络上的多个服务120(图中采用120-1,120-2,

,来示出)计算节点(如服务器)。每个计算节点都包含本地处理和内存资源,终端用户102可以在计算环境101中远程运行应用程序或存储数据。应用程序可以作为计算环境101
中的多个服务120-1,120-2,120-3和120-4进行提供,分别代表服务“a”,“d”,“e”和“h”。
48.终端用户102可以通过用户端上的web浏览器或其他软件应用程序提供和访问服务,在一些实施例中,可以将终端用户102的供应和/或请求提供给入口网关130。入口网关130可以包括一个相应的代理来处理针对服务120(计算环境101中提供的一个或多个服务)的供应和/或请求。
49.服务120是根据计算环境101支持的各种虚拟化技术来提供或部署的。在一些实施例中,可以根据基于虚拟机(vm)的虚拟化、基于容器的虚拟化和/或类似的方式提供服务120。基于虚拟机的虚拟化可以是通过初始化虚拟机来模拟真实的计算机,在不直接接触任何实际硬件资源的情况下执行程序和应用程序。在虚拟机虚拟化机器的同时,根据基于容器的虚拟化,可以启动容器来虚拟化整个操作系统(os),以便多个工作负载可以在单个操作系统实例上运行。
50.在基于容器虚拟化的一个实施例中,服务120的若干容器可以被组装成一个pod(例如,kubernetes pod)。举例来说,如图1所示,服务120-2可以配备一个或多个pod140-1,140-2,

,140-n(统称为pod140)。每个pod140可以包括代理145和一个或多个容器142-1,142-2,

,142-m(统称为容器142)。pod140中一个或多个容器142处理与服务的一个或多个相应功能相关的请求,代理145通常控制与服务相关的网络功能,如路由、负载均衡等。其他服务120也可以陪陪类似于pod140的pod。
51.在操作过程中,执行来自终端用户102的用户请求可能需要调用计算环境101中的一个或多个服务120,执行一个服务120的一个或多个功能可能需要调用另一个服务120的一个或多个功能。如图1所示,服务“a”120-1从入口网关130接收终端用户102的用户请求,服务“a”120-1可以调用服务“d”120-2,服务“d”120-2可以请求服务“e”120-3执行一个或多个功能。
52.上述的计算环境可以是云计算环境,资源的分配可以由云服务提供上管理,允许功能的开发无需考虑实现、调整或扩展服务器。该计算环境允许开发人员在不构建或维护复杂基础设施的情况下执行响应事件的代码。服务可以被分割完成一组可以自动独立伸缩的功能,而不是扩展单个硬件设备来处理潜在的负载。
53.在图1所示的运行环境下,本技术提供了应用于如图2所示的语音中关键词的检测方法。需要说明的是,该实施例的语音中关键词的检测方法可以由图1所示实施例的移动终端执行。
54.图2是根据本技术实施例的一种语音中关键词的检测方法的流程图。如图2所示,该方法可以包括以下步骤:
55.步骤s202,采集监测到的待检测语音,其中,待检测语音中包含了需要检测的至少一目标关键词。
56.在本技术上述步骤s202提供的技术方案中,对待检测语音进行监测,采集监测到的待检测语音,其中,待检测语音中包含了需要检测的至少一目标关键词。目标关键词可以为预先设定的关键词,比如,可以为“你好,小爱同学”等。待检测语音可以为在多种场景下获取的语音,比如,可以为在火车上、地铁等场景下监测得到的语音。
57.步骤s204,调用关键词预测模型,其中,关键词预测模型为基于多个第一噪声增强样本之间的交叉熵损失进行监督学习,以及基于多个第二噪声增强样本之间的对比损失进
行对比学习而训练生成,多个第一噪声增强样本为对第一语音样本进行混合数据增强而得到,不同第二噪声增强样本分别为对相同类型的多个第二语音样本进行混合数据增强而得到。
58.在本技术上述步骤s204提供的技术方案中,可以获取多个第一语音样本和多个第二语音样本。可以对分别对多个第一语音样本进行混合数据增强得到第一噪声增强样本,从而得到多个第一噪声增强样本。可以对多个第二语音样本中,为相同类型的多个第二语音样本进行混合数据增强得到第二噪声增强样本,从而得到多个第二噪声增强样本。可以基于多个第一噪声增强样本之间的交叉熵损失进行监督学习和多个第二噪声增强样本之间的对比损失进行对比学习,训练得到关键词预测模型。可以调用关键词预测模型,对采集到的待检测语音进行预测。
59.其中,关键词预测模型可以为关键词检索(keyword spotting,简称为kws)模型,可以用于对话语中的关键词进行检索。第一噪声增强样本可以为同一样本的多增强视图(比如,可以为增强噪声的多个视图)、噪声增强音频,多视角背景噪声的平行样本等,此处仅为举例说明,不对第一噪声增强样本的种类做具体限制。交叉熵(cross entropy,简称为ce)损失可以用于优化关键词预测模型。对比损失(l
i2cr
)可以用于作为正则化器。第二噪声增强样本可以为对相同类型样本的语音样本进行数据增强后得到的噪声增强样本。相同类型可以指的是具有相同标签或者在同一类组的语音样本。
60.可选地,对第一语音样本进行混合数据增强(mixup augmentation)可以得到第一噪声增强样本。可以对相同类型的多个第二语音样本进行混合数据增强得到第二噪声增强样本,比如,可以对两个具有相同标签的第二语音样本进行混合数据增强得到第二噪声增强样本,需要说明的是,上述两个仅为举例说明,不对进行混合数据增强的第二语音样本的数量做具体限制。
61.可选地,数据增强可以为是在干净的语音下相加随机采样的背景噪声来人工模拟真实的噪声环境。背景噪声的噪声声量可以通过计算信噪比(signal-to-noise ratio,简称为snr)去调试然后将噪声声量相加到语音样本中,从而实现获取多视角背景噪声的平行样本。
62.由于一开始增加的噪声如果太大,会影响模型开始辨认(正)多视样本中的相似特征,存在不好收敛的问题,因此,在本技术实施例中,可以在训练的时候,提供固定的噪声数据,在训练时慢慢加大snrs噪声,比如,可以从无噪声到20db,可以从无噪声到20db最后到15db;可以从无噪声到20db,再到15db,再到10db,一直到20db到-10db。
63.可选地,再模拟噪声语音同时,也可以对语音做出其他的处理,以达到数据增强的目的。比如,可以对语音进行音调变换,随机降低或提高说话的音调;可以对语音进行编解码器增强,通过使用编解码器声码器合成音频;可以通过时移、速度扰动、视频遮蔽等方式对数据进行增强处理。在本技术实施例中,提供多种数据增强的方法,可以根据使用的广义场景选择不同的数据增强方法,从而提高模型与使用场景的适配性。
64.在该实施例中,在属于相同类的不同样本上执行数据增强的操作,而不是只是从相同输入实例中增强噪声。也即,本技术实施例避免了相关技术中的只是单纯从相同输入实例中增强噪声的方法,从而减少了模型被其他不利因素影响的可能,进而提高模型预测的准确性。其中,不利因素可以为说话人身份、音高等,此处仅为举例说明,不对不利因素做
具体限制。
65.在相关技术中,传统的监督学习的关键词预测模型侧重于识别关联模式,以区分来自多个类的数据,但该方法关键词预测模型无法抑制负面因素,比如,负面因素可以为说话人的、说话风格和背景噪声等,从而导致关键词预测模型预测的准确性下降。而本技术实施例,通过对第一语音样本进行混合数据增强可以得到第一噪声增强样本,实现从一个样本创建双视图的目的,且使用对比学习约束来鼓励关键词预测模型更多地专注于从两个不同的噪声增强音频中提取广义类特征,从而减少负面因素的影响,减少潜在特征中的噪声量,进而使关键词预测模型对噪声具有鲁棒性,实现了提高对关键词进行检测的鲁棒性的技术效果。
66.步骤s206,使用关键词预测模型从待检测语音中提取出噪声增强特征。
67.在本技术上述步骤s206提供的技术方案中,可以通过调用的关键词预测模型对待检测语音进行预测,以从待检测语音中提取出噪声增强特征。其中,噪声增强特征可以用于表征环境中的噪声,比如,噪声可以为环境中高于0db的噪声。
68.步骤s208,从待检测语音中去除噪声增强特征,以识别出目标关键词。
69.在本技术上述步骤s208提供的技术方案中,可以从待检测语音中去除噪声增强特征,从而可以减少噪声对模型预测过程中的影响,进而可以准确的识别出目标关键词。
70.在通过关键词预测模型对待检测语音中的目标关键词进行检索的过程中,由于存在环境噪声的影响,导致存在对关键词进行检测的鲁棒性低的技术问题。而本技术实施例将监督学习的交叉熵损失与对比损失相结合后应用于关键词预测模型中,从而提高了关键词预测模型的准确性。
71.可选地,关键词预测模型在对待检测语音中的目标关键词进行预测的过程中,可以先从待检测语音中提取出噪声增强特征,可以从待检测语音中去除噪声增强特征,从而识别除目标关键词,实现了提高对关键词进行检测的鲁棒性的技术效果,解决了对关键词进行检测的鲁棒性低的技术问题。
72.通过本技术上述步骤s202至步骤s208,采集监测到包含了需要检测的至少一目标关键词的待检测语音;调用基于多个第一噪声增强样本之间的交叉熵损失进行监督学习,以及基于多个第二噪声增强样本之间的对比损失进行对比学习而训练生成的关键词预测模型;使用关键词预测模型从待检测语音中提取出噪声增强特征;从待检测语音中去除噪声增强特征,以识别出目标关键词,从而实现了提高对关键词进行检测的鲁棒性的技术效果,解决了对关键词进行检测的鲁棒性低的技术问题。
73.下面对该实施例的上述方法进行进一步的介绍。
74.作为一种可选的实施方式,该方法还包括:对第一语音样本中的第一随机采样噪声数据按照第一混合系数进行混合数据增强,得到第一噪声增强样本,其中,第一随机采样噪声数据随着关键词预测模型的训练轮次增大而增大,第一混合系数符合贝塔分布;对第二语音样本中的第二随机采样噪声数据按照第二混合系数进行混合数据增强,得到第二噪声样本,其中,第二随机采样噪声数据随着关键词预测模型的训练轮次增大而增大,第二混合系数符合贝塔分布。
75.在该实施例中,可以对第一语音样本中的第一随机采样噪声数据按照第一混合系数进行混合数据增强,从而得到第一噪声增强样本。其中,第一随机采样噪声数据
(randomly sampled utterances)可以为随机抽样得到的采样噪声数据,比如,可以为随机采样得到的在铁路环境中为5db的噪声数据等,此处仅为举例说明,不对第一随机采样噪声数据的获取场景和噪声的大小做具体限制。第一随机采样噪声数据可以随着关键词预测模型的训练轮次增大而增大,且第一混合系数可以随着贝塔(beta)分布逐渐从增大,比如,第一混合系数可以为随着训练轮次增大逐渐从0增大到0.5,第一混合系数可以为贝塔系数。
76.举例而言,可以通过对第一语音样本中的第一随机采样噪声数据按照第一混合系数进行混合数据增强,得到第一噪声增强样本。其中,第一混合系数可以取自贝塔分布。
77.在本技术实施例中,可以使用由贝塔系数加权的二进制交叉熵损失来学习混合输入,有助于减少模型优化过程中的过拟合。
78.在该实施例中,可以对第二语音样本中的第二随机采样噪声数据按照第二混合系数进行混合数据增强,得到第二噪声样本。其中,第二随机采样噪声数据随着关键词预测模型的训练轮次增大而增大,第二混合系数符合贝塔分布,比如,第二混合系数可以为0、0.5等,此处仅为举例说明,不对混合系数的大小做具体限制。
79.举例而言,可以通过对第二语音样本中的第二随机采样噪声数据按照第二混合系数进行混合数据增强,得到第一噪声增强样本。其中,第二混合系数可以取自贝塔分布。
80.作为一种可选的实施方式,基于交叉熵损失对第一语音样本进行自监督学习,且基于对比损失对多个第二语音样本进行对比学习,得到关键词预测模型。
81.在该实施例中,可以基于交叉熵损失对第一语音样本进行自监督学习,且可以基于对比损失对多个第二语音样本进行对比学习,得到关键词预测模型。
82.本技术实施例,在模型训练的过程中,在交叉熵损失的基础上对比损失,通过交叉熵损失和对比损失共同训练得到关键词预测模型,其中,对比损失可以为增加的一个正则化项,通过增加正则化项提高了关键词预测模型的性能和训练速度,进一步提高了关键词预测模型的噪声鲁棒性。
83.作为一种可选的实施方式,基于交叉熵损失对第一语音样本进行自监督学习,且基于对比损失对多个第二语音样本进行对比学习,得到关键词预测模型,包括:基于交叉熵损失和对比损失建立正则化器,其中,所述正则化器用于使关键词预测模型禁止对噪声增强特征进行编码;基于正则化器对第一语音样本进行自监督学习,且对多个第二语音样本进行对比学习,得到关键词预测模型。
84.在该实施例中,可以基于交叉熵损失和对比损失建立正则化器,通过在标准交叉熵损失上增加正则化约束,得到带有交叉熵的正则化器。其中,正则化器可以用于使关键词预测模型禁止对噪声增强特征进行编码,从而可以达到约束模型对噪声进行编码的目的。在该实施例中,可以基于得到的正则化器对第一语音样本进行自监督学习,且基于正则化器对多个第二语音样本进行对比学习,从而得到关键词预测模型。
85.作为一种可选的实施方式,基于交叉熵损失和对比损失建立正则化器,包括:获取与对比损失对应的初始正则化器;基于交叉熵损失对初始正则化器进行调整,得到正则化器。
86.在该实施例中,可以获取对比损失对应的初始正则化器,可以基于交叉熵损失对初始正则化器进行调整,得到正则化器。其中,初始正则化器可以为初始建立的对比正则化器。
87.作为一种可选的实施方式,基于交叉熵损失和对比损失建立正则化器,包括:对交叉熵损失和对比损失进行加权求和,得到目标损失,其中,对比损失对应的权重用于表示对比损失对关键词预测模型的约束程度,权重随着关键词预测模型的训练轮次增大而线性增加;建立与目标损失对应的正则化器。
88.在该实施例中,可以对交叉熵损失和对比损失进行加权求和,得到目标损失,其中,对比损失对应的权重可以用于表示对比损失对关键词预测模型的约束程度,权重可以随着关键预测模型。目标损失(l)为组合的损失函数,可以通过以下公式计算得到目标损失:
89.l=l
ce
+αl
i2cr
90.其中,l
ce
是监督学习的交叉熵损失,l
i2cr
是作为正则化器的对比损失。α是赋予正则化器的权重,该权重可以用于衡量附加对比约束的程度。
91.在该实施例中,可以将对比损失作为正则化器,达到建立与目标损失对应的正则化器的目的。
92.作为一种可选的实施方式,基于正则化器对第一语音样本进行自监督学习,且对多个第二语音样本进行对比学习,得到关键词预测模型,包括:基于正则化器对第一语音样本进行自监督学习,且对多个第二语音样本进行对比学习,得到模型调整参数;基于模型调整参数调整初始关键词预测模型的参数,得到关键词预测模型。
93.在该实施例中,可以基于正则化器对第一语音样本进行自监督学习,且可以对多个第二语音样本进行对比学习,得到模型调整参数,可以基于模型调整参数调整初始关键词预测模型,通过对初始关键词预测模型的持续微调,得到关键词预测模型。
94.在本技术实施例中,可以利用正则化器对初始关键词预测模型进行持续的微调,得到关键词预测模型,从而达到了提高模型预测的准确性的目的。
95.作为一种可选的实施方式,从待检测语音中去除噪声增强特征,以识别出目标关键词,包括:从待检测语音中去除噪声增强特征,得到关键词特征;获取由关键词特征表示的目标关键词。
96.在该实施例中,可以从待检测语音中去除噪声增强特征,得到关键词特征,可以对关键词特征进行处理,得到关键词特征表示的目标关键词。其中,关键词特征可以为改善特征表示,关键词特征的表现形式可以为编码特征。
97.作为一种可选的实施方式,第一噪声增强样本和第二噪声增强样本之间的相似度大于第一相似度阈值。
98.在该实施例中,可以确定第一噪声增强样本和第二噪声增强样本之间的相似度,直至第一噪声增强样本和第二噪声增强样本之间的相似度大于第一相似度阈值,则对初始关键词预测模型的微调结束。
99.可选地,可以使第一噪声增强样本和第二噪声增强样本之间的相似度大于第一相似度阈值,从而达到最大化同一类的噪声增强样本之间的相似性的目的,进而实现将噪声增强样本之间拉得更接近一个更广义的表示,这一表示形成更突出的集并减少了噪声的不利影响,可以提高关键词预测模型对目标关键词预测的准确性。
100.在本技术实施例中,基于多个第一噪声增强样本之间的交叉熵损失进行监督学习,且基于多个第二噪声增强样本之间的对比损失进行对比学习生成关键词预测模型,以
完成对关键词预测模型的严格限制,本技术实施例不是从单一实例中进行噪声增强,有助于直接优化关键词预测模型,并且输入的待检测语音是通过混合增强得到的,从而避免了关键词预测模型的过训练拟合,进而实现了提高对关键词进行检测的鲁棒性的技术效果,解决了对关键词进行检测的鲁棒性低的技术问题。
101.下面从模型训练的角度对本技术实施例中的语音中关键词的检测方法进行进一步介绍。
102.图3是根据本技术实施例的一种模型的确定方法的流程图。如图3所示,该方法可以包括以下步骤:
103.步骤s302,获取第一语音样本和多个第二语音样本,其中,多个第二语音样本的类型相同。
104.在本技术上述步骤s302提供的技术方案中,可以获取第一语音样本和多个第二语音样本,其中,多个第二语音样本的类型相同。
105.可选地,可以通过随机采样的方式获取第一语音样本和多个第二语音样本。
106.举例而言,可以基于语音命令数据集中,通过随机采样的方式获取第一语音样本和多个第二语音样本,其中,语音命令数据集可以由10个类子集组成,可以分别对应“up”、“down”、“left”、“right”、“yes”、“no”、“on”、“off”、“go”、“stop”的标签。
107.步骤s304,对第一语音样本进行混合数据增强,得到多个第一噪声增强样本,且分别对相同类型的第二语音样本进行混合数据增强,得到多个第二噪声增强样本。
108.在本技术上述步骤s304提供的技术方案中,可以对第一语音样本进行混合数据增强,得到多个第一噪声增强样本,且可以分别对相同类型的第二语音样本进行混合数据增强,得到多个第二噪声增强数据。其中,相同类型的第二语音样本可以为具有相同标签的样本。
109.可选地,可以对多个第一语音样本进行混合数据增强(mixup augmentation),得到多个第一噪声增强样本,比如,可以分别对多个第一语音样本设定对应的比例系数,可以基于比例系数完成对多个第一语音样本的混合数据增强。且可以分别对相同类型的第二语音样本进行混合数据增强,得到多个第二噪声增强数据。
110.可选地,数据增强可以为是在干净的语音下相加随机采样的背景噪声来人工模拟真实的噪声环境。背景噪声的噪声声量可以通过计算信噪比去调试然后将噪声声量相加到语音样本中,从而实现获取多视角背景噪声的平行样本。
111.由于一开始增加的噪声如果太大,会影响模型开始辨认(正)多视样本中的相似特征,存在不好收敛的问题,因此,在本技术实施例中,可以在训练的时候,提供固定的噪声数据,在训练时慢慢加大snrs噪声,比如,可以从无噪声到20db,可以从无噪声到20db最后到15db;可以从无噪声到20db,再到15db,再到10db,一直到20db到-10db。
112.可选地,再模拟噪声语音同时,也可以对语音做出其他的处理,以达到数据增强的目的。比如,可以对语音进行音调变换,随机降低或提高说话的音调;可以对语音进行编解码器增强,通过使用编解码器声码器合成音频;可以通过时移、速度扰动、视频遮蔽等方式对数据进行增强处理。在本技术实施例中,提供多种数据增强的方法,可以根据使用的广义场景选择不同的数据增强方法,从而提高模型与使用场景的适配性。
113.在该实施例中,在属于相同类的不同样本上执行数据增强的操作,而不是只是从
相同输入实例中增强噪声。也即,本技术实施例避免了相关技术中的只是单纯从相同输入实例中增强噪声的方法,从而减少了模型被其他不利因素影响的可能,进而提高模型预测的准确性。其中,不利因素可以为说话人身份、音高等,此处仅为举例说明,不对不利因素做具体限制。
114.步骤s306,确定多个第一噪声增强样本之间的交叉熵损失,以及确定多个第二噪声增强样本之间的对比损失。
115.在本技术上述步骤s306提供的技术方案中,可以确定多个第一噪声增强样本之间的交叉熵损失,且确定多个第二噪声增强样本之间的对比损失。
116.步骤s308,基于交叉熵损失对第一语音样本进行自监督学习,且基于对比损失对多个第二语音样本进行对比学习,得到关键词预测模型,其中,关键词预测模型用于从待检测语音中提取出噪声增强特征,以识别出待检测语音中的目标关键词。
117.在本技术上述步骤s308提供的技术方案中,可以与交叉熵损失对第一语音样本进行自监督学习,且可以基于对比损失对多个第二语音样本进行对比学习,得到关键词预测模型,可以通过关键词预测模型对待检测语音进行预测,提取出噪声增强特征,从而可以识别除待检测语音中的目标关键词。
118.可选地,在监督学习时,针对第一噪声增强样本可以基于交叉熵进行自监督学习,在计算损失时可以利用数据混合增强时的权重,且可以基于对比损失对多个第二语音样本进行对比学习,得到关键词预测模型,可以通过关键词预测模型对待检测语音进行预测,提取出噪声增强特征,从而可以识别除待检测语音中的目标关键词。
119.通过本技术上述步骤s302至步骤s308,获取第一语音样本和多个第二语音样本,其中,多个第二语音样本的类型相同;对第一语音样本进行混合数据增强,得到多个第一噪声增强样本,且分别对相同类型的第二语音样本进行混合数据增强,得到多个第二噪声增强样本;确定多个第一噪声增强样本之间的交叉熵损失,以及确定多个第二噪声增强样本之间的对比损失;基于交叉熵损失对第一语音样本进行自监督学习,且基于对比损失对多个第二语音样本进行对比学习,得到关键词预测模型,其中,关键词预测模型用于从待检测语音中提取出噪声增强特征,以识别出待检测语音中的目标关键词,从而实现了提高对关键词进行检测的鲁棒性的技术效果,解决了对关键词进行检测的鲁棒性低的技术问题。
120.下面针对应用激活的应用场景对本技术实施例中的语音中关键词的检测方法进行进一步的介绍。
121.图4是根据本技术实施例的另一种语音中关键词的检测方法的流程图,如图4所示,该方法可以包括以下步骤。
122.步骤s402,采集向客户端发送的待检测语音,其中,待检测语音中包含了需要检测的至少一目标关键词。
123.在本技术上述步骤s402提供的技术方案中,可以采集待检测语音,向客户端发送的待检测语音。其中,客户端可以为手机、智能设备等。
124.步骤s404,使用关键词预测模型从待检测语音中提取出噪声增强特征,其中,关键词预测模型为基于多个第一噪声增强样本之间的交叉熵损失进行监督学习,以及基于多个第二噪声增强样本之间的对比损失进行对比学习而训练生成,多个第一噪声增强样本为对第一语音样本进行混合数据增强而得到,不同第二噪声增强样本分别为对相同类型的多个
第二语音样本进行混合数据增强而得到。
125.步骤s406,从待检测语音中去除噪声增强特征,以识别出目标关键词。
126.步骤s408,基于目标关键词激活客户端。
127.在本技术上述步骤s408提供的技术方案中,响应于识别得到的关键词,可以激活客户端。
128.举例而言,当识别出待检测语音中存在目标关键词“打开手机中闹钟”时,客户端可以执行打开手机中闹钟的动作。
129.下面对该实施例的上述方法进行进一步的介绍。
130.作为一种可选的实施方式,该方法还包括:基于目标关键词激活客户端,包括:响应于目标关键词与客户端关联的预定关键词相似度大于第二相似度阈值,激活客户端。
131.在该实施例中,判断目标关键词与客户端关联的预定关键词的相似度是否大于第二相似度,响应于目标关键词与客户端关联的预定关键词相似度大于第二相似度阈值,可以激活客户端,其中,预定关键词可以为预先设定的关键词,比如,可以为“你好,请小爱同学打开手机”。第二相似度阈值可以为预先设定的阈值,可以为根据实际使用情况由客户端设定或系统直接设定好的阈值。
132.在本技术实施例中,采集向客户端发送的待检测语音,其中,待检测语音中包含了需要检测的至少一目标关键词;使用关键词预测模型从待检测语音中提取出噪声增强特征,其中,关键词预测模型为基于多个第一噪声增强样本之间的交叉熵损失进行监督学习,以及基于多个第二噪声增强样本之间的对比损失进行对比学习而训练生成,多个第一噪声增强样本为对第一语音样本进行混合数据增强而得到,不同第二噪声增强样本分别为对相同类型的多个第二语音样本进行混合数据增强而得到;从待检测语音中去除噪声增强特征,以识别出目标关键词;基于目标关键词激活客户端,从而
133.下面针对语音交互的应用场景对本技术实施例中的语音生成方法进行进一步的介绍。
134.图5是根据本技术实施例的另一种语音生成方法的流程图,如图5所示,该方法可以包括以下步骤。
135.步骤s502,采集监测到的待检测语音,其中,待检测语音中包含了需要检测的至少一目标关键词。
136.步骤s504,使用关键词预测模型从待检测语音中提取出噪声增强特征,其中,关键词预测模型为基于多个第一噪声增强样本之间的交叉熵损失进行监督学习,以及基于多个第二噪声增强样本之间的对比损失进行对比学习而训练生成,多个第一噪声增强样本为对第一语音样本进行混合数据增强而得到,不同第二噪声增强样本分别为对相同类型的多个第二语音样本进行混合数据增强而得到。
137.步骤s506,从待检测语音中去除噪声增强特征,以识别出目标关键词。
138.步骤s508,基于目标关键词生成目标语音,且播放目标语音,其中,目标语音包括对待检测语音的答复内容。
139.在本技术上述步骤s508提供的技术方案中可以基于目标关键词生成目标语音,可以播放目标语音,其中,目标语音可以包括对待检测语音的答复内容。
140.举例而言,目标关键词为“小爱同学请打开手机”则目标语音可以为“好的”,可以
用于答复目标关键词的内容。
141.在本技术实施例中,采集监测到的待检测语音,其中,待检测语音中包含了需要检测的至少一目标关键词;使用关键词预测模型从待检测语音中提取出噪声增强特征,其中,关键词预测模型为基于多个第一噪声增强样本之间的交叉熵损失进行监督学习,以及基于多个第二噪声增强样本之间的对比损失进行对比学习而训练生成,多个第一噪声增强样本为对第一语音样本进行混合数据增强而得到,不同第二噪声增强样本分别为对相同类型的多个第二语音样本进行混合数据增强而得到;从待检测语音中去除噪声增强特征,以识别出目标关键词;基于目标关键词生成目标语音,且播放目标语音,其中,目标语音包括对待检测语音的答复内容,实现了提高对关键词进行检测的鲁棒性的技术效果,解决了对关键词进行检测的鲁棒性低的技术问题。
142.根据本技术实施例,还提供了一种可以应用于虚拟现实vr设备、增强现实ar设备等虚拟现实场景下的语音中关键词的检测方法,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
143.图6是根据本技术实施例的另一种语音中关键词的检测方法的流程图,如图6所示,该方法可以包括以下步骤。
144.步骤s602,在虚拟现实vr设备或增强现实ar设备上输入待检测语音,其中,待检测语音中包含了需要检测的至少一目标关键词。
145.步骤s604,使用关键词预测模型从待检测语音中提取出噪声增强特征,其中,关键词预测模型为基于多个第一噪声增强样本之间的交叉熵损失进行监督学习,以及基于多个第二噪声增强样本之间的对比损失进行对比学习而训练生成,多个第一噪声增强样本为对第一语音样本进行混合数据增强而得到,不同第二噪声增强样本分别为对相同类型的多个第二语音样本进行混合数据增强而得到。
146.步骤s606,从待检测语音中去除噪声增强特征,以识别出目标关键词。
147.步骤s608,使用目标关键词激活vr设备或ar设备。
148.通过上述步骤,通过在虚拟现实vr设备或增强现实ar设备在虚拟现实vr设备或增强现实ar设备上输入待检测语音,其中,待检测语音中包含了需要检测的至少一目标关键词;使用关键词预测模型从待检测语音中提取出噪声增强特征,其中,关键词预测模型为基于多个第一噪声增强样本之间的交叉熵损失进行监督学习,以及基于多个第二噪声增强样本之间的对比损失进行对比学习而训练生成,多个第一噪声增强样本为对第一语音样本进行混合数据增强而得到,不同第二噪声增强样本分别为对相同类型的多个第二语音样本进行混合数据增强而得到;从待检测语音中去除噪声增强特征,以识别出目标关键词;使用目标关键词激活vr设备或ar设备,进而解决了对关键词进行检测的鲁棒性低的技术问题,实现了提高语音中关键词的检测的鲁棒性的技术效果。
149.可选地,在本实施例中,上述语音中关键词的检测方法可以应用于由服务器、虚拟现实设备所构成的硬件环境中。控制vr设备或ar设备执行定位信息对应的人机交互操作,服务器可以为媒体文件运营商对应的服务器,上述网络包括但不限于:广域网、城域网或局域网,上述虚拟现实设备并不限定于:虚拟现实头盔、虚拟现实眼镜、虚拟现实一体机等。
150.可选地,虚拟现实设备可以包括:存储器、处理器和传输装置。存储器用于存储应
用程序,该应用程序可以用于执行:在虚拟现实vr设备或增强现实ar设备上输入待检测语音,其中,待检测语音中包含了需要检测的至少一目标关键词;使用关键词预测模型从待检测语音中提取出噪声增强特征,其中,关键词预测模型为基于多个第一噪声增强样本之间的交叉熵损失进行监督学习,以及基于多个第二噪声增强样本之间的对比损失进行对比学习而训练生成,多个第一噪声增强样本为对第一语音样本进行混合数据增强而得到,不同第二噪声增强样本分别为对相同类型的多个第二语音样本进行混合数据增强而得到;从待检测语音中去除噪声增强特征,以识别出目标关键词;使用目标关键词激活vr设备或ar设备。
151.需要说明的是,该实施例的上述应用在vr设备或ar设备中的语音中关键词的检测方法可以包括图6所示实施例的方法,以控制vr设备或ar设备执行定位信息对应的人机交互操作。
152.可选地,该实施例的处理器可以通过传输装置调用上述存储器存储的应用程序以执行上述步骤。传输装置可以通过网络接收服务器发送的媒体文件,也可以用于上述处理器与存储器之间的数据传输。
153.可选地,在虚拟现实设备中,带有眼球追踪的头戴式显示器,该hmd头显中的屏幕,用于显示展示的视频画面,hmd中的眼球追踪模块,用于获取用户眼球的实时运动路径,跟踪系统,用于追踪用户在真实三维空间的位置信息与运动信息,计算处理单元,用于从跟踪系统中获取用户的实时位置与运动信息,并计算出用户头部在虚拟三维空间中的三维坐标,以及用户在虚拟三维空间中的视野朝向等。
154.在本技术实施例中,虚拟现实设备可以与终端相连接,终端与服务器通过网络进行连接,上述虚拟现实设备并不限定于:虚拟现实头盔、虚拟现实眼镜、虚拟现实一体机等,上述终端并不限定于pc、手机、平板电脑等,服务器可以为媒体文件运营商对应的服务器,上述网络包括但不限于:广域网、城域网或局域网。
155.在上述运行环境下,本技术其中一实施例还提供了另一种如图7所示的语音中关键词的检测方法。需要说明的是,该实施例的语音中关键词的检测方法可以由图1所示实施例的移动终端执行。图7是根据本技术实施例的另一种语音中关键词的检测方法的流程图。如图7所示,该方法可以包括如下步骤:
156.步骤s702,通过调用第一接口获取监测到的待检测语音,其中,待检测语音中包含了需要检测的至少一目标关键词,第一接口包括第一参数,第一参数的参数值为待检测语音。
157.在本技术上述步骤s702提供的技术方案中,第一接口可以是服务器与客户端之间进行数据交互的接口,客户端可以将待获取到的包含了需要检测的至少一目标关键词的待检测语音,作为第一接口的一个第一参数,实现用第一接口获取检测到的待检测语音的目的。
158.步骤s704,调用关键词预测模型,其中,关键词预测模型为基于多个第一噪声增强样本之间的交叉熵损失进行监督学习,以及基于多个第二噪声增强样本之间的对比损失进行对比学习而训练生成,多个第一噪声增强样本为对第一语音样本进行混合数据增强而得到,不同第二噪声增强样本分别为对相同类型的多个第二语音样本进行混合数据增强而得到。
159.步骤s706,使用关键词预测模型从待检测语音中提取出噪声增强特征。
160.步骤s708,从待检测语音中去除噪声增强特征,以识别出目标关键词。
161.步骤s710,通过调用第二接口输出目标关键词,其中,第二接口包括第二参数,第二参数的参数值为目标关键词。
162.在本技术上述步骤s710提供的技术方案中,第二接口可以是服务器与客户端之间进行数据交互的接口,服务器可以将目标关键词传入第二接口中,作为第二接口的一个参数,实现输出目标关键词的目的。
163.通过上述步骤,通过调用第一接口获取监测到的待检测语音,其中,待检测语音中包含了需要检测的至少一目标关键词,第一接口包括第一参数,第一参数的参数值为待检测语音;调用关键词预测模型,其中,关键词预测模型为基于多个第一噪声增强样本之间的交叉熵损失进行监督学习,以及基于多个第二噪声增强样本之间的对比损失进行对比学习而训练生成,多个第一噪声增强样本为对第一语音样本进行混合数据增强而得到,不同第二噪声增强样本分别为对相同类型的多个第二语音样本进行混合数据增强而得到;使用关键词预测模型从待检测语音中提取出噪声增强特征;从待检测语音中去除噪声增强特征,以识别出目标关键词;通过调用第二接口输出目标关键词,其中,第二接口包括第二参数,第二参数的参数值为目标关键词,从而实现了提高对关键词进行检测的鲁棒性的技术效果,解决了对关键词进行检测的鲁棒性低的技术问题。
164.实施例2
165.关键词检索可以用于在给定的话语中检测预先确定的单词,比如,应用允许通过对手机发出命令“你好(比如,hey siri)”来激活手机,则当在话语中检测到hey siri时,可以激活手机。
166.在相关技术中,提供了一种关键词检索模型,可以通过该模型完成语音交互应用功能,完成对给定话语中的单词进行检索,但是,目前构建该模型主要依赖于干净或近距离交谈的音频集,因此,在噪声条件下,训练得到的模型鲁棒性较差,存在噪声鲁棒性,即在噪声环境下,精度下降,存在错误激活的情况,从而存在对关键词进行检测的鲁棒性低的技术问题。
167.目前,在充满噪声的环境中使用关键词检索模型的情况越来越普遍,比如,在开车时会部署在交通中间,但是在这种情况下,关键词检索模型很容易受到交通噪声的影响。因此,需要建立噪声鲁棒关键词检索模型。
168.在相关技术中,通过多条件训练,使模型适应多个级别的信噪比噪声。然而,在没有任何额外的噪声增强计算的情况下,特征表示仍然受到低信噪比snr噪声更严重影响。因此,多条件训练在很大程度上依赖于网络来适应和推广,以适应所选的信噪比snr噪声环境。但是在条件调节范围外,对于具有不同信噪比snr的不同噪声中的关键词的识别性能预计会较差,特别是对于复杂性较低的关键词检索模型。
169.为了实现更好的表示,关键词预测模型需要对用于预测类的关键表示特征有更多的意识,并减少噪声的影响。这使得对比学习框架成为提高模型噪声鲁棒性的潜在手段。图8(a)是根据相关技术中的一种对比学习的示意图。如图8(a)所示,对比学习旨在通过在嵌入空间中拉近样本的表示,同时推开其他样本(称为负),比如,拉进有汽车噪声的样本#12和有地铁噪声的样本#12之间的距离,推开有地铁噪声的样本#1、有交通噪声的样本#2,有
车噪声的样本#3和有交通噪声的样本#4之间的距离,从而实现提取样本的两个不同增强视图(称为正)之间的内在特征。通过将正对与两个不同增强的噪声进行对比,同时,可以在概念上减少噪声的影响,以实现更高质量的特征。但是,该模型被强制学习鲁棒语音表示(关键词特征),并排斥输入样本中的噪声信息。
170.为解决上述问题,本技术实施例提出一种利用内部对比正则化提高关键词检索的噪声鲁棒性,通过添加第二个约束来帮助改进特征表示,从而实现在不改变模型架构设计的情况下提高性能,进一步能提高对不可见噪声的鲁棒性,降低信噪比。
171.图8(b)是根据本技术实施例的一种正则化框架的示意图。如图8(b)所示,本技术实施例中提出了一种对比正则化(inter-intra,简称为i2cr)方法,以提高kws模型的噪声鲁棒性。通过既使用给定样本内的增强样本(比如,图8(b)中的样本#13)作为正样本,也使用具有相同标签的其他样本(比如,图8(b)中的样本#15和样本#18)作为正样本,从而缓解了传统交叉熵和对比学习的问题,使得可以完成更好的语音表示和更快的训练。如图8(b)所示,本技术实施例可以与其他增强一起使用加性噪声,实验结果表明,本技术实施例提出的对比正则化方法对域内噪声和域外噪声都有较好的鲁棒性。
172.在相关技术中,传统的监督学习的关键词预测模型侧重于识别关联模式,以区分来自多个类的数据,但该方法关键词预测模型无法抑制负面因素,比如,负面因素可以为说话人的、说话风格和背景噪声等。由于无法抑制负面因素导致噪声关键词检索的性能下降。也就是说,潜在表示的嵌入可能被背景噪声严重支配。本技术实施例通过对比学习约束自身,使正视图上的信息最大化,并使负视图上的信息最小化。通过噪声增强,可以从样本中创建一个双视图,并使用对比学习约束来鼓励模型更多地专注于从两个不同的噪声增强音频中提取广义类特征。从而有助于减少潜在特征中编码的噪声量,从而使模型对噪声具有鲁棒性。
173.本技术实施例提出了由训练组成的自监督对比学习框架。图8(c)是根据本技术实施例的一种正则化监督模型的示意图。如图8(c)所示,我们可以首先执行自监督的预训练,然后对标记数据进行监督微调。然而,这通常需要大量的训练资源(例如,大型的预训练数据集),优化是具有挑战性的,比如,可能会存在对比自监督学习中的维度崩溃。在这项工作中,我们通过将交叉熵的监督学习与对比损失的对比学习相结合作为正则化器,从而抵消了监督学习的局限性,利用来自监督损失来稳定来自维度崩溃的训练,并在噪声环境下提高来自对比损失的模型的鲁棒性。
174.在该实施例中,可以将锚实例与多个更积极的视图配对来增强锚对,通过从正对集合中增加引用,允许模型更好地推断类表示的嵌入。模型来编码除了类的信息之外不包含其他属性的基本特征。因此,这些正对应该来自同一类组的不同说话者的不同样本(即,视图间对比)。由于标签是在监督训练期间提供的,因此,可以通过识别相同目标标签的样本,从小批中形成正对(即,视图间与视图内)。可选地,可以通过以下公式计算对比损失:
[0175][0176]
其中,p(i)可以是所有正对的指标集,sim(zi,zp)可以是归一化向量zi和zp之间的点积(余弦相似度)。
[0177]
可选地,在有监督标签的环境训练中,相同类的不同样本可以为从多个正视图中提取得到的,多个正视图可以来自模型训练时的采样样本中的子集(mini batch)。针对每次迭代(iteration),可以利用标签把相同类的样本提出,对获取到的样本进行聚类以实现内部视图之间的配对,可以基于配对结果计算出损失函数,可以基于损失函数对模型参数进行调整。
[0178]
正则化监督模型是通过对交叉熵的损失函数(l
ce
)和对比损失的损失函数(l
i2cr
)进行组合训练关键词预测模型。其中,带有交叉熵(cross entropy,简称为ce)的对比正则化器有助于直接优化网络,减少了麻烦,并提高了噪声鲁棒。其中,对比损失可以作为正则化器,可以实现对语音进行分类的域泛化,从而可以达到扩大模型的使用范围的目的。
[0179]
可选地,可以通过以下公式得到组合损失函数(l):
[0180]
l=l
ce
+αl
i2cr
[0181]
其中,l
ce
是监督学习的交叉熵损失,l
i2cr
是作为正则化器的对比损失。α是赋予正则化器的权重,该权重可以用于衡量附加对比约束的程度。
[0182]
如图8(c)所示,通过噪音增强,可以从样本中创建一个双视图,并使用对比学习来约束正则化监督模型更多的关注两个噪声增强音频(样本)中提取的广义类特征,从而有助于减少潜在特征中编码的噪声量,使得正则化监督模型对噪声具有鲁棒性。
[0183]
可选地,如图8(c)所示,可以随机采样两个样本(样本1和样本2),对两个样本进行混合增强处理,得到模型的输入数据,可以通过以下公式得到混合后的输入数据:
[0184]
μ*样本1+(1-μ)*样本2
[0185]
其中,μ可以为混合系数,可以取自贝塔(beta)分布。
[0186]
在该实施例中,通过对获取到的数据进行混合的数据增强,从而减少了模型在优化过程中的过拟合,提高模型预测的准确率。
[0187]
传统的对比学习,比如,n对损失等,通常是使用来自锚样本的单个增强视图作为正样本,但是,从单一实例中学习,存在效率低的问题。因此,本技术实施例中对数据进行混合,提出一种涉及使用不同增强噪声的多个(正)视图来改进特征学习。不同增强噪声的多个视图可以通过在干净的语音下对随机采样的背景噪声进行相加,从而达到人工模拟真实的噪声环境的目的。
[0188]
由于在现有的真实数据中一般很难有多视角噪声的平行样本,因此,本技术实施例为了获得多视角背景噪声的平行样本,可以通过计算信噪比去调试然后将噪声声量相加到语音中。
[0189]
由于一开始增加的噪声如果太大,会影响模型开始辨认(正)多视样本中的相似特征,存在不好收敛的问题,因此,在本技术实施例中,可以在训练的时候,提供固定的噪声数据,在训练时慢慢加大snrs噪声,比如,可以从无噪声到20db,可以从无噪声到20db最后到15db;可以从无噪声到20db,再到15db,再到10db,一直到20db到-10db。
[0190]
可选地,再模拟噪声语音同时,也可以对语音做出其他的处理,以达到数据增强的目的。比如,可以对语音进行音调变换,随机降低或提高说话的音调;可以对语音进行编解码器增强,通过使用编解码器声码器合成音频;可以通过时移、速度扰动、视频遮蔽等方式对数据进行增强处理。在本技术实施例中,提供多种数据增强的方法,可以根据使用的广义场景选择不同的数据增强方法,从而提高模型与使用场景的适配性。
[0191]
在该实施例中,在属于相同类的不同样本上执行数据增强的操作,而不是只是从相同输入实例中增强噪声。也即,本技术实施例避免了相关技术中的只是单纯从相同输入实例中增强噪声的方法,从而减少了模型被其他不利因素影响的可能,进而提高模型预测的准确性。其中,不利因素可以为说话人身份、音高等,此处仅为举例说明,不对不利因素做具体限制。
[0192]
如图8(c)所示,可以使用由贝塔系数加权的二进制交叉熵损失来学习混合输入,也即,可以通过添加贝塔权重(betacoefficient)计算交叉熵,从而提高模型预测的准确性。
[0193]
在该实施例中,可以基于多个增强样本之间的交叉熵对关键词预测模型进行监督学习
[0194]
在该实施例中,可以使用对比损失来抑制功能编码模块中的干扰因素(比如,说话人的、说话风格和背景噪声)。从“n-pair loss”修改,添加来自相同样本类型的多个正视图,以限制编码特征,最大化一致信息(内容),同时,最小化其他噪声以改善最终表征(表示)。类似的,可以根据贝塔系数对对比的相似度点积进行加权。
[0195]
可选地,在训练下游任务时,可以对正则化项给予一个权重系数做相加,从而实现在标准交叉熵损失中添加了一个正则化项,其中,权重系数可以从0线性增长的方式至0.5最大。
[0196]
如图8(c)所示,对输入数据(dataloader)进行处理,可以得到3个返回的对象(items),在之前可以随机采样同一类的两个语音样本(样本1和样本2),可以基于贝塔系数对样本1和样本2进行相加。且处理的监督学习标签可以包括声音1(utterance1)和与声音1相同标签的声音2,声音3(utterance2)和与样声音3具有相同标签的声音4。
[0197]
在本技术实施例中,可以在标准交叉熵损失中增加正则化器,正则化器可以采用最大相似性(maximizingsimilarity)损失。当同类的语音再具有最大相似性的时候,关键词预测模型可以针对特征里出相同的特征代表样本的潜在特征。加了不同噪音和不同样本但同类的语音,关键词预测模型会学习他们相同及代表性的特征,且减少其他不相同(干扰因素)的特征做编码,以达到约束关键词预测模型对干扰因素(尤其是噪声)的编码的目的。
[0198]
在该实施例中,可以从多对损失修改关键词预测模型,可以添加来自同一类样本的多个视图(相同类的不同样本),施加更严格的限制,以改进编码特征表示。本技术实施例利用正则化项提最大化取相同的主要内容同时去噪音讯息会帮助模型在标准交叉熵损失预测的更准确。且本技术实施例可以让模型在新框架上进行持续的微调,从而使现有的系统受益。
[0199]
本技术实施例提高了关键词预测模型在极低信噪比环境下的精度,并且在更宽的信噪比范围内表现出更稳定的性能。本技术实施例通过在标准交叉熵损失上施加正则化约束(对比损失),实现了更好的表示学习,从而实现了提高对关键词进行检测的鲁棒性的技术效果,解决了对关键词进行检测的鲁棒性低的技术问题。
[0200]
另一种可选实施例中,图9以框图示出了使用上述图1所示的计算机终端(或移动设备)作为服务网格的一种实施例。图9是根据本技术实施例的一种语音中关键词的检测方法的服务网格的结构框图,如图9所示,该服务网格900主要用于方便多个微服务之间进行
安全和可靠的通信,微服务是指将应用程序分解为多个较小的服务或者实例,并分布在不同的集/机器上运行。
[0201]
如图9所示,微服务可以包括应用服务实例a和应用服务实例b,应用服务实例a和应用服务实例b形成服务网格900的功能应用层。在一种实施方式中,应用服务实例a以容器/进程908的形式运行在机器/工作负载容器组914(pod),应用服务实例b以容器/进程910的形式运行在机器/工作负载容器组916(pod)。
[0202]
在一种实施方式中,应用服务实例a可以是商品查询服务,应用服务实例b可以是商品下单服务。
[0203]
如图9所示,应用服务实例a和网格代理(sidecar)903共存于机器工作负载容器组914,应用服务实例b和网格代理905共存于机器工作负载容器914。网格代理903和网格代理905形成服务网格900的数据平面层(data plane)。其中,网格代理9003和网格代理905分别以容器/进程904,容器/进程904可以接收请求912,以用于进行商品查询服务,网格代理906的形式在运行,并且网格代理903和应用服务实例a之间可以双向通信,网格代理905和应用服务实例b之间可以双向通信。此外,网格代理903和网格代理905之间还可以双向通信。
[0204]
在一种实施方式中,应用服务实例a的所有流量都通过网格代理903被路由到合适的目的地,应用服务实例b的所有网络流量都通过网格代理905被路由到合适的目的地。需要说明的是,在此提及的网络流量包括但不限于超文本传输协议(hyper text transfer protocol,简称为http),表述性状态传递(representational state transfer,简称为rest),高性能、通用的开源框架(grpc),开源的内存中的数据结构存储系统(redis)等形式。
[0205]
在一种实施方式中,可以通过为服务网格900中的代理(envoy)编写自定义的过滤器(filter)来实现扩展数据平面层的功能,服务网格代理配置可以是为了使服务网格正确地代理服务流量,实现服务互通和服务治理。网格代理903和网格代理905可以被配置成执行至少如下功能中的一种:服务发现(service discovery),健康检查(health checking),路由(routing),负载均衡(load balancing),认证和授权(authentication and authorization),以及可观测性(observability)。
[0206]
如图9所示,该服务网格900还包括控制平面层。其中,控制平面层可以是由一组在一个专用的命名空间中运行的服务,在机器/工作负载容器组(machine/pod)9002中由托管控制面组件901来托管这些服务。如图9所示,托管控制面组件901与网格代理903和网格代理905进行双向通信。托管控制面组件901被配置成执行一些控制管理的功能。例如,托管控制面组件901接收网格代理903和网格代理905传送的遥测数据,可以进一步对这些遥测数据做聚合。这些服务,托管控制面组件901还可以提供面向用户的应用程序接口(api),以便较容易地操纵网络行为,以及向网格代理903和网格代理905提供配置数据等。需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本技术并不受所描述的动作顺序的限制,因为依据本技术,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本技术所必须的。
[0207]
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本技术并不受所描述的动作顺序的限制,因为
依据本技术,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本技术所必须的。
[0208]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用使得得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本技术各个实施例的方法。
[0209]
实施例3
[0210]
根据本技术实施例,还提供了一种用于实施上述图2所示的语音中关键词的检测方法的语音中关键词的检测装置。
[0211]
图10是根据本技术实施例的一种语音中关键词的检测装置的示意图。如图10所示,该语音中关键词的检测装置1000可以包括:第一采集单元1002、第一调用单元1004、第一提取单元1006和第一处理单元1008。
[0212]
第一采集单元1002,用于采集监测到的待检测语音,其中,待检测语音中包含了需要检测的至少一目标关键词。
[0213]
第一调用单元1004,用于调用关键词预测模型,其中,关键词预测模型为基于多个第一噪声增强样本之间的交叉熵损失进行监督学习,以及基于多个第二噪声增强样本之间的对比损失进行对比学习而训练生成,多个第一噪声增强样本为对第一语音样本进行混合数据增强而得到,不同第二噪声增强样本分别为对相同类型的多个第二语音样本进行混合数据增强而得到。
[0214]
第一提取单元1006,用于使用关键词预测模型从待检测语音中提取出噪声增强特征。
[0215]
第一处理单元1008,用于从待检测语音中去除噪声增强特征,以识别出目标关键词。
[0216]
此处需要说明的是,上述第一采集单元1002、第一调用单元1004、第一提取单元1006和第一处理单元1008对应于实施例1中的步骤s202至步骤s208,四个单元与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述单元作为装置的一部分可以运行在实施例1提供的计算机终端中。
[0217]
根据本技术实施例,还提供了一种用于实施上述图3所示的模型的确定方法的模型的确定装置。
[0218]
图11是根据本技术实施例的另一种模型的确定装置的示意图,如图11所示,该模型的确定装置1100可以包括:第一获取单元1102、第一增强单元1104、第一确定单元1106和第二处理单元1108。
[0219]
第一获取单元1102,用于获取第一语音样本和多个第二语音样本,其中,多个第二语音样本的类型相同。
[0220]
第一增强单元1104,用于对第一语音样本进行混合数据增强,得到多个第一噪声增强样本,且分别对相同类型的第二语音样本进行混合数据增强,得到多个第二噪声增强
样本。
[0221]
第一确定单元1106,用于确定多个第一噪声增强样本之间的交叉熵损失,以及确定多个第二噪声增强样本之间的对比损失。
[0222]
第二处理单元1108,用于基于交叉熵损失对第一语音样本进行自监督学习,且基于对比损失对多个第二语音样本进行对比学习,得到关键词预测模型,其中,关键词预测模型用于从待检测语音中提取出噪声增强特征,以识别出待检测语音中的目标关键词。
[0223]
此处需要说明的是,上述第一获取单元1102、第一增强单元1104、第一确定单元1106和第二处理单元1108对应于实施例1中的步骤s302至步骤s308,四个单元与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述单元作为装置的一部分可以运行在实施例1提供的计算机终端中。
[0224]
根据本技术实施例,还提供了一种用于实施上述图4所示的语音中关键词的检测方法的语音中关键词的检测装置。
[0225]
图12是根据本技术实施例的另一种语音中关键词的检测装置的示意图,如图12所示,该语音中关键词的检测装置1200可以包括:第二采集单元1202、第二提取单元1204、第一识别单元1206和第一激活单元1208。
[0226]
第二采集单元1202,用于采集向客户端发送的待检测语音,其中,待检测语音中包含了需要检测的至少一目标关键词。
[0227]
第二提取单元1204,用于使用关键词预测模型从待检测语音中提取出噪声增强特征,其中,关键词预测模型为基于多个第一噪声增强样本之间的交叉熵损失进行监督学习,以及基于多个第二噪声增强样本之间的对比损失进行对比学习而训练生成,多个第一噪声增强样本为对第一语音样本进行混合数据增强而得到,不同第二噪声增强样本分别为对相同类型的多个第二语音样本进行混合数据增强而得到。
[0228]
第一识别单元1206,用于从待检测语音中去除噪声增强特征,以识别出目标关键词。
[0229]
第一激活单元1208,用于基于目标关键词激活客户端。
[0230]
此处需要说明的是,上述第二采集单元1202、第二提取单元1204、第一识别单元1206和第一激活单元1208对应于实施例1中的步骤s402至步骤s408,四个单元与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述单元作为装置的一部分可以运行在实施例1提供的计算机终端中。
[0231]
根据本技术实施例,还提供了一种用于实施上述图5所示的语音生成方法的语音生成装置。
[0232]
图13是根据本技术实施例的一种语音生成装置的示意图,如图13所示,该语音生成装置1300可以包括:第三采集单元1302、第三提取单元1304、第三处理单元1306和第四处理单元1308。
[0233]
第三采集单元1302,用于采集监测到的待检测语音,其中,待检测语音中包含了需要检测的至少一目标关键词。
[0234]
第三提取单元1304,用于使用关键词预测模型从待检测语音中提取出噪声增强特征,其中,关键词预测模型为基于多个第一噪声增强样本之间的交叉熵损失进行监督学习,以及基于多个第二噪声增强样本之间的对比损失进行对比学习而训练生成,多个第一噪声
增强样本为对第一语音样本进行混合数据增强而得到,不同第二噪声增强样本分别为对相同类型的多个第二语音样本进行混合数据增强而得到。
[0235]
第三处理单元1306,用于从待检测语音中去除噪声增强特征,以识别出目标关键词。
[0236]
第四处理单元1308,用于基于目标关键词生成目标语音,且播放目标语音,其中,目标语音包括对待检测语音的答复内容。
[0237]
此处需要说明的是,上述第三采集单元1302、第三提取单元1304、第三处理单元1306和第四处理单元1308对应于实施例1中的步骤s502至步骤s508,四个单元与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述单元作为装置的一部分可以运行在实施例1提供的计算机终端中。
[0238]
根据本技术实施例,还提供了另一种用于实施上述图6所示的语音中关键词的检测方法的语音中关键词的检测装置。
[0239]
图14是根据本技术实施例的另一种语音中关键词的检测装置的示意图,如图14所示,该语音中关键词的检测装置1400可以包括:输入单元1402、第四提取单元1404、第五处理单元1406和第二激活单元1408。
[0240]
输入单元1402,用于在虚拟现实vr设备或增强现实ar设备上输入待检测语音,其中,待检测语音中包含了需要检测的至少一目标关键词。
[0241]
第四提取单元1404,用于使用关键词预测模型从待检测语音中提取出噪声增强特征,其中,关键词预测模型为基于多个第一噪声增强样本之间的交叉熵损失进行监督学习,以及基于多个第二噪声增强样本之间的对比损失进行对比学习而训练生成,多个第一噪声增强样本为对第一语音样本进行混合数据增强而得到,不同第二噪声增强样本分别为对相同类型的多个第二语音样本进行混合数据增强而得到。
[0242]
第五处理单元1406,用于从待检测语音中去除噪声增强特征,以识别出目标关键词。
[0243]
第二激活单元1408,用于使用目标关键词激活vr设备或ar设备。
[0244]
此处需要说明的是,上述输入单元1402、第四提取单元1404、第五处理单元1406和第二激活单元1408对应于实施例1中的步骤s602至步骤s608,四个单元与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述单元作为装置的一部分可以运行在实施例1提供的计算机终端中。
[0245]
根据本技术实施例,还提供了另一种用于实施上述图7所示的语音中关键词的检测方法的语音中关键词的检测装置。
[0246]
图15是根据本技术实施例的另一种语音中关键词的检测装置的示意图,如图15所示,该语音中关键词的检测装置1500可以包括:第二获取单元1502、第六处理单元1504、第五提取单元1506、第七处理单元1508和输出单元1510。
[0247]
第二获取单元1502,用于通过调用第一接口获取监测到的待检测语音,其中,待检测语音中包含了需要检测的至少一目标关键词,第一接口包括第一参数,第一参数的参数值为待检测语音。
[0248]
第六处理单元1504,用于调用关键词预测模型,其中,关键词预测模型为基于多个第一噪声增强样本之间的交叉熵损失进行监督学习,以及基于多个第二噪声增强样本之间
的对比损失进行对比学习而训练生成,多个第一噪声增强样本为对第一语音样本进行混合数据增强而得到,不同第二噪声增强样本分别为对相同类型的多个第二语音样本进行混合数据增强而得到。
[0249]
第五提取单元1506,用于使用关键词预测模型从待检测语音中提取出噪声增强特征。
[0250]
第七处理单元1508,用于从待检测语音中去除噪声增强特征,以识别出目标关键词。
[0251]
输出单元1510,用于通过调用第二接口输出目标关键词,其中,第二接口包括第二参数,第二参数的参数值为目标关键词。
[0252]
此处需要说明的是,上述第二获取单元1502、第六处理单元1504、第五提取单元1506、第七处理单元1508和输出单元1510对应于实施例1中的步骤s702至步骤s710,五个单元与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述单元作为装置的一部分可以运行在实施例1提供的计算机终端中。
[0253]
在该实施例的语音中关键词的检测装置中,基于多个第一噪声增强样本之间的交叉熵损失进行监督学习,且基于多个第二噪声增强样本之间的对比损失进行对比学习生成关键词预测模型,以完成对关键词预测模型的严格限制,本技术实施例不是从单一实例中进行噪声增强,有助于直接优化关键词预测模型,并且输入的待检测语音是通过混合增强得到的,从而避免了关键词预测模型的过训练拟合,进而实现了提高对关键词进行检测的鲁棒性的技术效果,解决了对关键词进行检测的鲁棒性低的技术问题。
[0254]
实施例4
[0255]
本技术的实施例可以提供一种处理器,该处理器可以包括计算机终端,该计算机终端可以是计算机终端中的任意一个计算机终端设备。可选地,在本实施例中,上述计算机终端也可以替换为移动终端等终端设备。
[0256]
可选地,在本实施例中,上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。
[0257]
在本实施例中,上述计算机终端可以执行应用程序的语音中关键词的检测方法中以下步骤的程序代码:采集监测到的待检测语音,其中,待检测语音中包含了需要检测的至少一目标关键词;调用关键词预测模型,其中,关键词预测模型为基于多个第一噪声增强样本之间的交叉熵损失进行监督学习,以及基于多个第二噪声增强样本之间的对比损失进行对比学习而训练生成,多个第一噪声增强样本为对第一语音样本进行混合数据增强而得到,不同第二噪声增强样本分别为对相同类型的多个第二语音样本进行混合数据增强而得到;使用关键词预测模型从待检测语音中提取出噪声增强特征;从待检测语音中去除噪声增强特征,以识别出目标关键词。
[0258]
可选地,图16是根据本技术实施例的一种计算机终端的结构框图。如图16所示,该计算机终端a可以包括:一个或多个(图中仅示出一个)处理器1602、存储器1604、以及传输装置1606。
[0259]
其中,存储器可用于存储软件程序以及模块,如本技术实施例中的语音中关键词的检测方法和装置对应的程序指令/模块,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及预测,即实现上述的语音中关键词的检测方法。存储器
可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至终端a。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0260]
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:采集监测到的待检测语音,其中,待检测语音中包含了需要检测的至少一目标关键词;调用关键词预测模型,其中,关键词预测模型为基于多个第一噪声增强样本之间的交叉熵损失进行监督学习,以及基于多个第二噪声增强样本之间的对比损失进行对比学习而训练生成,多个第一噪声增强样本为对第一语音样本进行混合数据增强而得到,不同第二噪声增强样本分别为对相同类型的多个第二语音样本进行混合数据增强而得到;使用关键词预测模型从待检测语音中提取出噪声增强特征;从待检测语音中去除噪声增强特征,以识别出目标关键词。
[0261]
可选地,上述处理器还可以执行如下步骤的程序代码:对第一语音样本中的第一随机采样噪声数据按照第一混合系数进行混合数据增强,得到第一噪声增强样本,其中,第一随机采样噪声数据随着关键词预测模型的训练轮次增大而增大,第一混合系数符合贝塔分布;对第二语音样本中的第二随机采样噪声数据按照第二混合系数进行混合数据增强,得到第二噪声样本,其中,第二随机采样噪声数据随着关键词预测模型的训练轮次增大而增大,第二混合系数符合贝塔分布。
[0262]
可选地,上述处理器还可以执行如下步骤的程序代码:基于交叉熵损失对第一语音样本进行自监督学习,且基于对比损失对多个第二语音样本进行对比学习,得到关键词预测模型。
[0263]
可选地,上述处理器还可以执行如下步骤的程序代码:基于交叉熵损失和对比损失建立正则化器,其中,正则化器用于使关键词预测模型禁止对噪声增强特征进行编码;基于正则化器对第一语音样本进行自监督学习,且对多个第二语音样本进行对比学习,得到关键词预测模型。
[0264]
可选地,上述处理器还可以执行如下步骤的程序代码:对交叉熵损失和对比损失进行加权求和,得到目标损失,其中,对比损失对应的权重用于表示对比损失对关键词预测模型的约束程度,权重随着关键词预测模型的训练轮次增大而线性增加;建立与目标损失对应的正则化器。
[0265]
可选地,上述处理器还可以执行如下步骤的程序代码:基于正则化器对第一语音样本进行自监督学习,且对多个第二语音样本进行对比学习,得到模型调整参数;基于模型调整参数调整初始关键词预测模型的参数,得到关键词预测模型。
[0266]
可选地,上述处理器还可以执行如下步骤的程序代码:从待检测语音中去除噪声增强特征,得到关键词特征;获取由关键词特征表示的目标关键词。
[0267]
可选地,上述处理器还可以执行如下步骤的程序代码:第一噪声增强样本和第二噪声增强样本之间的相似度大于第一相似度阈值。
[0268]
作为一种可选的示例,处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:获取第一语音样本和多个第二语音样本,其中,多个第二语音样本的类型相同;对第一语音样本进行混合数据增强,得到多个第一噪声增强样本,且分别对相同
类型的第二语音样本进行混合数据增强,得到多个第二噪声增强样本;确定多个第一噪声增强样本之间的交叉熵损失,以及确定多个第二噪声增强样本之间的对比损失;基于交叉熵损失对第一语音样本进行自监督学习,且基于对比损失对多个第二语音样本进行对比学习,得到关键词预测模型,其中,关键词预测模型用于从待检测语音中提取出噪声增强特征,以识别出待检测语音中的目标关键词。
[0269]
作为一种可选的示例,处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:采集向客户端发送的待检测语音,其中,待检测语音中包含了需要检测的至少一目标关键词;使用关键词预测模型从待检测语音中提取出噪声增强特征,其中,关键词预测模型为基于多个第一噪声增强样本之间的交叉熵损失进行监督学习,以及基于多个第二噪声增强样本之间的对比损失进行对比学习而训练生成,多个第一噪声增强样本为对第一语音样本进行混合数据增强而得到,不同第二噪声增强样本分别为对相同类型的多个第二语音样本进行混合数据增强而得到;从待检测语音中去除噪声增强特征,以识别出目标关键词;基于目标关键词激活客户端。
[0270]
可选地,上述处理器还可以执行如下步骤的程序代码:响应于目标关键词与客户端关联的预定关键词相似度大于第二相似度阈值,激活客户端。
[0271]
作为一种可选的示例,处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:采集监测到的待检测语音,其中,待检测语音中包含了需要检测的至少一目标关键词;使用关键词预测模型从待检测语音中提取出噪声增强特征,其中,关键词预测模型为基于多个第一噪声增强样本之间的交叉熵损失进行监督学习,以及基于多个第二噪声增强样本之间的对比损失进行对比学习而训练生成,多个第一噪声增强样本为对第一语音样本进行混合数据增强而得到,不同第二噪声增强样本分别为对相同类型的多个第二语音样本进行混合数据增强而得到;从待检测语音中去除噪声增强特征,以识别出目标关键词;基于目标关键词生成目标语音,且播放目标语音,其中,目标语音包括对待检测语音的答复内容。
[0272]
作为一种可选的示例,处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:在虚拟现实vr设备或增强现实ar设备上输入待检测语音,其中,待检测语音中包含了需要检测的至少一目标关键词;使用关键词预测模型从待检测语音中提取出噪声增强特征,其中,关键词预测模型为基于多个第一噪声增强样本之间的交叉熵损失进行监督学习,以及基于多个第二噪声增强样本之间的对比损失进行对比学习而训练生成,多个第一噪声增强样本为对第一语音样本进行混合数据增强而得到,不同第二噪声增强样本分别为对相同类型的多个第二语音样本进行混合数据增强而得到;从待检测语音中去除噪声增强特征,以识别出目标关键词;使用目标关键词激活vr设备或ar设备。
[0273]
作为一种可选的示例,处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:通过调用第一接口获取监测到的待检测语音,其中,待检测语音中包含了需要检测的至少一目标关键词,第一接口包括第一参数,第一参数的参数值为待检测语音;调用关键词预测模型,其中,关键词预测模型为基于多个第一噪声增强样本之间的交叉熵损失进行监督学习,以及基于多个第二噪声增强样本之间的对比损失进行对比学习而训练生成,多个第一噪声增强样本为对第一语音样本进行混合数据增强而得到,不同第二噪声增强样本分别为对相同类型的多个第二语音样本进行混合数据增强而得到;使用关键
词预测模型从待检测语音中提取出噪声增强特征;从待检测语音中去除噪声增强特征,以识别出目标关键词;通过调用第二接口输出目标关键词,其中,第二接口包括第二参数,第二参数的参数值为目标关键词。
[0274]
本技术实施例响应来自计算发起端的计算请求,从计算发起端的网络通道中获取计算发起端的样本特征和样本标签,且从计算协作端的网络通道中获取计算协作端的样本特征;基于计算发起端的样本特征、样本标签以及计算协作端的样本特征,训练得到数据预测模型,其中,数据预测模型用于表征计算发起端的样本特征、计算协作端的样本特征与样本标签之间的映射关系;将数据预测模型下发至计算发起端,实现了提高了数据安全处理的效率的技术效果,解决了对关键词进行检测的鲁棒性低的技术问题。
[0275]
本领域普通技术人员可以理解,图16示的结构仅为示意,计算机终端a也可以是智能手机(如、平板电脑、掌声电脑以及移动互联网设备(mobile internet devices,mid)、pad等终端设备。图16并不对上述计算机终端a的结构造成限定。例如,计算机终端a还可包括比图16所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图16所示不同的配置。
[0276]
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(read-only memory,rom)、随机存取器(random access memory,ram)、磁盘或光盘等。
[0277]
实施例6
[0278]
本技术的实施例还提供了一种计算机可读存储介质。可选地,在本实施例中,上述计算机可读存储介质可以用于保存上述实施例1所提供的语音中关键词的检测方法所执行的程序代码。
[0279]
可选地,在本实施例中,上述计算机可读存储介质可以位于计算机网络中计算机终端中的任意一个计算机终端中,或者位于移动终端中的任意一个移动终端中。
[0280]
可选地,在本实施例中,上述计算机可读存储介质被设置为存储用于执行以下步骤的程序代码:第一随机采样噪声数据按照第一混合系数进行混合数据增强,得到第一噪声增强样本,其中,第一随机采样噪声数据随着关键词预测模型的训练轮次增大而增大,第一混合系数符合贝塔分布;对第二语音样本中的第二随机采样噪声数据按照第二混合系数进行混合数据增强,得到第二噪声样本,其中,第二随机采样噪声数据随着关键词预测模型的训练轮次增大而增大,第二混合系数符合贝塔分布。
[0281]
可选地,上述计算机可读存储介质还可以执行如下步骤的程序代码:基于交叉熵损失对第一语音样本进行自监督学习,且基于对比损失对多个第二语音样本进行对比学习,得到关键词预测模型。
[0282]
可选地,上述计算机可读存储介质还可以执行如下步骤的程序代码:基于交叉熵损失和对比损失建立正则化器,其中,正则化器用于使关键词预测模型禁止对噪声增强特征进行编码;基于正则化器对第一语音样本进行自监督学习,且对多个第二语音样本进行对比学习,得到关键词预测模型。
[0283]
可选地,上述计算机可读存储介质还可以执行如下步骤的程序代码:对交叉熵损失和对比损失进行加权求和,得到目标损失,其中,对比损失对应的权重用于表示对比损失
对关键词预测模型的约束程度,权重随着关键词预测模型的训练轮次增大而线性增加;建立与目标损失对应的正则化器。
[0284]
可选地,上述计算机可读存储介质还可以执行如下步骤的程序代码:基于正则化器对第一语音样本进行自监督学习,且对多个第二语音样本进行对比学习,得到模型调整参数;基于模型调整参数调整初始关键词预测模型的参数,得到关键词预测模型。
[0285]
可选地,上述计算机可读存储介质还可以执行如下步骤的程序代码:从待检测语音中去除噪声增强特征,得到关键词特征;获取由关键词特征表示的目标关键词。
[0286]
可选地,上述计算机可读存储介质还可以执行如下步骤的程序代码:第一噪声增强样本和第二噪声增强样本之间的相似度大于第一相似度阈值。
[0287]
作为一种可选的示例,计算机可读存储介质被设置为存储用于执行以下步骤的程序代码:获取第一语音样本和多个第二语音样本,其中,多个第二语音样本的类型相同;对第一语音样本进行混合数据增强,得到多个第一噪声增强样本,且分别对相同类型的第二语音样本进行混合数据增强,得到多个第二噪声增强样本;确定多个第一噪声增强样本之间的交叉熵损失,以及确定多个第二噪声增强样本之间的对比损失;基于交叉熵损失对第一语音样本进行自监督学习,且基于对比损失对多个第二语音样本进行对比学习,得到关键词预测模型,其中,关键词预测模型用于从待检测语音中提取出噪声增强特征,以识别出待检测语音中的目标关键词。
[0288]
作为一种可选的示例,计算机可读存储介质被设置为存储用于执行以下步骤的程序代码:采集向客户端发送的待检测语音,其中,待检测语音中包含了需要检测的至少一目标关键词;使用关键词预测模型从待检测语音中提取出噪声增强特征,其中,关键词预测模型为基于多个第一噪声增强样本之间的交叉熵损失进行监督学习,以及基于多个第二噪声增强样本之间的对比损失进行对比学习而训练生成,多个第一噪声增强样本为对第一语音样本进行混合数据增强而得到,不同第二噪声增强样本分别为对相同类型的多个第二语音样本进行混合数据增强而得到;从待检测语音中去除噪声增强特征,以识别出目标关键词;基于目标关键词激活客户端。
[0289]
可选地,上述计算机可读存储介质还可以执行如下步骤的程序代码:响应于目标关键词与客户端关联的预定关键词相似度大于第二相似度阈值,激活客户端。
[0290]
作为一种可选的示例,计算机可读存储介质被设置为存储用于执行以下步骤的程序代码:采集监测到的待检测语音,其中,待检测语音中包含了需要检测的至少一目标关键词;使用关键词预测模型从待检测语音中提取出噪声增强特征,其中,关键词预测模型为基于多个第一噪声增强样本之间的交叉熵损失进行监督学习,以及基于多个第二噪声增强样本之间的对比损失进行对比学习而训练生成,多个第一噪声增强样本为对第一语音样本进行混合数据增强而得到,不同第二噪声增强样本分别为对相同类型的多个第二语音样本进行混合数据增强而得到;从待检测语音中去除噪声增强特征,以识别出目标关键词;基于目标关键词生成目标语音,且播放目标语音,其中,目标语音包括对待检测语音的答复内容。
[0291]
作为一种可选的示例,计算机可读存储介质被设置为存储用于执行以下步骤的程序代码:在虚拟现实vr设备或增强现实ar设备上输入待检测语音,其中,待检测语音中包含了需要检测的至少一目标关键词;使用关键词预测模型从待检测语音中提取出噪声增强特征,其中,关键词预测模型为基于多个第一噪声增强样本之间的交叉熵损失进行监督学习,
以及基于多个第二噪声增强样本之间的对比损失进行对比学习而训练生成,多个第一噪声增强样本为对第一语音样本进行混合数据增强而得到,不同第二噪声增强样本分别为对相同类型的多个第二语音样本进行混合数据增强而得到;从待检测语音中去除噪声增强特征,以识别出目标关键词;使用目标关键词激活vr设备或ar设备。
[0292]
作为一种可选的示例,计算机可读存储介质被设置为存储用于执行以下步骤的程序代码:通过调用第一接口获取监测到的待检测语音,其中,待检测语音中包含了需要检测的至少一目标关键词,第一接口包括第一参数,第一参数的参数值为待检测语音;调用关键词预测模型,其中,关键词预测模型为基于多个第一噪声增强样本之间的交叉熵损失进行监督学习,以及基于多个第二噪声增强样本之间的对比损失进行对比学习而训练生成,多个第一噪声增强样本为对第一语音样本进行混合数据增强而得到,不同第二噪声增强样本分别为对相同类型的多个第二语音样本进行混合数据增强而得到;使用关键词预测模型从待检测语音中提取出噪声增强特征;从待检测语音中去除噪声增强特征,以识别出目标关键词;通过调用第二接口输出目标关键词,其中,第二接口包括第二参数,第二参数的参数值为目标关键词。
[0293]
上述本技术实施例序号仅仅为了描述,不代表实施例的优劣。
[0294]
在本技术的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
[0295]
在本技术所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
[0296]
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0297]
另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0298]
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本技术各个实施例方法的全部或部分步骤。而前述的存储介质包括:u盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
[0299]
以上仅是本技术的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本技术原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本技术的保护范围。

技术特征:


1.一种语音中关键词的检测方法,其特征在于,包括:采集监测到的待检测语音,其中,所述待检测语音中包含了需要检测的至少一目标关键词;调用关键词预测模型,其中,所述关键词预测模型为基于多个第一噪声增强样本之间的交叉熵损失进行监督学习,以及基于多个第二噪声增强样本之间的对比损失进行对比学习而训练生成,所述多个第一噪声增强样本为对第一语音样本进行混合数据增强而得到,不同所述第二噪声增强样本分别为对相同类型的多个第二语音样本进行混合数据增强而得到;使用所述关键词预测模型从所述待检测语音中提取出噪声增强特征;从所述待检测语音中去除所述噪声增强特征,以识别出所述目标关键词。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:对所述第一语音样本中的第一随机采样噪声数据按照第一混合系数进行混合数据增强,得到所述第一噪声增强样本,其中,所述第一随机采样噪声数据随着所述关键词预测模型的训练轮次增大而增大,所述第一混合系数符合贝塔分布;对所述第二语音样本中的第二随机采样噪声数据按照第二混合系数进行混合数据增强,得到所述第二噪声样本,其中,所述第二随机采样噪声数据随着所述关键词预测模型的训练轮次增大而增大,所述第二混合系数符合贝塔分布。3.根据权利要求1所述的方法,其特征在于,所述方法还包括:基于所述交叉熵损失对所述第一语音样本进行自监督学习,且基于所述对比损失对所述多个第二语音样本进行对比学习,得到所述关键词预测模型。4.根据权利要求3所述的方法,其特征在于,基于所述交叉熵损失对所述第一语音样本进行自监督学习,且基于所述对比损失对所述多个第二语音样本进行对比学习,得到所述关键词预测模型,包括:基于所述交叉熵损失和所述对比损失建立正则化器,其中,所述正则化器用于使所述关键词预测模型禁止对所述噪声增强特征进行编码;基于所述正则化器对所述第一语音样本进行自监督学习,且对所述多个第二语音样本进行对比学习,得到所述关键词预测模型。5.根据权利要求4所述的方法,其特征在于,基于所述交叉熵损失和所述对比损失建立正则化器,包括:对所述交叉熵损失和所述对比损失进行加权求和,得到目标损失,其中,所述对比损失对应的权重用于表示所述对比损失对所述关键词预测模型的约束程度,所述权重随着所述关键词预测模型的训练轮次增大而线性增加;建立与所述目标损失对应的所述正则化器。6.根据权利要求4所述的方法,其特征在于,基于所述正则化器对所述第一语音样本进行自监督学习,且对所述多个第二语音样本进行对比学习,得到所述关键词预测模型,包括:基于所述正则化器对所述第一语音样本进行自监督学习,且对所述多个第二语音样本进行对比学习,得到模型调整参数;基于所述模型调整参数调整初始关键词预测模型的参数,得到所述关键词预测模型。
7.根据权利要求1所述的方法,其特征在于,从所述待检测语音中去除所述噪声增强特征,以识别出所述目标关键词,包括:从所述待检测语音中去除所述噪声增强特征,得到关键词特征;获取由所述关键词特征表示的所述目标关键词。8.根据权利要求1至7中任意一项所述的方法,其特征在于,所述第一噪声增强样本和所述第二噪声增强样本之间的相似度大于第一相似度阈值。9.一种模型的确定方法,其特征在于,包括:获取第一语音样本和多个第二语音样本,其中,所述多个第二语音样本的类型相同;对所述第一语音样本进行混合数据增强,得到多个第一噪声增强样本,且分别对相同类型的所述第二语音样本进行混合数据增强,得到多个第二噪声增强样本;确定所述多个第一噪声增强样本之间的交叉熵损失,以及确定所述多个第二噪声增强样本之间的对比损失;基于所述交叉熵损失对所述第一语音样本进行自监督学习,且基于所述对比损失对所述多个第二语音样本进行对比学习,得到关键词预测模型,其中,所述关键词预测模型用于从待检测语音中提取出噪声增强特征,以识别出所述待检测语音中的目标关键词。10.一种语音中关键词的检测方法,其特征在于,包括:采集向客户端发送的待检测语音,其中,所述待检测语音中包含了需要检测的至少一目标关键词;使用关键词预测模型从所述待检测语音中提取出噪声增强特征,其中,所述关键词预测模型为基于多个第一噪声增强样本之间的交叉熵损失进行监督学习,以及基于多个第二噪声增强样本之间的对比损失进行对比学习而训练生成,所述多个第一噪声增强样本为对第一语音样本进行混合数据增强而得到,不同所述第二噪声增强样本分别为对相同类型的多个第二语音样本进行混合数据增强而得到;从所述待检测语音中去除所述噪声增强特征,以识别出所述目标关键词;基于所述目标关键词激活所述客户端。11.根据权利要求10所述的方法,其特征在于,基于所述目标关键词激活所述客户端,包括:响应于所述目标关键词与所述客户端关联的预定关键词相似度大于第二相似度阈值,激活所述客户端。12.一种语音生成方法,其特征在于,包括:采集监测到的待检测语音,其中,所述待检测语音中包含了需要检测的至少一目标关键词;使用关键词预测模型从所述待检测语音中提取出噪声增强特征,其中,所述关键词预测模型为基于多个第一噪声增强样本之间的交叉熵损失进行监督学习,以及基于多个第二噪声增强样本之间的对比损失进行对比学习而训练生成,所述多个第一噪声增强样本为对第一语音样本进行混合数据增强而得到,不同所述第二噪声增强样本分别为对相同类型的多个第二语音样本进行混合数据增强而得到;从所述待检测语音中去除所述噪声增强特征,以识别出所述目标关键词;基于所述目标关键词生成目标语音,且播放所述目标语音,其中,所述目标语音包括对
所述待检测语音的答复内容。13.一种语音中关键词的检测方法,其特征在于,包括:在虚拟现实vr设备或增强现实ar设备上输入待检测语音,其中,所述待检测语音中包含了需要检测的至少一目标关键词;使用关键词预测模型从所述待检测语音中提取出噪声增强特征,其中,所述关键词预测模型为基于多个第一噪声增强样本之间的交叉熵损失进行监督学习,以及基于多个第二噪声增强样本之间的对比损失进行对比学习而训练生成,所述多个第一噪声增强样本为对第一语音样本进行混合数据增强而得到,不同所述第二噪声增强样本分别为对相同类型的多个第二语音样本进行混合数据增强而得到;从所述待检测语音中去除所述噪声增强特征,以识别出所述目标关键词;使用所述目标关键词激活所述vr设备或所述ar设备。14.一种语音中关键词的检测方法,其特征在于,包括:通过调用第一接口获取监测到的待检测语音,其中,所述待检测语音中包含了需要检测的至少一目标关键词,所述第一接口包括第一参数,所述第一参数的参数值为所述待检测语音;调用关键词预测模型,其中,所述关键词预测模型为基于多个第一噪声增强样本之间的交叉熵损失进行监督学习,以及基于多个第二噪声增强样本之间的对比损失进行对比学习而训练生成,所述多个第一噪声增强样本为对第一语音样本进行混合数据增强而得到,不同所述第二噪声增强样本分别为对相同类型的多个第二语音样本进行混合数据增强而得到;使用所述关键词预测模型从所述待检测语音中提取出噪声增强特征;从所述待检测语音中去除所述噪声增强特征,以识别出所述目标关键词;通过调用第二接口输出所述目标关键词,其中,所述第二接口包括第二参数,所述第二参数的参数值为所述目标关键词。15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的程序,其中,在所述程序被处理器运行时控制所述计算机可读存储介质所在设备执行权利要求1至14中任意一项所述的方法。

技术总结


本申请公开了一种语音中关键词的检测方法和存储介质。其中,该方法包括:采集监测到的待检测语音,其中,待检测语音中包含了需要检测的至少一目标关键词;调用关键词预测模型,其中,关键词预测模型为基于多个第一噪声增强样本之间的交叉熵损失进行监督学习,以及基于多个第二噪声增强样本之间的对比损失进行对比学习而训练生成,多个第一噪声增强样本为对第一语音样本进行混合数据增强而得到,不同第二噪声增强样本分别为对相同类型的多个第二语音样本进行混合数据增强而得到;使用关键词预测模型从待检测语音中提取出噪声增强特征;从待检测语音中去除噪声增强特征,以识别出目标关键词。本申请解决了对关键词进行检测的鲁棒性低的技术问题。棒性低的技术问题。棒性低的技术问题。


技术研发人员:

黄殿文 张冲 马煜坤 倪崇嘉 马斌

受保护的技术使用者:

阿里巴巴达摩院(杭州)科技有限公司

技术研发日:

2022.11.16

技术公布日:

2023/3/17

本文发布于:2024-09-22 07:06:35,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/79046.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:噪声   样本   语音   多个
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议