语音情绪的识别方法及装置、处理器和电子设备与流程



1.本技术涉及人工智能领域,具体而言,涉及一种语音情绪的识别方法及装置、处理器和电子设备。


背景技术:



2.随着人工智能领域的飞速发展和广泛应用,人类生活的许多方面都在被ai所影响,例如,在图像识别与分类、语音识别、目标检索等领域中都会用到ai技术。其中,语音识别是语音交互中最基础的一个ai技术,我们常见的有siri、智能音箱、自助语音客服等。可见,语音识别已经潜移默化的影响着人们的生活及工作的方方面面。
3.另外,反应人类情绪的一个重要的行为信号就是语音中的情绪信号,即不同的情绪说同样的文字所携带的语音信息可能完全不同。而且,识别语音中的用户的情绪是实现人机交互的一个重要环节,例如,在银行人工客服场景中,客户情绪的识别可以使客服人员及时发现客户的当前的情绪状态,并针对客户不同的情绪状态,更好的为客户服务和推介。但是,目前相关技术中识别语音中的用户情绪的准确性较低。
4.针对相关技术中用户的语音情绪识别的准确性较低的问题,目前尚未提出有效的解决方案。


技术实现要素:



5.本技术的主要目的在于提供一种语音情绪的识别方法及装置、处理器和电子设备,以解决相关技术中用户的语音情绪识别的准确性较低的问题。
6.为了实现上述目的,根据本技术的一个方面,提供了一种语音情绪的识别方法。该方法包括:获取目标对象的目标语音信息,其中,所述目标对象为待进行情绪识别的对象;将所述目标语音信息输入目标混合模型进行情绪识别处理,得到所述目标对象的情绪识别结果,其中,所述目标混合模型为基于gnn模型和svm模型构建的模型。
7.进一步地,在将所述目标语音信息输入目标混合模型进行情绪识别处理之前,所述方法还包括:获取目标数据集,并获取所述目标数据集中的训练集;采用所述目标数据集对所述gnn模型进行学习训练,得到第一识别模型;采用所述目标数据集对所述svm模型进行学习训练,得到第二识别模型;按照预设要求,将所述第一识别模型和所述第二识别模型进行组合,得到第一混合模型;采用所述训练集对所述第一混合模型进行回归验证,得到所述目标混合模型。
8.进一步地,获取所述目标数据集中的训练集包括:对所述目标数据集中的数据进行mfcc特征提取操作,得到特征提取后的数据;获取预设的语音情绪的分类信息;依据所述分类信息,对所述特征提取后的数据添加标签,得到添加标签后的数据;按照预设比例,将所述添加标签后的数据划分为所述训练集和测试集。
9.进一步地,在采用所述训练集对所述第一混合模型进行回归验证,得到所述目标混合模型之后,所述方法还包括:采用所述测试集对所述目标混合模型进行测试,得到测试
结果;依据所述测试结果,确定所述目标混合模型的情绪识别性能。
10.进一步地,获取目标数据集包括:获取汉语情感语料库;将所述汉语情感语料库作为所述目标数据集。
11.进一步地,在将所述目标语音信息输入目标混合模型进行情绪识别处理,得到所述目标对象的情绪识别结果之后,所述方法还包括:根据所述情绪识别结果对所述目标对象推荐目标产品;或者;根据所述情绪识别结果对所述目标对象采用目标类型的应答方式。
12.为了实现上述目的,根据本技术的另一方面,提供了一种语音情绪的识别装置。该装置包括:第一获取单元,用于获取目标对象的目标语音信息,其中,所述目标对象为待进行情绪识别的对象;第一识别单元,用于将所述目标语音信息输入目标混合模型进行情绪识别处理,得到所述目标对象的情绪识别结果,其中,所述目标混合模型为基于gnn模型和svm模型构建的模型。
13.进一步地,所述装置还包括:第二获取单元,用于在将所述目标语音信息输入目标混合模型进行情绪识别处理之前,获取目标数据集,并获取所述目标数据集中的训练集;第一训练单元,用于采用所述目标数据集对所述gnn模型进行学习训练,得到第一识别模型;第二训练单元,用于采用所述目标数据集对所述svm模型进行学习训练,得到第二识别模型;第一组合单元,用于按照预设要求,将所述第一识别模型和所述第二识别模型进行组合,得到第一混合模型;第一构建单元,用于采用所述训练集对所述第一混合模型进行回归验证,得到所述目标混合模型。
14.进一步地,所述第二获取单元包括:第一提取模块,用于对所述目标数据集中的数据进行mfcc特征提取操作,得到特征提取后的数据;第一获取模块,用于获取预设的语音情绪的分类信息;第一添加模块,用于依据所述分类信息,对所述特征提取后的数据添加标签,得到添加标签后的数据;第一分类模块,用于按照预设比例,将所述添加标签后的数据划分为所述训练集和测试集。
15.进一步地,所述装置还包括:第一测试单元,用于在采用所述训练集对所述第一混合模型进行回归验证,得到所述目标混合模型之后,采用所述测试集对所述目标混合模型进行测试,得到测试结果;第一确定单元,用于依据所述测试结果,确定所述目标混合模型的情绪识别性能。
16.进一步地,所述第二获取单元包括:第二获取模块,用于获取汉语情感语料库;第一确定模块,用于将所述汉语情感语料库作为所述目标数据集。
17.进一步地,所述装置还包括:第一推荐单元,用于在将所述目标语音信息输入目标混合模型进行情绪识别处理,得到所述目标对象的情绪识别结果之后,根据所述情绪识别结果对所述目标对象推荐目标产品;或者;第一应答单元,用于根据所述情绪识别结果对所述目标对象采用目标类型的应答方式。
18.为了实现上述目的,根据本技术的另一方面,提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述的任意一项所述的语音情绪的识别方法。
19.为了实现上述目的,根据本技术的另一方面,提供了一种电子设备,所述电子设备包括一个或多个处理器和存储器,所述存储器用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现上述的任意一项所述的语音情绪的识别方法。
20.通过本技术,采用以下步骤:获取目标对象的目标语音信息,其中,目标对象为待进行情绪识别的对象;将目标语音信息输入目标混合模型进行情绪识别处理,得到目标对象的情绪识别结果,其中,目标混合模型为基于gnn模型和svm模型构建的模型,解决了相关技术中用户的语音情绪识别的准确性较低的问题。通过将获取到的用户的语音信息输入基于gnn模型和svm模型构建的混合模型进行情绪识别处理,可以得到用户的情绪识别结果,从而可以提升用户的语音情绪识别的准确性。
附图说明
21.构成本技术的一部分的附图用来提供对本技术的进一步理解,本技术的示意性实施例及其说明用于解释本技术,并不构成对本技术的不当限定。在附图中:
22.图1是根据本技术实施例提供的语音情绪的识别方法的流程图;
23.图2是本技术实施例中的语音情绪识别模型训练的示意图;
24.图3是本技术实施例中的语音mfcc特征提取及数据准备的示意图;
25.图4是本技术实施例中的语音情绪分类表示的示意图;
26.图5是根据本技术实施例提供的语音情绪的识别系统的示意图;
27.图6是根据本技术实施例提供的语音情绪的识别装置的示意图;
28.图7是根据本技术实施例提供的电子设备的示意图。
具体实施方式
29.需要说明的是,在不冲突的情况下,本技术中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本技术。
30.为了使本技术领域的人员更好地理解本技术方案,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分的实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本技术保护的范围。
31.需要说明的是,本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本技术的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
32.需要说明的是,本公开所涉及的相关信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于展示的数据、分析的数据等),均为经用户授权或者经过各方充分授权的信息和数据。例如,本系统和相关用户或机构间设置有接口,在获取相关信息之前,需要通过接口向前述的用户或机构发送获取请求,并在接收到前述的用户或机构反馈的同意信息后,获取相关信息。
33.下面结合优选的实施步骤对本发明进行说明,图1是根据本技术实施例提供的语音情绪的识别方法的流程图,如图1所示,该方法包括如下步骤:
34.步骤s101,获取目标对象的目标语音信息,其中,目标对象为待进行情绪识别的对象。
35.例如,上述的目标对象可以为待进行情绪识别的客户,且需要通过此客户的一段语音对该客户进行情绪识别,故首先获取到该客户的一段语音。
36.步骤s102,将目标语音信息输入目标混合模型进行情绪识别处理,得到目标对象的情绪识别结果,其中,目标混合模型为基于gnn模型和svm模型构建的模型。
37.例如,将获取到的该客户的一段语音输入混合模型进行情绪识别处理,并得到该用户的情绪识别结果,即得到该用户的情绪是怎样的。而且,语音输入的混合模型是将gnn模型和svm模型进行组合得到的模型。
38.通过上述的步骤s101至s102,通过将获取到的用户的语音信息输入基于gnn模型和svm模型构建的混合模型进行情绪识别处理,可以得到用户的情绪识别结果,从而可以提升用户的语音情绪识别的准确性。
39.可选地,在本技术实施例提供的语音情绪的识别方法中,在将目标语音信息输入目标混合模型进行情绪识别处理之前,该方法还包括:获取目标数据集,并获取目标数据集中的训练集;采用目标数据集对gnn模型进行学习训练,得到第一识别模型;采用目标数据集对svm模型进行学习训练,得到第二识别模型;按照预设要求,将第一识别模型和第二识别模型进行组合,得到第一混合模型;采用训练集对第一混合模型进行回归验证,得到目标混合模型。
40.图2是本技术实施例中的语音情绪识别模型训练的示意图,如图2所示,根据数据集,进行深度学习模型训练(gnn模型训练)和传统的svm模型训练,得到训练后的模型,并对两种模型进行比例0%到100%,step(步长)为10%的组合得到混合模型,再使用该混合模型在数据集中的训练集上进行回归验证,然后得到准确率最高的混合模型,即为最终需要使用的语音情绪识别模型。另外,上述的预设要求可以为按照10%的step(步长)对训练后的gnn模型和训练后的svm模型进行比例0%到100%的组合,例如,训练后的gnn模型中符合开心情绪的比例为100%,训练后的svm模型中符合开心情绪的比例为0%,如果按照10%的step(步长)对这两种模型进行组合的话,那么调节训练后的gnn模型中符合开心情绪的比例为90%,训练后的svm模型中符合开心情绪的比例为10%,以此类推。
41.综上所述,通过结合机器学习模型与传统的模型,可以快速准确的得到识别用户情绪的模型。
42.可选地,在本技术实施例提供的语音情绪的识别方法中,获取目标数据集中的训练集包括:对目标数据集中的数据进行mfcc特征提取操作,得到特征提取后的数据;获取预设的语音情绪的分类信息;依据分类信息,对特征提取后的数据添加标签,得到添加标签后的数据;按照预设比例,将添加标签后的数据划分为训练集和测试集。
43.图3是本技术实施例中的语音mfcc特征提取及数据准备的示意图,如图3所示,使用中国科学院自动化所录制的汉语情感语料库cisia作为数据集,进行mfcc特征提取(mel-frequency cepstral coefficients,先转化到梅尔频率,然后进行倒谱分析),并在提取后依据如图4所示的语音情绪的分类对每个数据加标签,然后将整个数据按照80%和20%的比例分为训练集和测试集。另外,上述的预设的语音情绪的分类信息可以为如图4所示的语音情绪的分类,将语音情绪分为离散的六种基本情绪,包括开心、难过、生气、害怕、惊讶、厌
恶。上述的预设比例可以为80%和20%的比例。
44.综上所述,通过对数据集中的数据进行提取和添加标签等处理,并依据比例可以将处理后的数据划分为训练集和测试集。
45.可选地,在本技术实施例提供的语音情绪的识别方法中,在采用训练集对第一混合模型进行回归验证,得到目标混合模型之后,该方法还包括:采用测试集对目标混合模型进行测试,得到测试结果;依据测试结果,确定目标混合模型的情绪识别性能。
46.例如,采用数据集中的测试集对上述得到的准确率最高的混合模型进行测试,以对该混合模型的性能进行评估。
47.综上所述,通过采用测试集中的数据,可以方便的评估混合模型的性能。
48.可选地,在本技术实施例提供的语音情绪的识别方法中,获取目标数据集包括:获取汉语情感语料库;将汉语情感语料库作为目标数据集。
49.在本实施例中,使用中国科学院自动化所录制的汉语情感语料库cisia作为数据集。且casia汉语情感语料库由中国科学院自动化所(institute of automation,chinese academy of sciences)录制,共包括四个专业发音人,六种情绪生气(angry)、高兴(happy)、害怕(fear)、悲伤(sad)、惊讶(surprise)和中性(neutral),共9600句不同发音。其中300句是相同文本的,也即是说对相同的文本赋以不同的情感来阅读,这些语料可以用来对比分析不同情感状态下的声学及韵律表现;另外100句是不同文本的,这些文本从字面意思就可以看出其情感归属,便于录音人更准确地表现出情感。
50.通过上述的方案,将汉语情感语料库cisia作为数据集可以增加数据集中的数据的数量,从而可以使后续通过训练得到的混合模型的准确性有所提升。
51.可选地,在本技术实施例提供的语音情绪的识别方法中,在将目标语音信息输入目标混合模型进行情绪识别处理,得到目标对象的情绪识别结果之后,该方法还包括:根据情绪识别结果对目标对象推荐目标产品;或者;根据情绪识别结果对目标对象采用目标类型的应答方式。
52.图5是根据本技术实施例提供的语音情绪的识别系统的示意图,如图5所示,语音情绪的识别系统分为客户输入语音模块、客服接听模块和语音情绪识别模块。而且,上述得到的准确率最高的混合模型作为图5中的语音情绪识别模块中的模型,并使用该模型可以对客户输入的一段语音进行实时的情感分析,并可视化给坐席界面,以为坐席接听用户语音咨询时提供用户实时的情感分析。然后当坐席人员在服务时,通过客户当前的情感状态,如开心、难过、生气、害怕、惊讶、厌恶,采取合适的应答和服务方式。比如,在银行人工客服推介业务的场景中,如果客户的情感状态为厌恶,则应及时停止对客户的推介,如果客户情感状态为开心,则可以继续给用户继续推介产品的介绍。
53.通过上述的方案,可以利用人工智能识别语音信息中的情绪信息,并可以在人工客服场景中使客服人员及时识别客户的当前的情绪状态,从而针对客户不同的情绪状态,更好的为客服服务和推介,进而可以提升语音咨询的温情服务程度,降低客户投诉率。
54.综上,本技术实施例提供的语音情绪的识别方法,通过获取目标对象的目标语音信息,其中,目标对象为待进行情绪识别的对象;将目标语音信息输入目标混合模型进行情绪识别处理,得到目标对象的情绪识别结果,其中,目标混合模型为基于gnn模型和svm模型构建的模型,解决了相关技术中用户的语音情绪识别的准确性较低的问题。通过将获取到
的用户的语音信息输入基于gnn模型和svm模型构建的混合模型进行情绪识别处理,可以得到用户的情绪识别结果,从而可以提升用户的语音情绪识别的准确性。
55.需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
56.本技术实施例还提供了一种语音情绪的识别装置,需要说明的是,本技术实施例的语音情绪的识别装置可以用于执行本技术实施例所提供的用于语音情绪的识别方法。以下对本技术实施例提供的语音情绪的识别装置进行介绍。
57.图6是根据本技术实施例的语音情绪的识别装置的示意图。如图6所示,该装置包括:第一获取单元601和第一识别单元602。
58.具体地,第一获取单元601,用于获取目标对象的目标语音信息,其中,目标对象为待进行情绪识别的对象;
59.第一识别单元602,用于将目标语音信息输入目标混合模型进行情绪识别处理,得到目标对象的情绪识别结果,其中,目标混合模型为基于gnn模型和svm模型构建的模型。
60.综上,本技术实施例提供的语音情绪的识别装置,通过第一获取单元601获取目标对象的目标语音信息,其中,目标对象为待进行情绪识别的对象;第一识别单元602将目标语音信息输入目标混合模型进行情绪识别处理,得到目标对象的情绪识别结果,其中,目标混合模型为基于gnn模型和svm模型构建的模型,解决了相关技术中用户的语音情绪识别的准确性较低的问题,通过将获取到的用户的语音信息输入基于gnn模型和svm模型构建的混合模型进行情绪识别处理,可以得到用户的情绪识别结果,从而可以提升用户的语音情绪识别的准确性。
61.可选地,在本技术实施例提供的语音情绪的识别装置中,该装置还包括:第二获取单元,用于在将目标语音信息输入目标混合模型进行情绪识别处理之前,获取目标数据集,并获取目标数据集中的训练集;第一训练单元,用于采用目标数据集对gnn模型进行学习训练,得到第一识别模型;第二训练单元,用于采用目标数据集对svm模型进行学习训练,得到第二识别模型;第一组合单元,用于按照预设要求,将第一识别模型和第二识别模型进行组合,得到第一混合模型;第一构建单元,用于采用训练集对第一混合模型进行回归验证,得到目标混合模型。
62.可选地,在本技术实施例提供的语音情绪的识别装置中,第二获取单元包括:第一提取模块,用于对目标数据集中的数据进行mfcc特征提取操作,得到特征提取后的数据;第一获取模块,用于获取预设的语音情绪的分类信息;第一添加模块,用于依据分类信息,对特征提取后的数据添加标签,得到添加标签后的数据;第一分类模块,用于按照预设比例,将添加标签后的数据划分为训练集和测试集。
63.可选地,在本技术实施例提供的语音情绪的识别装置中,该装置还包括:第一测试单元,用于在采用训练集对第一混合模型进行回归验证,得到目标混合模型之后,采用测试集对目标混合模型进行测试,得到测试结果;第一确定单元,用于依据测试结果,确定目标混合模型的情绪识别性能。
64.可选地,在本技术实施例提供的语音情绪的识别装置中,第二获取单元包括:第二获取模块,用于获取汉语情感语料库;第一确定模块,用于将汉语情感语料库作为目标数据
集。
65.可选地,在本技术实施例提供的语音情绪的识别装置中,该装置还包括:第一推荐单元,用于在将目标语音信息输入目标混合模型进行情绪识别处理,得到目标对象的情绪识别结果之后,根据情绪识别结果对目标对象推荐目标产品;或者;第一应答单元,用于根据情绪识别结果对目标对象采用目标类型的应答方式。
66.所述语音情绪的识别装置包括处理器和存储器,上述第一获取单元601和第一识别单元602等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
67.处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来提升用户的语音情绪识别的准确性。
68.存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flash ram),存储器包括至少一个存储芯片。
69.本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述语音情绪的识别方法。
70.如图7所示,本发明实施例提供了一种电子设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:获取目标对象的目标语音信息,其中,所述目标对象为待进行情绪识别的对象;将所述目标语音信息输入目标混合模型进行情绪识别处理,得到所述目标对象的情绪识别结果,其中,所述目标混合模型为基于gnn模型和svm模型构建的模型。
71.处理器执行程序时还实现以下步骤:在将所述目标语音信息输入目标混合模型进行情绪识别处理之前,所述方法还包括:获取目标数据集,并获取所述目标数据集中的训练集;采用所述目标数据集对所述gnn模型进行学习训练,得到第一识别模型;采用所述目标数据集对所述svm模型进行学习训练,得到第二识别模型;按照预设要求,将所述第一识别模型和所述第二识别模型进行组合,得到第一混合模型;采用所述训练集对所述第一混合模型进行回归验证,得到所述目标混合模型。
72.处理器执行程序时还实现以下步骤:获取所述目标数据集中的训练集包括:对所述目标数据集中的数据进行mfcc特征提取操作,得到特征提取后的数据;获取预设的语音情绪的分类信息;依据所述分类信息,对所述特征提取后的数据添加标签,得到添加标签后的数据;按照预设比例,将所述添加标签后的数据划分为所述训练集和测试集。
73.处理器执行程序时还实现以下步骤:在采用所述训练集对所述第一混合模型进行回归验证,得到所述目标混合模型之后,所述方法还包括:采用所述测试集对所述目标混合模型进行测试,得到测试结果;依据所述测试结果,确定所述目标混合模型的情绪识别性能。
74.处理器执行程序时还实现以下步骤:获取目标数据集包括:获取汉语情感语料库;将所述汉语情感语料库作为所述目标数据集。
75.处理器执行程序时还实现以下步骤:在将所述目标语音信息输入目标混合模型进行情绪识别处理,得到所述目标对象的情绪识别结果之后,所述方法还包括:根据所述情绪识别结果对所述目标对象推荐目标产品;或者;根据所述情绪识别结果对所述目标对象采
用目标类型的应答方式。本文中的设备可以是服务器、pc、pad、手机等。
76.本技术还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:获取目标对象的目标语音信息,其中,所述目标对象为待进行情绪识别的对象;将所述目标语音信息输入目标混合模型进行情绪识别处理,得到所述目标对象的情绪识别结果,其中,所述目标混合模型为基于gnn模型和svm模型构建的模型。
77.当在数据处理设备上执行时,还适于执行初始化有如下方法步骤的程序:在将所述目标语音信息输入目标混合模型进行情绪识别处理之前,所述方法还包括:获取目标数据集,并获取所述目标数据集中的训练集;采用所述目标数据集对所述gnn模型进行学习训练,得到第一识别模型;采用所述目标数据集对所述svm模型进行学习训练,得到第二识别模型;按照预设要求,将所述第一识别模型和所述第二识别模型进行组合,得到第一混合模型;采用所述训练集对所述第一混合模型进行回归验证,得到所述目标混合模型。
78.当在数据处理设备上执行时,还适于执行初始化有如下方法步骤的程序:获取所述目标数据集中的训练集包括:对所述目标数据集中的数据进行mfcc特征提取操作,得到特征提取后的数据;获取预设的语音情绪的分类信息;依据所述分类信息,对所述特征提取后的数据添加标签,得到添加标签后的数据;按照预设比例,将所述添加标签后的数据划分为所述训练集和测试集。
79.当在数据处理设备上执行时,还适于执行初始化有如下方法步骤的程序:在采用所述训练集对所述第一混合模型进行回归验证,得到所述目标混合模型之后,所述方法还包括:采用所述测试集对所述目标混合模型进行测试,得到测试结果;依据所述测试结果,确定所述目标混合模型的情绪识别性能。
80.当在数据处理设备上执行时,还适于执行初始化有如下方法步骤的程序:获取目标数据集包括:获取汉语情感语料库;将所述汉语情感语料库作为所述目标数据集。
81.当在数据处理设备上执行时,还适于执行初始化有如下方法步骤的程序:在将所述目标语音信息输入目标混合模型进行情绪识别处理,得到所述目标对象的情绪识别结果之后,所述方法还包括:根据所述情绪识别结果对所述目标对象推荐目标产品;或者;根据所述情绪识别结果对所述目标对象采用目标类型的应答方式。
82.本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
83.本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
84.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指
令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
85.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
86.在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。
87.存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flash ram)。存储器是计算机可读介质的示例。
88.计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
89.还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
90.本领域技术人员应明白,本技术的实施例可提供为方法、系统或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
91.以上仅为本技术的实施例而已,并不用于限制本技术。对于本领域技术人员来说,本技术可以有各种更改和变化。凡在本技术的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本技术的权利要求范围之内。

技术特征:


1.一种语音情绪的识别方法,其特征在于,包括:获取目标对象的目标语音信息,其中,所述目标对象为待进行情绪识别的对象;将所述目标语音信息输入目标混合模型进行情绪识别处理,得到所述目标对象的情绪识别结果,其中,所述目标混合模型为基于gnn模型和svm模型构建的模型。2.根据权利要求1所述的方法,其特征在于,在将所述目标语音信息输入目标混合模型进行情绪识别处理之前,所述方法还包括:获取目标数据集,并获取所述目标数据集中的训练集;采用所述目标数据集对所述gnn模型进行学习训练,得到第一识别模型;采用所述目标数据集对所述svm模型进行学习训练,得到第二识别模型;按照预设要求,将所述第一识别模型和所述第二识别模型进行组合,得到第一混合模型;采用所述训练集对所述第一混合模型进行回归验证,得到所述目标混合模型。3.根据权利要求2所述的方法,其特征在于,获取所述目标数据集中的训练集包括:对所述目标数据集中的数据进行mfcc特征提取操作,得到特征提取后的数据;获取预设的语音情绪的分类信息;依据所述分类信息,对所述特征提取后的数据添加标签,得到添加标签后的数据;按照预设比例,将所述添加标签后的数据划分为所述训练集和测试集。4.根据权利要求3所述的方法,其特征在于,在采用所述训练集对所述第一混合模型进行回归验证,得到所述目标混合模型之后,所述方法还包括:采用所述测试集对所述目标混合模型进行测试,得到测试结果;依据所述测试结果,确定所述目标混合模型的情绪识别性能。5.根据权利要求2所述的方法,其特征在于,获取目标数据集包括:获取汉语情感语料库;将所述汉语情感语料库作为所述目标数据集。6.根据权利要求1至5中任意一项所述的方法,其特征在于,在将所述目标语音信息输入目标混合模型进行情绪识别处理,得到所述目标对象的情绪识别结果之后,所述方法还包括:根据所述情绪识别结果对所述目标对象推荐目标产品;或者;根据所述情绪识别结果对所述目标对象采用目标类型的应答方式。7.一种语音情绪的识别装置,其特征在于,包括:第一获取单元,用于获取目标对象的目标语音信息,其中,所述目标对象为待进行情绪识别的对象;第一识别单元,用于将所述目标语音信息输入目标混合模型进行情绪识别处理,得到所述目标对象的情绪识别结果,其中,所述目标混合模型为基于gnn模型和svm模型构建的模型。8.根据权利要求7所述的装置,其特征在于,所述装置还包括:第二获取单元,用于在将所述目标语音信息输入目标混合模型进行情绪识别处理之前,获取目标数据集,并获取所述目标数据集中的训练集;第一训练单元,用于采用所述目标数据集对所述gnn模型进行学习训练,得到第一识别
模型;第二训练单元,用于采用所述目标数据集对所述svm模型进行学习训练,得到第二识别模型;第一组合单元,用于按照预设要求,将所述第一识别模型和所述第二识别模型进行组合,得到第一混合模型;第一构建单元,用于采用所述训练集对所述第一混合模型进行回归验证,得到所述目标混合模型。9.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至6中任意一项所述的语音情绪的识别方法。10.一种电子设备,其特征在于,包括一个或多个处理器和存储器,所述存储器用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现权利要求1至6中任意一项所述的语音情绪的识别方法。

技术总结


本申请公开了一种语音情绪的识别方法及装置、处理器和电子设备,涉及人工智能领域。该方法包括:获取目标对象的目标语音信息,其中,目标对象为待进行情绪识别的对象;将目标语音信息输入目标混合模型进行情绪识别处理,得到目标对象的情绪识别结果,其中,目标混合模型为基于GNN模型和SVM模型构建的模型。通过本申请,解决了相关技术中用户的语音情绪识别的准确性较低的问题。确性较低的问题。确性较低的问题。


技术研发人员:

刘梅 陈永录 李变

受保护的技术使用者:

中国工商银行股份有限公司

技术研发日:

2022.04.22

技术公布日:

2022/7/29

本文发布于:2024-09-20 23:17:49,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/18924.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:所述   目标   模型   情绪
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议