一种语音处理方法、装置、设备及存储介质与流程

1.本技术涉及计算机技术领域，尤其涉及一种语音处理方法、装置、设备及存储介质。

背景技术：

2.目前对于语音情感分析大多都使用通用模型，例如一些发音人采用多种情感进行发音，利用采集的发音数据训练模型，达到识别其他人语音情感的目的。针对一些识别准确率不太高的情况，有一些研究者会结合说话人的其他信息(例如表情、语音文本等)来一起得出结果，但这种方案需要的成本比较高，而且每个人都有自己的一套语音情感的表达体系，有时候只是单纯的发音比较大声，但通用模型大概率会分类到愤怒、激动。因此，如何提升语音情感识别的准确性是亟待解决的问题。

技术实现要素：

3.本技术实施例提供了一种语音处理方法、装置、设备及存储介质，可以提升语音情感识别的准确性。
4.一方面，本技术实施例提供了一种语音处理方法，所述方法包括：
5.获取目标应用场景的待处理语音数据，并基于语音情感识别模型确定所述待处理语音数据的情感识别结果集合，所述情感识别结果集合包括所述待处理语音数据的多个语音片段中每个语音片段所属的情感类别；
6.若所述情感识别结果集合未满足所述目标应用场景的场景规则，则对所述多个语音片段进行聚类处理，得到多个聚类簇，所述场景规则包括预定义的各个参考情感类别的占比规则，同一个聚类簇中的语音片段对应一种情感类别；
7.从所述多个聚类簇中确定情感类别与所述目标应用场景不匹配的第一聚类簇，并获取所述第一聚类簇对应的情感标注标签；
8.基于所述第一聚类簇对应的情感标注标签和所述情感识别结果集合，确定所述待处理语音数据的情感评价结果。
9.一方面，本技术实施例提供了一种语音处理装置，所述装置包括：
10.获取单元，用于获取目标应用场景的待处理语音数据，并基于语音情感识别模型确定所述待处理语音数据的情感识别结果集合，所述情感识别结果集合包括所述待处理语音数据的多个语音片段中每个语音片段所属的情感类别；
11.处理单元，用于若所述情感识别结果集合未满足所述目标应用场景的场景规则，则对所述多个语音片段进行聚类处理，得到多个聚类簇，所述场景规则包括预定义的各个参考情感类别的占比规则，同一个聚类簇中的语音片段对应一种情感类别；
12.所述处理单元，还用于从所述多个聚类簇中确定情感类别与所述目标应用场景不匹配的第一聚类簇，并获取所述第一聚类簇对应的情感标注标签；
13.所述处理单元，还用于基于所述第一聚类簇对应的情感标注标签和所述情感识别
结果集合，确定所述待处理语音数据的情感评价结果。
14.一方面，本技术实施例提供了一种计算机设备，该计算机设备包括处理器、通信接口和存储器，该处理器、通信接口和存储器相互连接，其中，该存储器存储有计算机程序，该处理器用于调用该计算机程序，执行上述任一可能实现方式的语音处理方法。
15.一方面，本技术实施例提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现该任一可能实现方式的语音处理方法。
16.一方面，本技术实施例还提供了一种计算机程序产品，上述计算机程序产品包括计算机程序或计算机指令，上述计算机程序或计算机指令被处理器执行实现本技术实施例提供的语音处理方法的步骤。
17.一方面，本技术实施例还提供了一种计算机程序，上述计算机程序包括计算机指令，上述计算机指令存储在计算机可读存储介质中，计算机设备的处理器从上述计算机可读存储介质读取上述计算机指令，上述处理器执行上述计算机指令，使得上述计算机设备执行本技术实施例提供的语音处理方法。
18.在本技术实施例中，可以获取目标应用场景的待处理语音数据，并基于语音情感识别模型确定待处理语音数据的情感识别结果集合，该情感识别结果集合包括待处理语音数据的多个语音片段中每个语音片段所属的情感类别，若情感识别结果集合未满足目标应用场景的场景规则(包括预定义的各个参考情感类别的占比规则)，则对多个语音片段进行聚类处理，得到多个聚类簇，同一个聚类簇中的语音片段对应一种情感类别，可以从多个聚类簇中确定情感类别与目标应用场景不匹配的第一聚类簇，并获取第一聚类簇对应的情感标注标签，基于第一聚类簇对应的情感标注标签和情感识别结果集合，确定待处理语音数据的情感评价结果。采用本技术的方法，可以基于待处理语音数据的各个语音片段所属的情感类别是否符合客观的场景规则，确定语音情感识别模型的识别结果是否准确，并在语音情感识别模型的识别结果不准确时，引入些许的人工干预，从而大大地提升语音情感识别的准确性。
附图说明
19.为了更清楚地说明本技术实施例技术方法，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
20.图1为本技术实施例提供的一种语音处理系统的系统架构示意图；
21.图2为本技术实施例提供的一种语音处理方法的流程示意图；
22.图3为本技术实施例提供的另一种语音处理方法的流程示意图；
23.图4为本技术实施例提供的聚类效果的示意图；
24.图5为本技术实施例提供的簇中心的示意图；
25.图6为本技术实施例提供的另一种语音处理方法的流程示意图；
26.图7为本技术实施例提供的一种语音处理装置的结构示意图；
27.图8为本技术实施例提供的一种计算机设备的结构示意图。
具体实施方式
28.下面将结合本技术实施例中的附图，对本技术实施例中的技术方法进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
29.参阅图1，图1为本技术实施例提供的一种语音处理系统的系统结构示意图，如图1所示，该系统包括语音处理设备10和数据库11，语音处理设备10和数据库11之间可以通过有线或无线的方式进行通信连接。
30.语音处理设备10可以包括终端和服务器中的一个或多个。即，本技术实施例提出的语音处理方法可以由终端执行，也可以由服务器执行，还可以由能够进行互相通信的终端和服务器共同执行。其中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network，cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能语音交互设备、智能家电、车载终端，等等，但并不局限于此。
31.数据库11可以为语音处理设备10的本地数据库或语音处理设备10可以访问的云端数据库，还可以是其他计算机设备的本地数据库。该数据库11可用于存储语音数据，具体可以存储待处理语音数据。
32.语音处理设备10可以搭载语音情感识别模型，其与数据库11之间的交互过程如下：
33.从数据库11中获取目标应用场景的待处理语音数据，基于搭载的语音情感识别模型确定待处理语音数据的情感识别结果集合，该情感识别结果集合包括待处理语音数据的多个语音片段中每个语音片段所属的情感类别，具体是利用语音情感识别模型对各个语音片段进行情感识别处理得到的。若情感识别结果集合未满足目标应用场景的场景规则，则对多个语音片段进行聚类处理，得到多个聚类簇，其中，场景规则包括预定义的各个参考情感类别的占比规则，同一个聚类簇中的语音片段对应一种情感类别。可以从多个聚类簇中确定情感类别与目标应用场景不匹配的第一聚类簇，此时可以认为语音情感识别模型未能准确地识别第一聚类簇中的各个语音片段所属的情感类别，进而利用人工标注确定第一聚类簇对应的情感标注标签，该情感标注标签可以用于指示第一聚类簇中的各个语音片段真实的情感类别。再基于第一聚类簇对应的情感标注标签和情感识别结果集合，确定待处理语音数据的情感评价结果。
34.在一实施例中，请求终端可以将待处理语音数据发送给语音处理设备10，语音处理设备10在确定待处理语音数据的情感识别结果集合满足目标应用场景的场景规则时，可以利用待处理语音数据的情感识别结果集合确定待处理语音数据的情感评价结果，在确定待处理语音数据的情感识别结果集合未满足目标应用场景的场景规则时，可以利用第一聚类簇对应的情感标注标签和情感识别结果集合，确定待处理语音数据的情感评价结果。语音处理设备10在得到待处理语音数据的情感评价结果之后，可以将情感评价结果返回给请求终端，有利于提升语音情感评价的准确性。
35.现有的方法不能解决不同听者或不同对话场景的语音情感识别需求，例如同样一段语音数据(面试录音)，不同的听者(人力资源)，可能对候选人的情感有不同的判断；或者对销售的录音分析，一般发音都比较大声，说话比较快(为了尽可能吸引用户注意力)，使用通用模型比较大概率会分类到愤怒、激动的。而本技术的方案，可以通过判断待处理语音数据中各个语音片段所属的情感类别是否符合客观的场景规则，满足不同对话场景的语音情感识别需求，另外可以在语音情感识别模型识别的基础上，引入些许的人工干预，即人为地对第一聚类簇进行情感标注，满足不同听者的语音情感识别需求，大大地提升语音情感识别的准确率。
36.请参阅图2，图2为本技术实施例提供的一种语音处理方法的流程示意图。该方法可以应用于上述语音处理系统中的语音处理设备10，该方法包括：
37.s201、获取目标应用场景的待处理语音数据，并基于语音情感识别模型确定待处理语音数据的情感识别结果集合，情感识别结果集合包括待处理语音数据的多个语音片段中每个语音片段所属的情感类别。
38.本技术提出的语音处理方案，适用的场景为需要较长时间录音分析的场景(非单句的分析情况)，例如面试语音分析、回访或暗访的录音分析、/客服过程中的录音分析等。
39.目标应用场景是指待处理语音数据中的对话者所处的对话场景，对话场景可以包括面试场景、销售场景、客服场景、会议场景等，本技术对此不作限定。目标应用场景可以通过待处理语音数据中的对话内容确定，例如面试场景一般都会有自我介绍，销售场景一般会专注于销售的产品。
40.待处理语音数据是需要进行语音情感识别的语音数据。可以按照预设的帧长度，对待处理语音数据进行切分处理，通过将待处理语音数据切分为一个一个的语音片段，可以得到待处理语音数据的多个语音片段。在一实施方式中，可以对待处理语音数据进行预处理，该预处理具体可以是预加重，预加重可以对待处理语音数据中语音信号的高频部分进行加重以及增加高频分辨率，进而对预加重后的待处理语音数据进行切分处理，以得到待处理语音数据的多个语音片段。
41.语音情感识别模型是一种用于执行语音情感识别任务的通用模型。一实现方式中，可以确定有限的类别边界，即设定所有人的情感基本可以分布在n(正整数)种情感类别中，例如常规采集的情感类别为：{生气、害怕/紧张、高兴、中性、伤心/委屈、惊讶/激动}，当然也可以更多更细，但是是一个有限的类别。训练数据可以是从有限的m个人(例如6个发音人，包含3男、3女)中采集的，每个人的训练数据中都包含了这n种情感类别的语音样本。可以利用采集到的语音样本和该语音样本对应的情感类别对分类模型进行训练，分类模型可以是mlp(multi-layer perceptron，多层感知器)、svm(support vector machine，支持向量机)、lstm(long short-term memory，长短期记忆网络)、cnn(convolutional neural networks，卷积神经网络)等。当分类模型训练结束后，可以将训练得到的分类模型作为语音情感识别模型。另外语音情感识别模型还可以是结合说话人的其他信息进行语音情感识别的通用模型，本技术对语音情感识别模型不作限定。
42.语音情感识别模型可以用于确定待处理语音数据的多个语音片段中每个语音片段所属的情感类别，而基于每个语音片段所属的情感类别可以构成待处理语音数据的情感
识别结果集合。例如，将一段持续时间较长的语音(以下称长语音a)进行预处理后，可以将长语音a拆分为多个句子(一个句子即是一个语音片段)，其包括：句子1，句子2，句子3，句子4，句子5，句子6，句子7，句子8，
…
，句子m，再利用语音情感识别模型对每个句子进行情感识别，可以得到每个句子所属的情感类别，最终长语音a对应的说话人的情感识别结果集合a可以为：{1：“中性”；2：“中性”；3：“中性”；4：“中性”；5：“兴奋”；6：“中性”；7：“紧张”；8：“中性”；
…
；m：“紧张”}，其中的1、2、
…
、m用于标识句子1、句子2、
…
、句子m，可见情感识别结果集合a包括了每个句子所属的情感类别。
43.s202、若情感识别结果集合未满足目标应用场景的场景规则，则对多个语音片段进行聚类处理，得到多个聚类簇，场景规则包括预定义的各个参考情感类别的占比规则，同一个聚类簇中的语音片段对应一种情感类别。
44.目标应用场景的场景规则可以包括预定义的各个参考情感类别的占比规则，该各个参考情感类别具体可以包括中性情感、正面情感和负面情感中的一种或多种。例如面试场景应该大部分都是中性或正面的情感，面试场景的场景规则可以为负面情感的占比小于20％；销售场景应该大部分都是正面的情感，销售场景的场景规则可以为正面情感的占比大于70％；客服场景的客户可能有一定比例的负面情感，而客服应该全部是中性或正面的情感，客服场景的场景规则可以是客户的负面情感的占比大于20％，客服的负面情感的占比为0％；会议场景应该大部分是中性或正面的情感等，会议场景的场景规则可以是中性情感和正面情感的占比之和大于90％。
45.其中，中性情感是指一种处于积极和消极之间的情绪，例如平静、惊讶。正面情感是指一种积极的情绪，例如高兴、激动、快乐。负面情感是指一种消极的情绪，例如沮丧、害怕、愤怒。语音情感识别模型所能识别的情感类别可以被划分到任一参考情感类别中，即能划分到中性情感、正面情感和负面情感中的一个中。
46.在可行的方式中，该各个参考情感类别可以就包括语音情感识别模型所能识别的情感类别中的一种或多种，例如目标应用场景的场景规则可以为“兴奋”的占比大于10％，“惊讶”的占比大于20％。
47.在一个实施例中，可以获取情感识别结果集合中不同情感类别对应的语音片段占比，包括：根据情感识别结果集合中的各个语音片段所属的情感类别，确定出对应同一情感类别的语音片段。基于对应同一情感类别的语音片段的数量，以及该情感识别结果集合中的语音片段总量，计算对应同一情感类别的语音片段占比，即对应同一情感类别的语音片段占比＝(对应同一情感类别的语音片段的数量/该情感识别结果集合中的语音片段总量)
×
100％。通过这种方式可以得到情感识别结果集合中不同情感类别对应的语音片段占比。例如，情感识别结果集合a：{1：“中性”；2：“中性”；3：“中性”；4：“中性”；5：“兴奋”；6：“中性”；7：“紧张”；8：“中性”；9：“紧张”}，可知对应“中性”的语音片段占比为67％＝6/9
×
100％，对应“兴奋”的语音片段占比为11％＝1/9
×
100％，对应“紧张”的语音片段占比为22％＝2/9
×
100％。
48.进一步判断情感识别结果集合中不同情感类别对应的语音片段占比是否满足对应的参考情感类别的占比规则。例如目标应用场景为面试场景，面试场景中负面情感的占比需小于20％，如果情感识别结果集合a中，识别为“愤怒”(一种负面情感)的句子占比大于20％，则说明“愤怒”对应的语音片段占比不满足对应的负面情感的占比规则。当情感识别
结果集合中存在一情感类别对应的语音片段占比未满足对应的参考情感类别的占比规则时，可以确定情感识别结果集合未满足待处理语音数据的场景规则。
49.当确定情感识别结果集合未满足待处理语音数据的场景规则时，可以认为语音情感识别模型未能准确地针对待处理语音数据的多个语音片段进行情感识别，此时，可以对待处理语音数据的多个语音片段进行聚类处理，该聚类处理是指将对应语音特征之间具有高度相似性的语音片段划分到一个聚类簇中，将对应语音特征差别较大的语音片段划分到不同聚类簇中，从而得到多个聚类簇。由于属于同一种情感类别的语音片段反映了同一种情感特性，因此会使得属于同一种情感类别的语音片段其对应的语音特征之间的相似性，远远高于属于其他情感类别的语音片段对应的语音特征。例如常见的语音情感分类中，就是因为属于同一种类别的语音的语音特征之间的相似度，会远远高于属于其他类别的语音的语音特征，所以才能将类别相同的语音分类到同一个类别中。基于此，可知上述聚类处理的目的：将属于同一种情感类别的语音片段划分到一个聚类簇中，使得同一个聚类簇中的语音片段对应一种情感类别，从而能够同时到多个分类不准确的语音片段。
50.语音特征可以反映语音数据的时域特性和/或频域特性，可以包含频域特征和/或时域特征，例如可以包括音、音调、音高、共振峰、声谱、亮度、糙度等时域特征，以及频谱质心、谱平面、不同系数的梅尔频率倒谱系数(mel-frequency cepstral coefficients，mfcc)特征、梅尔频谱图、谱图、均方根能量等频域特征。另外，语音特征可以是不同维度的特征，即可以是一维特征，也可以是二维特征，本技术对语音特征的具体形式不作限定。
51.s203、从多个聚类簇中确定情感类别与目标应用场景不匹配的第一聚类簇，并获取第一聚类簇对应的情感标注标签。
52.在一实施方式中，可以基于同一个聚类簇中的语音片段会对应一种情感类别的特性，确定多个聚类簇中的任一聚类簇对应的情感类别，即将该任一聚类簇中的语音片段对应的情感类别作为该任一聚类簇对应的情感类别。
53.若该任一聚类簇对应的情感类别不是与目标应用场景匹配的正向情感类别，则可以确定该任一聚类簇的语音片段对应的情感类别不符合目标应用场景的客观规律，即是目标应用场景中不太可能出现的情感类别，可以确定该任一聚类簇为情感类别与目标应用场景不匹配的第一聚类簇。此时可以引入人工干预，确定第一聚类簇对应的情感标注标签，将该情感标注标签作为第一聚类簇中的各个语音片段真实的情感类别。采用本实施例，可以只用引入些许的人工干预，来纠正语音情感识别模型错误的识别结果，同时通过人工标注确定第一聚类簇中各个语音片段真实的情感类别，有利于提升待处理语音数据的情感评价结果的准确性。
54.其中，与目标应用场景匹配的正向情感类别是指目标应用场景中大概率会出现的情感类别。例如，面试场景应该大部分都是中性或正面的情感，则与面试场景匹配的正向情感类别为中性情感和正面情感；销售场景应该大部分都是正面的情感，则与销售场景匹配的正向情感类别为正面情感；客服场景的客户可能有一定比例的负面情感，而客服应该全部是中性或正面的情感，则与客服场景匹配的正向情感类别为负面情感、中性情感、正面情感；会议场景应该大部分是中性或正面的情感，则与会议场景匹配的正向情感类别为中性情感、正面情感。
55.当任一聚类簇对应的情感类别可以被划分到与目标应用场景匹配的正向情感类
别中时，可以认为该任一聚类簇对应的情感类别是与目标应用场景匹配的正向情感类别，反之，当任一聚类簇对应的情感类别不可以被划分到与目标应用场景匹配的正向情感类别中时，可以认为该任一聚类簇对应的情感类别不是与目标应用场景匹配的正向情感类别。
56.s204、基于第一聚类簇对应的情感标注标签和情感识别结果集合，确定待处理语音数据的情感评价结果。
57.在一实施例中，可以将情感识别结果集合中的第一聚类簇中的各个语音片段所属的情感类别，修改为第一聚类簇对应的情感标注标签，得到修改后的情感识别结果集合。再基于一系列打分规则和修改后的情感识别结果集合，确定待处理语音数据的情感评价结果。例如，可以为每种情感类别设置一个分值，根据修改后的情感识别结果集合中每个语音片段所属的情感类别和对应的分值，为每个语音片段打分，将所有语音片段的打分总和作为待处理语音数据的情感得分，该情感得分即为待处理语音数据的情感评价结果。其中，正面情感(例如兴奋、高兴、激动)的分值可以相对较高，负面情感(例如伤心、委屈、害怕)的分值可以相对较低，则情感得分越大，就表明待处理语音数据越倾向于表现正面情感，情感得分越低，就表明待处理语音数据越倾向表现负面情感。此处仅为举例，还有其他打分方式，本技术不做限制。采用这种打分方式确定待处理语音数据的情感评价结果，可以知道待处理语音数据所倾向反映的情感类别，有利于分析目标应用场景中的对话氛围，例如倾向于正面情感时，对话氛围可能是轻松愉悦，倾向于负面情感时，对话氛围可能是紧张严肃。
58.采用本技术的方法，可以通过待处理语音数据中不同情感类别对应的语音片段占比是否满足对应场景的占比规则，确定语音情感识别模型是否有准确地进行语音情感识别，并在语音情感识别模型的识别结果不准确时，引入些许的人工干预，通过人工标注来确定第一聚类簇中各个语音片段真实的情感类别，从而大大地提升语音情感识别的准确率。
59.请参阅图3，图3为本技术实施例提供的另一种语音处理方法的流程示意图。该方法可以应用于上述语音处理系统中的语音处理设备10，该方法包括：
60.s301、获取目标应用场景的待处理语音数据，并基于语音情感识别模型确定待处理语音数据的情感识别结果集合，情感识别结果集合包括待处理语音数据的多个语音片段中每个语音片段所属的情感类别。
61.在一个实施例中，可以对待处理语音数据进行预加重，预加重可以对待处理语音数据中语音信号的高频部分进行加重以及增加高频分辨率。接着可以对预加重后的待处理语音数据进行端点检测。端点检测是指检测一段语音数据中语音信号的开始时刻和结束时刻，具体可以通过端点检测算法实现。可以基于得到的端点检测结果对预加重后的待处理语音数据进行切分处理(加窗分帧)，即将语音信号的开始时刻和结束时刻作为切分点，将开始时刻和结束时刻之间的语音数据作为一个语音片段，从而得到待处理语音数据的多个语音片段，该多个语音片段为待处理语音数据中的有效语音数据，消除了待处理语音数据的无声段道噪声。
62.进一步地，确定多个语音片段中每个语音片段的语音特征，语音特征可以包含频域特征和时域特征中的一种或多种，本技术对此不作限定。通过将每个语音片段的语音特征输入语音情感识别模型，可以得到每个语音片段所属的情感类别。最终基于每个语音片段所属的情感类别，确定待处理语音数据的情感识别结果集合。例如，将一段持续时间较长的语音(以下称长语音a)进行预处理后，可以将长语音a拆分为多个句子，其包括：句子1，句
子2，句子3，句子4，句子5，句子6，句子7，句子8，
…
，句子m，再利用语音情感识别模型对每个句子进行分类，可以得到每个句子所属的情感类别，从而得到长语音a对应的说话人的情感识别结果集合a：{1：“中性”；2：“中性”；3：“中性”；4：“中性”；5：“兴奋”；6：“中性”；7：“紧张”；8：“中性”；
…
；m：“紧张”}，可见情感识别结果集合a包括了每个句子所属的情感类别。
63.s302、若情感识别结果集合未满足目标应用场景的场景规则，则对多个语音片段进行聚类处理，得到多个聚类簇，场景规则包括预定义的各个参考情感类别的占比规则，同一个聚类簇中的语音片段对应一种情感类别。
64.一实施方式中，获取情感识别结果集合中不同情感类别对应的语音片段占比，若情感识别结果集合中所有情感类别对应的语音片段占比均满足对应的参考情感类别的占比规则，则确定情感识别结果集合满足目标应用场景的场景规则。当确定情感识别结果集合满足待处理语音数据的场景规则时，可以认为语音情感识别模型有在准确地针对待处理语音数据的多个语音片段进行情感识别，此时直接通过一系列打分规则以及情感识别结果集合确定待处理语音数据的情感得分。例如，可以为每种情感类别设置一个分值，根据情感识别结果集合中每个语音片段所属的情感类别和对应的分值，为每个语音片段打分，将所有语音片段的打分总和作为待处理语音数据的情感得分，该情感得分即为待处理语音数据的情感评价结果。其中，正面情感(例如兴奋、高兴、激动)的分值可以相对较高，负面情感(例如伤心、委屈、害怕)的分值可以相对较低，则情感得分越大，表明待处理语音数据越倾向于表现正面情感，情感得分越低，表明待处理语音数据越倾向于表现负面情感。此处仅为举例，还有其他打分方式，本技术不做限制。采用这种打分方式确定待处理语音数据的情感评价结果，可以知道待处理语音数据所倾向反映的情感类别，有利于分析目标应用场景中的对话氛围。
65.另一实施方式中，获取情感识别结果集合中不同情感类别对应的语音片段占比，若情感识别结果集合中存在一情感类别对应的语音片段占比未满足对应的参考情感类别的占比规则，则确定情感识别结果集合未满足目标应用场景的场景规则。例如目标应用场景为会议场景，会议场景中中性情感和正面情感的占比之和需大于90％，如果情感识别结果集合a中，识别为“中性”(一种中性情感)的句子占比为67％，识别为“紧张”(一种负面情感)的句子占比为22％，识别为“兴奋”(一种中性情感)的句子占比为11％，则说明中性情感和正面情感的占比之和为78％，可见，未满足对应的占比规则。
66.当确定情感识别结果集合未满足待处理语音数据的场景规则时，可以确定多个语音片段中每个语音片段的语音特征，利用多个语音片段中每个语音片段的语音特征和目标期望数量，对多个语音片段进行聚类处理，得到至少一个聚类簇，该至少一个聚类簇的数量为目标期望数量，即目标期望数量是指希望通过聚类处理得到的聚类簇的数量。
67.具体的，基于聚类算法和目标期望数量对各个语音片段的语音特征进行处理，得到多个类簇，将语音特征属于同一个类簇的语音片段划分到一个聚类簇中，以得到至少一个聚类簇。该目标期望数量可以为第一数量，第一数量为n*2，n指的是语音情感识别模型可识别的情感种类。以聚类算法为k-means算法为例：
①
选择n*2个初始簇中心；
②
计算各个语音片段的语音特征与n*2个初始簇中心的距离，将语音特征归属到距离最近的类簇中；
③
针对各个类簇，计算当前类簇内的平均语音特征，并作为新的簇中心；
④
重复
②‑③
，直至达到终止条件，例如该终止条件可以是达到预设的迭代次数上限值或各类簇中的语音特征不发
生变化。当达到终止条件时，得到n*2个类簇，将语音特征属于同一个类簇的语音片段划分到一个聚类簇中，可以得到n*2个聚类簇，例如b：{1：[1,2,4,5,10]；2：[3,8,9,13,15,16,26]；3：[5,6,7,11,12,14]；
…
；n*2：[x,x,x]}。如图4所示，聚类数据为对原始数据进行聚类处理得到的效果图，图4中的a、b、c、d为各种聚类的效果图。
[0068]
进一步地，获取至少一个聚类簇中的每个聚类簇的语音片段总量，将对应的语音片段总量少于预设总量(例如5个)的聚类簇确定为第二聚类簇。若第二聚类簇的数量小于预设数量，则可以确定这类语音片段占比数量过少的簇较少，例如20个聚类簇中只有一两个聚类簇少于5个语音片段，此时基于至少一个聚类簇中的每个聚类簇中不同情感类别对应的语音片段占比，确定每个聚类簇对应的最大语音片段占比。
[0069]
具体的，根据至少一个聚类簇中的每个聚类簇中的各个语音片段所属的情感类别，确定出对应同一情感类别的语音片段，基于对应同一情感类别的语音片段的数量，以及该每个聚类簇中的语音片段总量，计算对应同一情感类别的语音片段占比，即对应同一情感类别的语音片段占比＝(对应同一情感类别的语音片段的数量/该每个聚类簇中的语音片段总量)
×
100％，通过这种方式，可以得到该每个聚类簇中不同情感类别对应的语音片段占比。从该不同情感类别对应的语音片段占比中确定最大语音片段占比，并作为该每个聚类簇对应的最大语音片段占比，即一个聚类簇对应的最大语音片段占比为在一个聚类簇中占比最大的情感类别对应的语音片段占比。
[0070]
若该每个聚类簇对应的最大语音片段占比大于预设占比(例如80％)，则可以说明该每个聚类簇中的语音片段普遍反映了同一种情感特性，该每个聚类簇的聚类结果准确。其中，判断聚类簇的结果是否准确的一种示例为：例如，对于聚类簇1，从情感识别结果集合a中获取句子1、句子2、句子3、句子4、句子5的情感识别结果，且分别为中性、中性、中性、兴奋、中性；其中，有83％的句子属于中性，17％的句子属于兴奋，如果预设占比b％为80％，由于83％大于80％，说明该聚类簇1的结果准确。若至少一个聚类簇中的各个聚类簇对应的最大语音片段占比均大于预设占比，则可以认为该各个聚类簇的聚类结果准确，将至少一个聚类簇中除第二聚类簇以外的聚类簇，确定为多个聚类簇。
[0071]
若第二聚类簇的数量大于或者等于预设数量，则可以确定这类语音片段占比数量过少的簇过多，例如20个聚类簇中15个聚类簇都少于5个语音片段，此时可以将目标期望数量更新为第二数量(小于第一数量)，执行基于每个语音片段的语音特征以及目标期望数量，对多个语音片段进行聚类处理，得到至少一个聚类簇的步骤，以得到多个聚类簇。采用本方法，可以避免由于噪声数据造成聚类簇中语音片段过少的情况。
[0072]
若至少一个聚类簇中存在一聚类簇对应的最大语音片段占比小于或者等于预设占比，则说明该聚类簇的聚类结果不准确，将目标期望数量更新为第三数量(大于第一数量)，执行基于每个语音片段的语音特征以及目标期望数量，对多个语音片段进行聚类处理，得到至少一个聚类簇的步骤，以得到多个聚类簇。可以通过增加聚类簇的数量，减少每个聚类簇中语音片段的数量，以使聚类簇的聚类结果准确。
[0073]
s303、基于多个聚类簇中的任一聚类簇中不同情感类别对应的语音片段占比，确定对应最大语音片段占比的情感类别，并将对应最大语音片段占比的情感类别确定为任一聚类簇对应的情感类别。
[0074]
由于多个聚类簇中每个聚类簇的最大语音片段占比对应的情感类别为该每个聚
类簇普遍反映的情感特性，因此在一实施例中，可以根据多个聚类簇中的任一聚类簇中的各个语音片段所属的情感类别，确定该任一聚类簇对应的最大语音片段占比，一个聚类簇对应的最大语音片段占比为在一个聚类簇中占比最大的情感类别对应的语音片段占比，进而可以获取对应最大语音片段占比的情感类别。例如，情感识别结果集合a：{1：“中性”；2：“中性”；3：“中性”；4：“中性”；5：“兴奋”；6：“中性”；7：“紧张”；8：“中性”；9：“紧张”}，可知对应“中性”的语音片段占比为67％，对应“兴奋”的语音片段占比为11％，对应“紧张”的语音片段占比为22％，最大语音片段占比为67％，对应最大语音片段占比的情感类别为“中性”。最终将对应最大语音片段占比的情感类别，作为该任一聚类簇对应的情感类别，即该任一聚类簇中的语音片段对应的情感类别。
[0075]
s304、获取与目标应用场景匹配的正向情感类别。
[0076]
与目标应用场景匹配的正向情感类别是指目标应用场景中大概率会出现的情感类别，例如，面试场景应该大部分都是中性或正面的情感，则与面试场景匹配的正向情感类别为中性情感和正面情感；销售场景应该大部分都是正面的情感，则与销售场景匹配的正向情感类别为正面情感；客服场景的客户可能有一定比例的负面情感，而客服应该全部是中性或正面的情感，则与客服场景匹配的正向情感类别为负面情感、中性情感、正面情感；会议场景应该大部分是中性或正面的情感，则与会议场景匹配的正向情感类别为中性情感、正面情感。
[0077]
s305、若任一聚类簇对应的情感类别不是与目标应用场景匹配的正向情感类别，则确定任一聚类簇为情感类别与目标应用场景不匹配的第一聚类簇。
[0078]
当任一聚类簇对应的情感类别可以被划分到与目标应用场景匹配的正向情感类别中时，可以认为该任一聚类簇对应的情感类别是与目标应用场景匹配的正向情感类别。反之，当任一聚类簇对应的情感类别不可以被划分到与目标应用场景匹配的正向情感类别中时，认为该任一聚类簇对应的情感类别不是与目标应用场景匹配的正向情感类别，此时该任一聚类簇为情感类别与目标应用场景不匹配的第一聚类簇。
[0079]
s306、获取第一聚类簇对应的情感标注标签，基于第一聚类簇对应的情感标注标签和情感识别结果集合，确定待处理语音数据的情感评价结果。
[0080]
由于第一聚类簇对应的情感类别是目标应用场景中不太可能出现的情感类别，因此第一聚类簇中的语音片段所反映的情感特性不符合客观的场景规则(客观规律)，可以认为第一聚类簇中的各个语音片段所属的情感类别并不是准确的，即语音情感识别模型未能准确地对第一聚类簇中的各个语音片段进行情感识别。此时，获取第一聚类簇的簇中心对应的语音片段，簇中心对应的语音片段可以是语音特征作为簇中心的语音片段；或者，语音特征距离簇中心最近的语音片段。例如，图5所示，用五角星标识各个聚类簇的簇中心。
[0081]
将第一聚类簇的簇中心对应的语音片段发送给用户终端，使得用户可以标注该簇中心对应的语音片段，得到该语音片段的标注类别(用户标注的情感类别)。用户终端获取用户针对该簇中心对应的语音片段标注的标注类别，并返回给语音处理设备，语音处理设备可以接收用户终端发送的标注类别，并将标注类别作为第一聚类簇对应的情感标注标签。
[0082]
由于第一聚类簇中的语音片段会对应同一种情感类别，因此可以将第一聚类簇对应的情感标注标签作为第一聚类簇中的语音片段真实的情感类别。一实施方式中，可以将
情感识别结果集合中第一聚类簇包括的各个语音片段所属的情感类别，修改为第一聚类簇对应的情感标注标签，得到修改后的情感识别结果集合，按照预设打分规则对修改后的情感识别结果集合进行处理，得到待处理语音数据的情感得分，将该情感得分作为待处理语音数据的情感评价结果。例如，可以为每种情感类别设置一个分值，根据修改后的情感识别结果集合中每个语音片段所属的情感类别和对应的分值，为每个语音片段打分，将所有语音片段的打分总和作为待处理语音数据的情感得分。其中，正面情感(例如兴奋、高兴、激动)的分值可以相对较高，负面情感(例如伤心、委屈、害怕)的分值可以相对较低，则情感得分越大，表明待处理语音数据越倾向于表现正面情感，情感得分越低，表明待处理语音数据越倾向于表现负面情感。采用这种打分方式确定待处理语音数据的情感评价结果，可以知道待处理语音数据所倾向反映的情感类别，有利于分析目标应用场景中的对话氛围。
[0083]
综上所述，参阅图6，图6为本技术实施例提供的另一种语音处理方法的流程示意图，该方法包括：
[0084]
s601、获取待处理语音数据。
[0085]
s602、利用通用模型识别待处理语音数据中的各个语音片段所属的情感类别，通过记录每个语音片段所属的情感类别，产生情感识别结果集合。
[0086]
s603、判断情感识别结果集合中的识别结果是否正常或符合场景规律。
[0087]
s604、若情感识别结果集合中的识别结果不正常或不符合场景规律，则基于语音特征进行聚类处理，根据聚类结果将待处理语音数据中的多个语音片段划分为多个聚类簇。
[0088]
s605、遍历所有聚类簇，通过情感识别结果集合判断，如果同一个聚类簇中超过一定阈值的识别结果为同一种情感类别时，认为该聚类簇的聚类结果正确，否则增加聚类个数，继续判断，直至每个聚类簇都有超过该阈值的情感类别。
[0089]
s606、针对判定为非正常的聚类簇，选择簇中心对应的语音片段进行人工判断，将人工判断结果作为该聚类簇中的各个语音片段所属的情感类别。非正常的聚类簇即上述第一聚类簇。
[0090]
s607、结束，按照预设规则返回情感评价结果。具体按照预设规则、人工判断结果和情感识别结果集合确定待处理语音数据的情感评价结果。另外，若情感识别结果集合中的识别结果正常或符合场景规律，则结束，按照预设规则返回情感评价结果。具体按照预设规则对情感识别结果集合处理，得到待处理语音数据的情感评价结果。
[0091]
采用本技术的方法，可以通过待处理语音数据中不同情感类别对应的语音片段占比是否满足对应场景的占比规则，确定语音情感识别模型是否有准确地进行语音情感识别，并在语音情感识别模型未准确进行语音情感识别时，引入些许的人工干预，从而大大地提升语音情感识别的准确率。另外，将待处理语音数据的多个语音片段划分为多个聚类簇，可以保证各个聚类簇的结果准确，即每个聚类簇中的各个语音片段都倾向于反映同一种情感特性，使得第一聚类簇对应的情感标注标签在作为第一聚类簇中的各个语音片段真实的情感类别时是准确的。
[0092]
可以理解的是，在本技术的具体实施方式中，涉及到待处理语音数据等相关数据，当本技术以上实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
[0093]
上述详细阐述了本技术实施例的方法，为了便于更好地实施本技术实施例的上述方法，相应地，下面提供了本技术实施例的装置。请参见图7，图7是本技术实施例提供的一种语音处理装置的结构示意图，在一实施例中，该语音处理装置70可以包括：
[0094]
获取单元701，用于获取目标应用场景的待处理语音数据，并基于语音情感识别模型确定所述待处理语音数据的情感识别结果集合，所述情感识别结果集合包括所述待处理语音数据的多个语音片段中每个语音片段所属的情感类别；
[0095]
处理单元702，用于若所述情感识别结果集合未满足所述目标应用场景的场景规则，则对所述多个语音片段进行聚类处理，得到多个聚类簇，所述场景规则包括预定义的各个参考情感类别的占比规则，同一个聚类簇中的语音片段对应一种情感类别；
[0096]
所述处理单元702，还用于从所述多个聚类簇中确定情感类别与所述目标应用场景不匹配的第一聚类簇，并获取所述第一聚类簇对应的情感标注标签；
[0097]
所述处理单元702，还用于基于所述第一聚类簇对应的情感标注标签和所述情感识别结果集合，确定所述待处理语音数据的情感评价结果。
[0098]
在一实施例中，所述获取单元701具体用于：获取所述情感识别结果集合中不同情感类别对应的语音片段占比；
[0099]
所述处理单元702具体用于：若所述情感识别结果集合中存在一情感类别对应的语音片段占比未满足对应的参考情感类别的占比规则，则确定所述情感识别结果集合未满足所述目标应用场景的场景规则。
[0100]
在一实施例中，所述处理单元702具体用于：基于所述多个聚类簇中的任一聚类簇中不同情感类别对应的语音片段占比，确定对应最大语音片段占比的情感类别，并将所述对应最大语音片段占比的情感类别确定为所述任一聚类簇对应的情感类别；
[0101]
所述获取单元701具体用于：获取与所述目标应用场景匹配的正向情感类别；
[0102]
所述处理单元702具体用于：若所述任一聚类簇对应的情感类别不是所述与所述目标应用场景匹配的正向情感类别，则确定所述任一聚类簇为情感类别与所述目标应用场景不匹配的第一聚类簇。
[0103]
在一实施例中，所述处理单元702具体用于：确定所述多个语音片段中每个语音片段的语音特征，并基于所述每个语音片段的语音特征以及目标期望数量，对所述多个语音片段进行聚类处理，得到至少一个聚类簇，所述至少一个聚类簇的数量为所述目标期望数量；
[0104]
所述获取单元701具体用于：获取所述至少一个聚类簇中的每个聚类簇的语音片段总量，并将对应语音片段总量小于预设总量的聚类簇确定为第二聚类簇；
[0105]
所述处理单元702具体用于：若所述第二聚类簇的数量小于预设数量，则基于所述每个聚类簇中不同情感类别对应的语音片段占比，确定所述每个聚类簇对应的最大语音片段占比，一个聚类簇对应的最大语音片段占比为在所述一个聚类簇中占比最大的情感类别对应的语音片段占比；若所述至少一个聚类簇中的各个聚类簇对应的最大语音片段占比大于预设占比，则将所述至少一个聚类簇中除所述第二聚类簇以外的聚类簇，确定为多个聚类簇。
[0106]
在一实施例中，所述目标期望数量为第一数量；所述处理单元702具体用于：若所述第二聚类簇的数量大于或者等于所述预设数量，则将所述目标期望数量更新为第二数
量，执行所述基于所述每个语音片段的语音特征以及目标期望数量，对所述多个语音片段进行聚类处理，得到至少一个聚类簇的步骤，所述第二数量小于所述第一数量；或者，若所述至少一个聚类簇中存在一聚类簇对应的最大语音片段占比小于或者等于所述预设占比，则将所述目标期望数量更新为第三数量，执行所述基于所述每个语音片段的语音特征以及目标期望数量，对所述多个语音片段进行聚类处理，得到至少一个聚类簇的步骤，所述第三数量大于所述第一数量。
[0107]
在一实施例中，所述处理单元702具体用于：确定所述第一聚类簇的簇中心对应的语音片段；将所述簇中心对应的语音片段发送给用户终端，以使所述用户终端获取用户针对所述簇中心对应的语音片段标注的标注类别；接收所述用户终端发送的所述标注类别，并将所述标注类别作为所述第一聚类簇对应的情感标注标签。
[0108]
在一实施例中，所述处理单元702具体用于：将所述情感识别结果集合中所述第一聚类簇包括的各个语音片段所属的情感类别，修改为所述第一聚类簇对应的情感标注标签，得到修改后的情感识别结果集合；按照预设打分规则对所述修改后的情感识别结果集合进行处理，得到所述待处理语音数据的情感评价结果。
[0109]
在一实施例中，所述处理单元702具体用于：对所述待处理语音数据进行端点检测，并基于端点检测结果对所述待处理语音数据进行切分处理，得到所述待处理语音数据的多个语音片段；确定所述多个语音片段中每个语音片段的语音特征；将所述每个语音片段的语音特征输入语音情感识别模型，得到所述每个语音片段所属的情感类别；基于所述每个语音片段所属的情感类别，确定所述待处理语音数据的情感识别结果集合。
[0110]
可以理解的是，本技术实施例所描述的语音处理装置的各功能单元的功能可根据上述方法实施例中的方法具体实现，其具体实现过程可以参照上述方法实施例的相关描述，此处不再赘述。
[0111]
通过本技术的方法，可以基于待处理语音数据的多个语音片段所属的场景类别是否符合客观的场景规则，确定是否需要在语音情感识别模型识别的基础上，引入些许的人工干预，从而大大地提升语音情感识别的准确性。
[0112]
如图8所示，图8是本技术实施例提供的一种计算机设备的结构示意图，该计算机设备80内部结构如图8所示，包括：一个或多个处理器801、存储器802、通信接口803。上述处理器801、存储器802和通信接口803可通过总线804或其他方式连接，本技术实施例以通过总线804连接为例。
[0113]
其中，处理器801(或称cpu(central processing unit，中央处理器))是计算机设备80的计算核心以及控制核心，其可以解析计算机设备80内的各类指令以及处理计算机设备80的各类数据，例如：cpu可以用于解析用户向计算机设备80所发送的开关机指令，并控制计算机设备80进行开关机操作；再如：cpu可以在计算机设备80内部结构之间传输各类交互数据，等等。通信接口803可选的可以包括标准的有线接口、无线接口(如wi-fi、移动通信接口等)，受处理器801的控制用于收发数据。存储器802(memory)是计算机设备80中的记忆设备，用于存放计算机程序和数据。可以理解的是，此处的存储器802既可以包括计算机设备80的内置存储器，当然也可以包括计算机设备80所支持的扩展存储器。存储器802提供存储空间，该存储空间存储了计算机设备80的操作系统，可包括但不限于：windows系统、linux系统、android系统、ios系统，等等，本技术对此并不作限定。处理器801通过运行存储
器802中存储的计算机程序，执行如下操作：
[0114]
获取目标应用场景的待处理语音数据，并基于语音情感识别模型确定所述待处理语音数据的情感识别结果集合，所述情感识别结果集合包括所述待处理语音数据的多个语音片段中每个语音片段所属的情感类别；
[0115]
若所述情感识别结果集合未满足所述目标应用场景的场景规则，则对所述多个语音片段进行聚类处理，得到多个聚类簇，所述场景规则包括预定义的各个参考情感类别的占比规则，同一个聚类簇中的语音片段对应一种情感类别；
[0116]
从所述多个聚类簇中确定情感类别与所述目标应用场景不匹配的第一聚类簇，并获取所述第一聚类簇对应的情感标注标签；
[0117]
基于所述第一聚类簇对应的情感标注标签和所述情感识别结果集合，确定所述待处理语音数据的情感评价结果。
[0118]
在一实施例中，所述处理器801具体用于：获取所述情感识别结果集合中不同情感类别对应的语音片段占比；若所述情感识别结果集合中存在一情感类别对应的语音片段占比未满足对应的参考情感类别的占比规则，则确定所述情感识别结果集合未满足所述目标应用场景的场景规则。
[0119]
在一实施例中，所述处理器801具体用于：基于所述多个聚类簇中的任一聚类簇中不同情感类别对应的语音片段占比，确定对应最大语音片段占比的情感类别，并将所述对应最大语音片段占比的情感类别确定为所述任一聚类簇对应的情感类别；获取与所述目标应用场景匹配的正向情感类别；若所述任一聚类簇对应的情感类别不是所述与所述目标应用场景匹配的正向情感类别，则确定所述任一聚类簇为情感类别与所述目标应用场景不匹配的第一聚类簇。
[0120]
在一实施例中，所述处理器801具体用于：确定所述多个语音片段中每个语音片段的语音特征，并基于所述每个语音片段的语音特征以及目标期望数量，对所述多个语音片段进行聚类处理，得到至少一个聚类簇，所述至少一个聚类簇的数量为所述目标期望数量；获取所述至少一个聚类簇中的每个聚类簇的语音片段总量，并将对应语音片段总量小于预设总量的聚类簇确定为第二聚类簇；若所述第二聚类簇的数量小于预设数量，则基于所述每个聚类簇中不同情感类别对应的语音片段占比，确定所述每个聚类簇对应的最大语音片段占比，一个聚类簇对应的最大语音片段占比为在所述一个聚类簇中占比最大的情感类别对应的语音片段占比；若所述至少一个聚类簇中的各个聚类簇对应的最大语音片段占比大于预设占比，则将所述至少一个聚类簇中除所述第二聚类簇以外的聚类簇，确定为多个聚类簇。
[0121]
在一实施例中，所述目标期望数量为第一数量；所述处理器801具体用于：若所述第二聚类簇的数量大于或者等于所述预设数量，则将所述目标期望数量更新为第二数量，执行所述基于所述每个语音片段的语音特征以及目标期望数量，对所述多个语音片段进行聚类处理，得到至少一个聚类簇的步骤，所述第二数量小于所述第一数量；或者，若所述至少一个聚类簇中存在一聚类簇对应的最大语音片段占比小于或者等于所述预设占比，则将所述目标期望数量更新为第三数量，执行所述基于所述每个语音片段的语音特征以及目标期望数量，对所述多个语音片段进行聚类处理，得到至少一个聚类簇的步骤，所述第三数量大于所述第一数量。
[0122]
在一实施例中，所述处理器801具体用于：确定所述第一聚类簇的簇中心对应的语音片段；将所述簇中心对应的语音片段发送给用户终端，以使所述用户终端获取用户针对所述簇中心对应的语音片段标注的标注类别；接收所述用户终端发送的所述标注类别，并将所述标注类别作为所述第一聚类簇对应的情感标注标签。
[0123]
在一实施例中，所述处理器801具体用于：将所述情感识别结果集合中所述第一聚类簇包括的各个语音片段所属的情感类别，修改为所述第一聚类簇对应的情感标注标签，得到修改后的情感识别结果集合；按照预设打分规则对所述修改后的情感识别结果集合进行处理，得到所述待处理语音数据的情感评价结果。
[0124]
在一实施例中，所述处理器801具体用于：对所述待处理语音数据进行端点检测，并基于端点检测结果对所述待处理语音数据进行切分处理，得到所述待处理语音数据的多个语音片段；确定所述多个语音片段中每个语音片段的语音特征；将所述每个语音片段的语音特征输入语音情感识别模型，得到所述每个语音片段所属的情感类别；基于所述每个语音片段所属的情感类别，确定所述待处理语音数据的情感识别结果集合。
[0125]
具体实现中，本技术实施例中所描述的处理器801、存储器802及通信接口803可执行本技术实施例提供的一种语音处理方法中所描述的实现方式，也可执行本技术实施例提供的一种语音处理装置中所描述的实现方式，在此不再赘述。
[0126]
通过本技术的方法，可以基于待处理语音数据的多个语音片段所属的场景类别是否符合客观的场景规则，确定是否需要在语音情感识别模型识别的基础上，引入些许的人工干预，从而大大地提升语音情感识别的准确性。
[0127]
本技术实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，当其在计算机设备上运行时，使得计算机设备执行上述任一可能实现方式的语音处理方法。其具体实现方式可参考前文描述，此处不再赘述。
[0128]
本技术实施例还提供了一种计算机程序产品，所述计算机程序产品包括计算机程序或计算机指令，所述计算机程序或计算机指令被处理器执行时实现本技术实施例提供的语音处理方法的步骤。其具体实现方式可参考前文描述，此处不再赘述。
[0129]
本技术实施例还提供了一种计算机程序，所述计算机程序包括计算机指令，所述计算机指令存储在计算机可读存储介质中，计算机设备的处理器从所述计算机可读存储介质读取所述计算机指令，处理器执行所述计算机指令，使得所述计算机设备执行本技术实施例提供的语音处理方法。其具体实现方式可参考前文描述，此处不再赘述。
[0130]
需要说明的是，对于前述的各个方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本技术并不受所描述的动作顺序的限制，因为依据本技术，某一些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本技术所必须的。
[0131]
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(read-only memory，rom)、随机存取器(random access memory，ram)、磁盘或光盘等。
[0132]
以上所揭露的仅为本技术部分实施例而已，当然不能以此来限定本技术之权利范
围，因此依本技术权利要求所作的等同变化，仍属本技术所涵盖的范围。

技术特征：

1.一种语音处理方法，其特征在于，所述方法包括：获取目标应用场景的待处理语音数据，并基于语音情感识别模型确定所述待处理语音数据的情感识别结果集合，所述情感识别结果集合包括所述待处理语音数据的多个语音片段中每个语音片段所属的情感类别；若所述情感识别结果集合未满足所述目标应用场景的场景规则，则对所述多个语音片段进行聚类处理，得到多个聚类簇，所述场景规则包括预定义的各个参考情感类别的占比规则，同一个聚类簇中的语音片段对应一种情感类别；从所述多个聚类簇中确定情感类别与所述目标应用场景不匹配的第一聚类簇，并获取所述第一聚类簇对应的情感标注标签；基于所述第一聚类簇对应的情感标注标签和所述情感识别结果集合，确定所述待处理语音数据的情感评价结果。2.根据权利要求1所述的方法，其特征在于，所述方法还包括：获取所述情感识别结果集合中不同情感类别对应的语音片段占比；若所述情感识别结果集合中存在一情感类别对应的语音片段占比未满足对应的参考情感类别的占比规则，则确定所述情感识别结果集合未满足所述目标应用场景的场景规则。3.根据权利要求1所述的方法，其特征在于，所述从所述多个聚类簇中确定对应的情感类别与所述目标应用场景不匹配的第一聚类簇，包括：基于所述多个聚类簇中的任一聚类簇中不同情感类别对应的语音片段占比，确定对应最大语音片段占比的情感类别，并将所述对应最大语音片段占比的情感类别确定为所述任一聚类簇对应的情感类别；获取与所述目标应用场景匹配的正向情感类别；若所述任一聚类簇对应的情感类别不是所述与所述目标应用场景匹配的正向情感类别，则确定所述任一聚类簇为情感类别与所述目标应用场景不匹配的第一聚类簇。4.根据权利要求1-3中任一项所述的方法，其特征在于，所述对所述多个语音片段进行聚类处理，得到多个聚类簇，包括：确定所述多个语音片段中每个语音片段的语音特征，并基于所述每个语音片段的语音特征以及目标期望数量，对所述多个语音片段进行聚类处理，得到至少一个聚类簇，所述至少一个聚类簇的数量为所述目标期望数量；获取所述至少一个聚类簇中的每个聚类簇的语音片段总量，并将对应语音片段总量小于预设总量的聚类簇确定为第二聚类簇；若所述第二聚类簇的数量小于预设数量，则基于所述每个聚类簇中不同情感类别对应的语音片段占比，确定所述每个聚类簇对应的最大语音片段占比，一个聚类簇对应的最大语音片段占比为在所述一个聚类簇中占比最大的情感类别对应的语音片段占比；若所述至少一个聚类簇中的各个聚类簇对应的最大语音片段占比大于预设占比，则将所述至少一个聚类簇中除所述第二聚类簇以外的聚类簇，确定为多个聚类簇。5.根据权利要求4所述的方法，其特征在于，所述目标期望数量为第一数量；所述方法还包括：若所述第二聚类簇的数量大于或者等于所述预设数量，则将所述目标期望数量更新为
第二数量，执行所述基于所述每个语音片段的语音特征以及目标期望数量，对所述多个语音片段进行聚类处理，得到至少一个聚类簇的步骤，所述第二数量小于所述第一数量；或者，若所述至少一个聚类簇中存在一聚类簇对应的最大语音片段占比小于或者等于所述预设占比，则将所述目标期望数量更新为第三数量，执行所述基于所述每个语音片段的语音特征以及目标期望数量，对所述多个语音片段进行聚类处理，得到至少一个聚类簇的步骤，所述第三数量大于所述第一数量。6.根据权利要求1-3中任一项所述的方法，其特征在于，所述获取所述第一聚类簇对应的情感标注标签，包括：确定所述第一聚类簇的簇中心对应的语音片段；将所述簇中心对应的语音片段发送给用户终端，以使所述用户终端获取用户针对所述簇中心对应的语音片段标注的标注类别；接收所述用户终端发送的所述标注类别，并将所述标注类别作为所述第一聚类簇对应的情感标注标签。7.根据权利要求1-3中任一项所述的方法，其特征在于，所述基于所述第一聚类簇对应的情感标注标签和所述情感识别结果集合，确定所述待处理语音数据的情感评价结果，包括：将所述情感识别结果集合中所述第一聚类簇包括的各个语音片段所属的情感类别，修改为所述第一聚类簇对应的情感标注标签，得到修改后的情感识别结果集合；按照预设打分规则对所述修改后的情感识别结果集合进行处理，得到所述待处理语音数据的情感评价结果。8.一种语音处理装置，其特征在于，所述装置包括：获取单元，用于获取目标应用场景的待处理语音数据，并基于语音情感识别模型确定所述待处理语音数据的情感识别结果集合，所述情感识别结果集合包括所述待处理语音数据的多个语音片段中每个语音片段所属的情感类别；处理单元，用于若所述情感识别结果集合未满足所述目标应用场景的场景规则，则对所述多个语音片段进行聚类处理，得到多个聚类簇，所述场景规则包括预定义的各个参考情感类别的占比规则，同一个聚类簇中的语音片段对应一种情感类别；所述处理单元，还用于从所述多个聚类簇中确定情感类别与所述目标应用场景不匹配的第一聚类簇，并获取所述第一聚类簇对应的情感标注标签；所述处理单元，还用于基于所述第一聚类簇对应的情感标注标签和所述情感识别结果集合，确定所述待处理语音数据的情感评价结果。9.一种计算机设备，其特征在于，所述计算机设备包括存储器、通信接口以及处理器，所述存储器、所述通信接口和所述处理器相互连接；所述存储器存储有计算机程序，所述处理器调用所述存储器中存储的计算机程序，用于实现如权利要求1-7中任一项所述的语音处理方法。10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的语音处理方法。

技术总结

一种语音处理方法、装置、设备及存储介质，该方法包括：获取目标应用场景的待处理语音数据，基于语音情感识别模型确定待处理语音数据的情感识别结果集合，情感识别结果集合包括待处理语音数据的各个语音片段所属的情感类别；若情感识别结果集合未满足目标应用场景的场景规则(包括预定义的各个参考情感类别的占比规则)，则对多个语音片段进行聚类处理得到多个聚类簇，同一个聚类簇中的语音片段对应一种情感类别；从多个聚类簇中确定情感类别与目标应用场景不匹配的第一聚类簇，获取第一聚类簇对应的情感标注标签；基于第一聚类簇对应的情感标注标签和情感识别结果集合确定待处理语音数据的情感评价结果。本申请可以提升语音情感识别的准确性。感识别的准确性。感识别的准确性。