语音判别方法、装置、计算机设备、存储介质和程序产品与流程



1.本技术涉及音频识别技术领域,特别是涉及一种语音判别方法、装置、计算机设备、存储介质和程序产品。


背景技术:



2.随着语音合成技术的发展,不法分子会通过合成语音与目标人进行电话沟通,由于合成语音与真实语音的差距较小,目标人往往无法识别电话沟通内容的真实性,从而会造成财力、物力的损失。
3.相关技术中,对通话语音进行真伪判别的方式可以是靠目标人的防意识来进行判别,或者,通过一些语音识别方式来识别,例如,对通话语音进行语素分割得到语素语音,并基于语素语音确定该通话语音是否为合成语音。
4.但是,相关技术的方法对合成语音的识别准确度不高。


技术实现要素:



5.基于此,有必要针对上述技术问题,提供一种能够提高合成语音识别准确度的语音判别方法、装置、计算机设备、存储介质和程序产品。
6.第一方面,本技术提供了一种语音判别方法,该方法包括:
7.获取目标通话过程的语音数据
8.将语音数据输入至预设的语音判别模型中,通过语音判别模型对语音数据的语义特征进行分析,得到语音数据的语音类型判别结果;语义特征至少包括声调特征、因素特征、间隔段落特征和声音频谱特征;语音类型判别结果包括合成语音或者真实语音。
9.在其中一个实施例中,通过语音判别模型对语音数据的语义特征进行分析,得到语音数据的语音类型判别结果,包括:
10.从语音数据中提取声调特征、因素特征、间隔段落特征和声音频谱特征;
11.根据因素特征和间隔段落特征,对语音数据进行划分,根据声调特征对划分后的语音数据进行分类,得到多个相同声调的语音数据;
12.根据各相同声调的语音数据中的频谱波动特征和声音频谱特征,确定语音数据的语音类型判别结果。
13.在其中一个实施例中,根据各相同声调的语音数据中的频谱波动特征和声音频谱特征,确定语音数据的语音类型判别结果,包括:
14.针对每个相同声调的语音数据,根据相同声调的语音数据的声音频谱特征,将各相同声调的语音数据划分为多个周期的语音数据;
15.若相同声调的语音数据中每个周期的频谱波动特征一致,确定相同声调的语音数据为合成语音;若相同声调的语音数据中存在至少一对周期的频谱波动特征不一致,确定语音数据为正常语音。
16.在其中一个实施例中,获取目标通话过程的语音数据,包括:
17.获取原始语音数据,对原始语音数据进行分帧处理,得到多帧语音数据;
18.将多帧语音数据中声波强度大于预设阈值的第一帧作为目标通话过程的语音数据的起始语音数据,以及,将多帧语音数据中声波强度大于预设阈值的最后一帧作为目标通话过程的语音数据的终止语音数据;
19.将起始语音数据、终止语音数据以及起始语音数据与终止语音数据之间的语音数据作为目标通话过程的语音数据。
20.在其中一个实施例中,构建语音判别模型的过程包括:
21.获取通话过程的多个样本语音数据,多个样本语音数据包括不同声调特征的语音数据、不同因素特征的语音数据和不同间隔段落特征的语音数据和不同声音频谱特征的语音数据;
22.根据多个样本语音数据,训练初始神经网络模型,直至满足预设的收敛条件,确定神经网络模型收敛,得到语音判别模型。
23.在其中一个实施例中,根据多个样本语音数据,训练初始神经网络模型,直至满足预设的收敛条件,确定神经网络模型收敛,得到语音判别模型,包括:
24.提取各样本语音数据的声调特征、因素特征、间隔段落特征和声音频谱特征;
25.将各样本语音数据的声调特征、因素特征、间隔段落特征和声音频谱特征输入至初始神经网络模型的回归模型中,得到回归模型的输出值;
26.通过初始神经网络模型中的加权层对各样本语音数据进行分析,得到加权层对应的权重特征;
27.根据回归模型的输出值,调整加权层对应的权重特征,直至满足预设的收敛条件,确定神经网络模型收敛,得到语音判别模型。
28.在其中一个实施例中,原始语音数据为通过声音采集设备采集的。
29.第二方面,本技术还提供了一种语音判别装置,该装置包括:
30.获取模块,用于获取目标通话过程的语音数据;
31.分析模块,用于将语音数据输入至预设的语音判别模型中,通过语音判别模型对语音数据的语义特征进行分析,得到语音数据的语音类型判别结果;语义特征至少包括声调特征、因素特征、间隔段落特征和声音频谱特征;语音类型判别结果包括合成语音或者真实语音。
32.第三方面,本技术还提供了一种计算机设备,该计算机设备包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现第一方面方法实施例中的所有内容。
33.第四方面,本技术还提供了一种计算机可读存储介质,该计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现第一方面方法实施例中的所有内容。
34.第五方面,本技术还提供了一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序被处理器执行时实现第一方面方法实施例中的所有内容。
35.上述语音判别方法、装置、计算机设备、存储介质和程序产品,该方法通过获取目标通话过程的语音数据,将语音数据输入至预设的语音判别模型中,通过语音判别模型对语音数据的语义特征进行分析,得到语音数据的语音类型判别结果。该方法中的预设的语
音判别模型是通过声调特征、因素特征、间隔段落特征和声音频谱特征等语义特征进行训练的,该语音判别模型对语音数据的识别过程更加全面,且通过语音判别模型可以直接得到判别的结果为合成语音还是真实语音,提高了合成语音的识别准确度。
附图说明
36.图1为一个实施例中语音判别方法的应用环境图;
37.图2为一个实施例中语音判别方法的流程示意图;
38.图3为一个实施例中语音判别方法的流程示意图;
39.图4为一个实施例中语音判别方法的流程示意图;
40.图5为一个实施例中语音判别方法的流程示意图;
41.图6为一个实施例中语音判别方法的流程示意图;
42.图7为一个实施例中语音判别方法的流程示意图;
43.图8为一个实施例中语音判别方法的流程示意图;
44.图9为一个实施例中语音判别装置的结构框图。
具体实施方式
45.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
46.本技术实施例提供的语音判别方法,可以应用于如图1所示的应用环境中。该应用环境中包括计算机设备,其中,计算机设备可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。
47.在一个实施例中,如图2所示,提供了一种语音判别方法,以该方法应用于图1中的计算机设备为例进行说明,包括以下步骤:
48.s201,获取目标通话过程的语音数据。
49.具体的,音频采集设备可以实时的采集目标通话过程的语音数据,计算机设备可以向音频采集设备发送获取语音数据的指令,音频采集设备接收到该指令后,将采集到的目标通话过程的语音数据实时的传输给计算机设备,计算机设备可以实时的获取目标通话过程的语音数据。可选的,计算机设备可以通过蓝牙与音频采集设备连接,或者,计算机设备也可以通过无线网络通信技术(wireless fidelity,wifi)与音频采集设备连接。本实施例对计算机设备与音频采集设备的连接方式不做限定。
50.s202,将语音数据输入至预设的语音判别模型中,通过语音判别模型对语音数据的语义特征进行分析,得到语音数据的语音类型判别结果;语义特征至少包括声调特征、因素特征、间隔段落特征和声音频谱特征;语音类型判别结果包括合成语音或者真实语音。
51.其中,声调特征是指通话过程中语音音调的变化,普通话中声调的表现形式有阳平、阴平、去声和上声四个声调;因素特征是指通话过程中不同孤立词的诵读变化;间隔段落特征是指通话过程中段落之间的间隔大小;声音频谱特征是指不同频率的谐波及泛音相对于基频的强度。上述语音判别模型可以通过神经网络模型训练的。
52.具体的,预设的语音判别模型是通过大量的样本语音数据的声调特征、因素特征、间隔段落特征和声音频谱特征进行训练的,计算机设备将目标通话过程的语音数据输入至预设的语音判别模型中,通过预设的语音判别模型的计算,可以确定该目标通话过程的语音数据为合成语音或者正常语音。例如,当预设的语音判别模型输出为0时,确定语音数据为正常语音;当预设的语音判别模型的输出结果为1时,确定语音数据为合成语音。
53.上述语音判别方法中,该方法通过获取目标通话过程的语音数据,将语音数据输入至预设的语音判别模型中,通过语音判别模型对语音数据的语义特征进行分析,得到语音数据的语音类型判别结果。该方法中的预设的语音判别模型是通过声调特征、因素特征、间隔段落特征和声音频谱特征等语义特征进行训练的,该语音判别模型对语音数据的识别过程更加全面,且通过语音判别模型可以直接得到判别的结果为合成语音还是真实语音,提高了合成语音的识别准确度。
54.图3为本技术实施例提供的语音判别方法的流程示意图。本技术实施例涉及通过语音判别模型对语音数据的语义特征进行分析,得到语音数据的语音类型判别结果的一种可选的实现方式。在图2所示实施例的基础上,如图3所示,上述s202可以包括如下步骤:
55.s301,从语音数据中提取声调特征、因素特征、间隔段落特征和声音频谱特征。
56.具体的,计算机设备可以通过自相关函数法(auto-correlation function,acf)或平均幅度差函数法(angular momentum distribution function,amdf)提取语音数据中的声调特征,通过线性预测编码(linear predictive coding,lpc)或梅尔频率倒谱系数(mei-freguency ceptrai coefficients,mfcc)提取语音数据中的因素特征和间隔段落特征,通过快速傅立叶变换(fast fourier transform,fft)算法获取语音数据中的声音频谱特征。
57.s302,根据因素特征和间隔段落特征,对语音数据进行划分,根据声调特征对划分后的语音数据进行分类,得到多个相同声调的语音数据。
58.具体的,计算机设备可以按照因素特征和间隔段落特征将语音数据划分为不同的类型的语音数据,再对该不同类型的语音数据按照声调特征分为多个相同声调的语音数据。例如,可以将不同孤立词的诵读变化且间隔段落处于一定范围的语音数据划分为同一类语音数据,再按照声调特征对同一类的语音数据进行划分,得到多个相同声调的语音数据。
59.s303,根据各相同声调的语音数据中的频谱波动特征和声音频谱特征,确定语音数据的语音类型判别结果。
60.具体的,对于相同声调的语音数据来说,合成语音数据的声音频谱特征都是类似的,且合成语音数据中的频谱波动是按照一定的规律进行波动的,正常语音的声音频谱特征和频谱波动特征是杂乱没有规律的。
61.可选的,计算机设备可以获取与该声调相同的历史合成语音数据的频谱波动特征和声音频谱特征,将该语音数据的频谱波动特征与历史合成语音数据的频谱波动特征进行匹配,若匹配成功,确定该语音数据的语音类型为合成语音;若未匹配成功,则确定该语音数据的语音类型为正常语音。可选的,计算机设备可以判断该语音数据中的频谱波动是否按照一定的规律进行波动,同时判断该语音数据的声音频谱特征是否类似,若该语音数据中的频谱是按照一定规律进行波动,且该语音数据的声音频谱特征类似,则确定该语音数
据为合成语音;若上述两个条件中的任意一个不满足或者两个条件都不满足时,确定该语音数据为正常语音。
62.上述语音判别方法中,该方法从语音数据中提取声调特征、因素特征、间隔段落特征和声音频谱特征,根据因素特征和间隔段落特征,对语音数据进行划分,根据声调特征对划分后的语音数据进行分类,得到多个相同声调的语音数据,根据各相同声调的语音数据中的频谱波动特征和声音频谱特征,确定语音数据的语音类型判别结果。该方法按照因素特征和间隔段落特征可以准确的将语音数据划分为多个相同声调的语音数据,根据相同声调的语音数据的频谱波动特征可以准确的判断该语音数据是否为合成语音,通过对语音数据进行两次分类,能够全面准确的对语音数据进行判断,提高了合成语音的识别准确度。
63.图4为本技术实施例提供的语音判别方法的流程示意图。本技术实施例涉及通过根据各相同声调的语音数据中的频谱波动特征和声音频谱特征,确定语音数据的语音类型判别结果的一种可选的实现方式。在图3所示实施例的基础上,如图4所示,上述s303可以包括如下步骤:
64.s401,针对每个相同声调的语音数据,根据相同声调的语音数据的声音频谱特征,将各相同声调的语音数据划分为多个周期的语音数据。
65.可选的,计算机设备可以根据与各语音数据相同声调的历史语音数据的声音频谱特征的划分周期,将各相同声调的语音数据划分为多个周期的语音数据。可选的,计算机设备可以根据声音频谱特征中的波动情况,将各相同声调的语音数据划分为多个周期的语音数据。本实施例对将各相同声调的语音数据划分为多个周期的语音数据的方式不做限定。
66.s402,若相同声调的语音数据中每个周期的频谱波动特征一致,确定相同声调的语音数据为合成语音;若相同声调的语音数据中存在至少一对周期的频谱波动特征不一致,确定语音数据为正常语音。
67.具体的,合成语音的频谱是按照周期规律进行波动的,每个周期内的频谱波动特征一直。计算机设备将各个周期的频谱波动特征进行匹配,若每个周期的频谱波动特征都一致,则确定该语音数据为合成语音;若有一对周期的频谱波动特征不一致或多对周期的频谱波动特征不一致,则确定该语音数据为正常语音。
68.上述语音判别方法中,针对每个相同声调的语音数据,根据相同声调的语音数据的声音频谱特征,将各相同声调的语音数据划分为多个周期的语音数据,若相同声调的语音数据中每个周期的频谱波动特征一致,确定相同声调的语音数据为合成语音;若相同声调的语音数据中存在至少一对周期的频谱波动特征不一致,确定语音数据为正常语音。该方法针对相同声调的语音,根据相同声调中每个周期的频谱波动特征是否一致,能够准确的确定该语音信息是否为合成语音。
69.图5为本技术实施例提供的语音判别方法的流程示意图。本技术实施例涉及获取目标通话过程的语音数据的一种可选的实现方式。在图2所示实施例的基础上,如图5所示,该过程可以包括如下步骤:
70.s501,获取原始语音数据,对原始语音数据进行分帧处理,得到多帧语音数据。
71.可选的,原始语音数据是通过声音采集设备采集的。该声音采集设备可以是移动终端、计算机设备等具有采集语音数据的设备,也可以是录音笔等第三方语音监听设备。具体的,计算机设备可以将语音数据进行切分,得到多个小段的语音数据,将每个小段作为一
帧,得到多帧语音数据。
72.s502,将多帧语音数据中声波强度大于预设阈值的第一帧作为目标通话过程的语音数据的起始语音数据,以及,将多帧语音数据中声波强度大于预设阈值的最后一帧作为目标通话过程的语音数据的终止语音数据。
73.其中,声波强度是指单位时间内通过垂直于声波传播方向的单位面积的平均声能,声波强度的单位是分贝。
74.具体的,计算机设备可以通过语音数据的因素特征来获取各帧语音数据的声波强度,根据历史经验确定声波强度对应的预设阈值,由于在通话过程中,通话开始的几秒内可能没有语音数据或者只有外界的干扰语音数据,此时的语音数据的声场强度很小或者趋近于零,当开始讲话时,语音数据的声场强度会突然变大,当通话完成后,语音数据的声场强度又突然变小或者趋近于零。计算机设备按照语音数据的各帧的顺序,将各帧语音数据的声波强度与预设阈值进行比较,将声波强度小于预设阈值的语音数据忽略不计,第一次检测到声波强度大于预设阈值时,将该声波强度对应的语音数据确定为起始语音数据,当最后一次检测到声波强度小于预设阈值时,将该该声波强度对应的语音数据确定为终止语音数据。
75.s503,将起始语音数据、终止语音数据以及起始语音数据与终止语音数据之间的语音数据作为目标通话过程的语音数据。
76.具体的,通过步骤s502确定目标通话过程的语音数据的起始语音数据和终止语音数据后,起始语音数据与终止语音数据之间的语音数据的声场强度都大于预设阈值,目标通话过程的语音数据包括起始语音数据、终止语音数据以及,起始语音数据与终止语音数据之间的语音数据。
77.上述语音判别方法中,该方法通过获取原始语音数据,对原始语音数据进行分帧处理,得到多帧语音数据,将多帧语音数据中声波强度大于预设阈值的第一帧作为目标通话过程的语音数据的起始语音数据,以及,将多帧语音数据中声波强度大于预设阈值的最后一帧作为目标通话过程的语音数据的终止语音数据,将起始语音数据、终止语音数据以及起始语音数据与终止语音数据之间的语音数据作为目标通话过程的语音数据。该方法通过对原始语音进行分帧处理,能够准确的确定各帧的声波强度,从而可以准确的确定目标通话过程的起始语音数据和终止语音数据,去除原始语音数据中前后没有通话的部分,使得目标通话过程的语音数据判断过程更有针对性。
78.图6为本技术实施例提供的语音判别方法的流程示意图。本技术实施例涉及构建语音判别模型的过程的一种可选的实现方式。在图2所示实施例的基础上,如图6所示,该过程可以包括如下步骤:
79.s601,获取通话过程的多个样本语音数据,多个样本语音数据包括不同声调特征的语音数据、不同因素特征的语音数据和不同间隔段落特征的语音数据和不同声音频谱特征的语音数据。
80.具体的,计算机设备可以获取不同声调特征、不同因素特征和不同间隔段落特征和不同声音频谱特征的多个样本语音数据,该样本语音数据包括合成样本语音数据和正常样本语音数据,并对合成样本语音数据和正常样本语音数据设置不同的标签。
81.s602,根据多个样本语音数据,训练初始神经网络模型,直至满足预设的收敛条
件,确定神经网络模型收敛,得到语音判别模型。
82.可选的,计算机设备可以通过特征提取算法提取多个样本语音数据中的语义特征。可选的,计算机设备可以将多个样本语音数据输入至初始卷积神经网络中进行训练,初始卷积神经网络模型通过若干卷积层提取到多个样本语音数据的语义特征,再将多个样本语音数据的语义特征输入至迁移学习模型中得到迁移损失函数,采用随机梯度下降算法对迁移损失函数优化直至迁移损失函数收敛,根据收敛的迁移损失函数对卷积神经网络模型各个层的参数进行优化更新,得到目标卷积神经网络模型,将该目标卷积神经网络模型作为语音判别模型。
83.上述语音判别方法中,该方法通过获取通话过程的多个样本语音数据,多个样本语音数据包括不同声调特征的语音数据、不同因素特征的语音数据和不同间隔段落特征的语音数据和不同声音频谱特征的语音数据,根据多个样本语音数据,训练初始神经网络模型,直至满足预设的收敛条件,确定神经网络模型收敛,得到语音判别模型。该方法通过包括不同语义特征的多个样本语音数据对神经网络模型进行训练,使得到的神经网络模型更加精确。
84.图7为本技术实施例提供的语音判别方法的流程示意图。本技术实施例涉及根据多个样本语音数据,训练初始神经网络模型,直至满足预设的收敛条件,确定神经网络模型收敛,得到语音判别模型的一种可选的实现方式。在图6所示实施例的基础上,如图7所示,上述s602包括如下步骤:
85.s701,提取各样本语音数据的声调特征、因素特征、间隔段落特征和声音频谱特征。
86.具体的,计算机设备可以通过主成分分析(principal component analysis,pca)算法或感知线性预测系数(perceptual linear predic tive,plp)算法提取多个样本语音数据的声调特征、因素特征、间隔段落特征和声音频谱特征。
87.s702,将各样本语音数据的声调特征、因素特征、间隔段落特征和声音频谱特征输入至初始神经网络模型的回归模型中,得到回归模型的输出值。
88.具体的,计算机设备将各样本语音数据的声调特征、因素特征、间隔段落特征和声音频谱特征作为输入信号,输入至初始神经网络模型的回归模型中,通过回归模型确定样本语音的判断结果,确定该样本语音是合成语音或者正常语音。其中,回归模型可以表示为:
[0089][0090]
其中,x为输入样本语音数据,回归模型输出为“是”时,样本语音为合成语音;当回归模型输出为“否”时,样本语音为正常语音。
[0091]
s703,通过初始神经网络模型中的加权层对各样本语音数据进行分析,得到加权层对应的权重特征。
[0092]
具体的,加权层是指神经网络模型中的任意一层的总称,加权层可以对输入的多个样本语音数据的语义特征进行分析,得到初始神经网络模型中每一层相应的权重特征,不同层对应的权重特征是不同的。例如,神经网络模型中的池化层的权重可以为0.2,全连接层的权重可以为0.3。
[0093]
s704,根据回归模型的输出值,调整加权层对应的权重特征,直至满足预设的收敛条件,确定神经网络模型收敛,得到语音判别模型。
[0094]
具体的,将回归模型的输出结果与各样本语音数据的标签进行匹配,若回归模型的输出结果与各样本语音数据的标签的准确率没有达到预设条件时,说明加权层对应的权重特征存在问题的,继续对加权层的权重特征进行调整,直到回归模型的输出结果与各样本语音数据的标签匹配的准确率达到预设条件时,确定神经网络模型收敛,将该神经网络模型确定为语音判别模型。
[0095]
上述语音判别方法中,该方法通过提取各样本语音数据的声调特征、因素特征、间隔段落特征和声音频谱特征,将各样本语音数据的声调特征、因素特征、间隔段落特征和声音频谱特征输入至初始神经网络模型的回归模型中,得到回归模型的输出值,通过初始神经网络模型中的加权层对各样本语音数据进行分析,得到加权层对应的权重特征,根据回归模型的输出值,调整加权层对应的权重特征,直至满足预设的收敛条件,确定神经网络模型收敛,得到语音判别模型。该方法通过样本语音数据的声调特征、因素特征、间隔段落特征和声音频谱特征对初始神经网络模型进行训练,根据回归模型的输出值不断调整加权层的权重特征,使得神经网络模型的参数处于最优状态,使得到的语音判别模型的识别准确度更高。
[0096]
在一个实施例中,为了便于本领域技术人员的理解,以下对语音判别方法进行详细介绍,如图8所示,该方法可以包括:
[0097]
s801,获取原始语音数据,对原始语音数据进行分帧处理,得到多帧语音数据;
[0098]
s802,将多帧语音数据中声波强度大于预设阈值的第一帧作为目标通话过程的语音数据的起始语音数据,以及,将多帧语音数据中声波强度大于预设阈值的最后一帧作为目标通话过程的语音数据的终止语音数据;
[0099]
s803,将起始语音数据、终止语音数据以及起始语音数据与终止语音数据之间的语音数据作为目标通话过程的语音数据;
[0100]
s804,从语音数据中提取声调特征、因素特征、间隔段落特征和声音频谱特征;
[0101]
s805,根据因素特征和间隔段落特征,对语音数据进行划分,根据声调特征对划分后的语音数据进行分类,得到多个相同声调的语音数据;
[0102]
s806,针对每个相同声调的语音数据,根据相同声调的语音数据的声音频谱特征,将各相同声调的语音数据划分为多个周期的语音数据;
[0103]
s807,若相同声调的语音数据中每个周期的频谱波动特征一致,确定相同声调的语音数据为合成语音;若相同声调的语音数据中存在至少一对周期的频谱波动特征不一致,确定语音数据为正常语音。
[0104]
需要说明的是,针对上述s801-s807中的描述可以参见上述实施例中相关的描述,且其效果类似,本实施例在此不再赘述。
[0105]
上述语音判别方法中,获取原始语音数据,对原始语音数据进行分帧处理,得到多帧语音数据,将多帧语音数据中声波强度大于预设阈值的第一帧作为目标通话过程的语音数据的起始语音数据,以及,将多帧语音数据中声波强度大于预设阈值的最后一帧作为目标通话过程的语音数据的终止语音数据,将起始语音数据、终止语音数据以及起始语音数据与终止语音数据之间的语音数据作为目标通话过程的语音数据,从语音数据中提取声调
特征、因素特征、间隔段落特征和声音频谱特征,根据因素特征和间隔段落特征,对语音数据进行划分,根据声调特征对划分后的语音数据进行分类,得到多个相同声调的语音数据,针对每个相同声调的语音数据,根据相同声调的语音数据的声音频谱特征,将各相同声调的语音数据划分为多个周期的语音数据,若相同声调的语音数据中每个周期的频谱波动特征一致,确定相同声调的语音数据为合成语音;若相同声调的语音数据中存在至少一对周期的频谱波动特征不一致,确定语音数据为正常语音。该方法中的预设的语音判别模型是通过声调特征、因素特征、间隔段落特征和声音频谱特征等语义特征进行训练的,该语音判别模型对语音数据的识别过程更加全面,且通过语音判别模型可以直接得到判别的结果为合成语音还是真实语音,提高了合成语音的识别准确度。
[0106]
应该理解的是,虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
[0107]
基于同样的发明构思,本技术实施例还提供了一种用于实现上述所涉及的语音判别方法的语音判别装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个语音判别装置实施例中的具体限定可以参见上文中对于语音判别方法的限定,在此不再赘述。
[0108]
在一个实施例中,如图9所示,提供了一种语音判别装置,包括:获取模块11和分析模块12,其中:
[0109]
第一获取模块11,用于获取目标通话过程的语音数据;
[0110]
分析模块12,用于将语音数据输入至预设的语音判别模型中,通过语音判别模型对语音数据的语义特征进行分析,得到语音数据的语音类型判别结果;语义特征至少包括声调特征、因素特征、间隔段落特征和声音频谱特征;语音类型判别结果包括合成语音或者真实语音。
[0111]
本实施例提供的语音判别装置,可以执行上述方法实施例,其实现原理和技术效果类似,在此不再赘述。
[0112]
在一个实施例中,上述分析模块包括:提取单元、处理单元和确定单元,其中:
[0113]
第一提取单元,用于从语音数据中提取声调特征、因素特征、间隔段落特征和声音频谱特征;
[0114]
处理单元,用于根据因素特征和间隔段落特征,对语音数据进行划分,根据声调特征对划分后的语音数据进行分类,得到多个相同声调的语音数据;
[0115]
第一确定单元,用于根据各相同声调的语音数据中的频谱波动特征和声音频谱特征,确定语音数据的语音类型判别结果。
[0116]
本实施例提供的语音判别装置,可以执行上述方法实施例,其实现原理和技术效果类似,在此不再赘述。
[0117]
可选的,上述第一确定单元具体用于针对每个相同声调的语音数据,根据相同声
调的语音数据的声音频谱特征,将各相同声调的语音数据划分为多个周期的语音数据;若相同声调的语音数据中每个周期的频谱波动特征一致,确定相同声调的语音数据为合成语音;若相同声调的语音数据中存在至少一对周期的频谱波动特征不一致,确定语音数据为正常语音。
[0118]
本实施例提供的语音判别装置,可以执行上述方法实施例,其实现原理和技术效果类似,在此不再赘述。
[0119]
在一个实施例中,上述语音判别装置还包括:第二获取模块14和处理模块15,其中:
[0120]
第二获取模块14,用于获取通话过程的多个样本语音数据,多个样本语音数据包括不同声调特征的语音数据、不同因素特征的语音数据和不同间隔段落特征的语音数据和不同声音频谱特征的语音数据;
[0121]
可选的,上述原始语音数据是通过声音采集设备采集的。
[0122]
处理模块15,用于根据多个样本语音数据,训练初始神经网络模型,直至满足预设的收敛条件,确定神经网络模型收敛,得到语音判别模型。
[0123]
本实施例提供的语音判别装置,可以执行上述方法实施例,其实现原理和技术效果类似,在此不再赘述。
[0124]
在一个实施例中,上述处理模块包括:第二提取单元、第二确定单元、第三确定单元和第四确定单元,其中:
[0125]
第二提取单元,用于提取各样本语音数据的声调特征、因素特征、间隔段落特征和声音频谱特征;
[0126]
第二确定单元,用于将各样本语音数据的声调特征、因素特征、间隔段落特征和声音频谱特征输入至初始神经网络模型的回归模型中,得到回归模型的输出值;
[0127]
第三确定单元,用于通过初始神经网络模型中的加权层对各样本语音数据进行分析,得到加权层对应的权重特征;
[0128]
第四确定单元,用于根据回归模型的输出值,调整加权层对应的权重特征,直至满足预设的收敛条件,确定神经网络模型收敛,得到语音判别模型。
[0129]
本实施例提供的语音判别装置,可以执行上述方法实施例,其实现原理和技术效果类似,在此不再赘述。
[0130]
上述语音判别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
[0131]
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述方法实施例中的所有内容。
[0132]
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述方法实施例中的所有内容。
[0133]
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述方法实施例中的所有内容。
[0134]
需要说明的是,本技术所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户
授权或者经过各方充分授权的信息和数据。
[0135]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory,rom)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(reram)、磁变存储器(magnetoresistive random access memory,mram)、铁电存储器(ferroelectric random access memory,fram)、相变存储器(phase change memory,pcm)、石墨烯存储器等。易失性存储器可包括随机存取存储器(random access memory,ram)或外部高速缓冲存储器等。作为说明而非局限,ram可以是多种形式,比如静态随机存取存储器(static random access memory,sram)或动态随机存取存储器(dynamic random access memory,dram)等。本技术所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本技术所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
[0136]
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0137]
以上实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本技术专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术的保护范围应以所附权利要求为准。

技术特征:


1.一种语音判别方法,其特征在于,所述方法包括:获取目标通话过程的语音数据;将所述语音数据输入至预设的语音判别模型中,通过所述语音判别模型对所述语音数据的语义特征进行分析,得到所述语音数据的语音类型判别结果;所述语义特征至少包括声调特征、因素特征、间隔段落特征和声音频谱特征;所述语音类型判别结果包括合成语音或者真实语音。2.根据权利要求1所述的方法,其特征在于,所述通过所述语音判别模型对所述语音数据的语义特征进行分析,得到所述语音数据的语音类型判别结果,包括:从所述语音数据中提取所述声调特征、所述因素特征、所述间隔段落特征和所述声音频谱特征;根据所述因素特征和所述间隔段落特征,对所述语音数据进行划分,根据所述声调特征对划分后的语音数据进行分类,得到多个相同声调的语音数据;根据各所述相同声调的语音数据中的频谱波动特征和所述声音频谱特征,确定所述语音数据的语音类型判别结果。3.根据权利要求2所述的方法,其特征在于,所述根据各所述相同声调的语音数据中的频谱波动特征和所述声音频谱特征,确定所述语音数据的语音类型判别结果,包括:针对每个相同声调的语音数据,根据所述相同声调的语音数据的声音频谱特征,将各所述相同声调的语音数据划分为多个周期的语音数据;若所述相同声调的语音数据中每个周期的频谱波动特征一致,确定所述相同声调的语音数据为合成语音;若所述相同声调的语音数据中存在至少一对周期的频谱波动特征不一致,确定所述语音数据为正常语音。4.根据权利要求1-3任一项所述的方法,其特征在于,所述获取目标通话过程的语音数据,包括:获取原始语音数据,对所述原始语音数据进行分帧处理,得到多帧语音数据;将所述多帧语音数据中声波强度大于预设阈值的第一帧作为所述目标通话过程的语音数据的起始语音数据,以及,将所述多帧语音数据中声波强度大于预设阈值的最后一帧作为所述目标通话过程的语音数据的终止语音数据;将所述起始语音数据、所述终止语音数据以及所述起始语音数据与所述终止语音数据之间的语音数据作为所述目标通话过程的语音数据。5.根据权利要求1-3任一项所述的方法,其特征在于,所述构建语音判别模型的过程包括:获取通话过程的多个样本语音数据,所述多个样本语音数据包括不同声调特征的语音数据、不同因素特征的语音数据和不同间隔段落特征的语音数据和不同声音频谱特征的语音数据;根据所述多个样本语音数据,训练初始神经网络模型,直至满足预设的收敛条件,确定所述神经网络模型收敛,得到所述语音判别模型。6.根据权利要求5所述的方法,其特征在于,所述根据所述多个样本语音数据,训练初始神经网络模型,直至满足预设的收敛条件,确定所述神经网络模型收敛,得到所述语音判别模型,包括:
提取各所述样本语音数据的声调特征、因素特征、间隔段落特征和声音频谱特征;将各所述样本语音数据的声调特征、因素特征、间隔段落特征和声音频谱特征输入至所述初始神经网络模型的回归模型中,得到所述回归模型的输出值;通过所述所述初始神经网络模型中的加权层对各所述样本语音数据进行分析,得到所述加权层对应的权重特征;根据所述回归模型的输出值,调整所述加权层对应的权重特征,直至满足预设的收敛条件,确定所述神经网络模型收敛,得到所述语音判别模型。7.根据权利要求1-3任一项所述的方法,其特征在于,所述原始语音数据是通过声音采集设备采集的。8.一种语音判别装置,其特征在于,所述装置包括:获取模块,用于获取目标通话过程的语音数据;分析模块,用于将所述语音数据输入至预设的语音判别模型中,通过所述语音判别模型对所述语音数据的语义特征进行分析,得到所述语音数据的语音类型判别结果;所述语义特征至少包括声调特征、因素特征、间隔段落特征和声音频谱特征;所述语音类型判别结果包括合成语音或者真实语音。9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。11.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。

技术总结


本申请涉及一种语音判别方法、装置、计算机设备、存储介质和程序产品。该方法包括:获取目标通话过程的语音数据;将语音数据输入至预设的语音判别模型中,通过语音判别模型对语音数据的语义特征进行分析,得到语音数据的语音类型判别结果;语义特征至少包括声调特征、因素特征、间隔段落特征和声音频谱特征;语音类型判别结果包括合成语音或者真实语音。采用本方法能够提高合成语音识别准确度。方法能够提高合成语音识别准确度。方法能够提高合成语音识别准确度。


技术研发人员:

崔洋洋 余俊澎

受保护的技术使用者:

游密科技(深圳)有限公司

技术研发日:

2022.03.23

技术公布日:

2022/6/24

本文发布于:2024-09-20 15:21:20,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/4922.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:语音   数据   特征   声调
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议