基于基频语速同步约束的儿童语音数据的增广方法与流程



1.本发明涉及儿童语音数据增广技术领域,具体提供一种基于基频语速同步约束的儿童语音数据的增广方法、设备、介质、语音识别装置及汽车。


背景技术:



2.近年来,随着深度学习及人工智能的发展,语音识别技术不断被应用到各个不同的领域及人中,例如车载智能设备可以通过安装人工智能(artificial intelligence,ai)语音助手,来实现线路导航、音乐搜索以及等功能。ai语音助手主要是基于语音识别技术采集目标对象的语音数据,并对语音数据进行识别,以确定语音数据对应的文本内容,从而基于获得的文本内容实现具体的应用功能。
3.为了更好地服务客户,ai语音助手不仅需要识别成人语音,还需要识别儿童语音。目前ai语音助手对成人语音识别的准确率很高,然而由于儿童语音与成人语音相比有其特殊性,一方面儿童在发育的过程中声带长度变化较大,故儿童的语音基频范围和成人有较大差异;另一方面儿童在不同的年龄阶段由于语言的掌握水平不一致,故不同年龄段的儿童在发音过程中语速变化较大,导致ai语音助手对儿童语音识别的准确率和对成人语音识别的准确率有较大的差距。
4.为了提高ai语音助手对儿童语音识别的准确率,当前获取儿童语音进行识别的训练数据变得非常重要,目前针对儿童语音进行识别有单独使用儿童语音数据训练、成人语音和儿童语音数据混合训练和合成儿童语音数据训练等方式,这些方式依然存在标注成本较大、风格单一、无法满足多元的儿童识别场景等缺陷。
5.相应地,本领域需要一种增广儿童语音数据的方案来解决上述问题。


技术实现要素:



6.为了解决现有技术中的上述问题,即为了解决当前获取儿童语音存在标注成本较大、风格单一、无法满足多元的儿童识别场景等缺陷的问题,本发明提供了一种基于基频语速同步约束的儿童语音数据的增广方法、设备、介质、语音识别装置及汽车。
7.在第一方面,本发明提供一种基于基频语速同步约束的儿童语音数据的增广方法,该方法包括:
8.分别获取不同类别的儿童样本语音的基频语速同步约束参数;
9.分别根据所述不同类别的儿童样本语音的基频语速同步约束参数获得不同类别的拟儿童语音转化器的表达式;
10.将成人语音分别输入到不同类别的拟儿童语音转化器的表达式,获得对应的不同类别的儿童语音。
11.在上述基于基频语速同步约束的儿童语音数据的增广方法的一个技术方案中,所述分别获取不同类别下的儿童样本语音的基频语速同步约束参数,包括:
12.获取小龄儿童的基频语速同步约束参数α、中龄儿童的基频语速同步约束参数β和
大龄儿童的基频语速同步约束参数γ。
13.在上述基于基频语速同步约束的儿童语音数据的增广方法的一个技术方案中,所述获取小龄儿童的基频语速同步约束参数α、中龄儿童的基频语速同步约束参数β和大龄儿童的基频语速同步约束参数γ,包括:
14.获取已标注文本的小龄儿童样本语音、中龄儿童样本语音和大龄儿童样本语音;
15.将已标注文本及对应的小龄儿童样本语音输入到基频语速同步约束函数f(x,λ)=ρ(s(x,λ),λ),获得小龄儿童的基频语速同步约束参数λ=α;
16.将已标注文本及对应的中龄儿童样本语音输入到基频语速同步约束函数f(x,λ)=ρ(s(x,λ),λ),获得中龄儿童的基频语速同步约束参数λ=β;
17.将已标注文本及对应的大龄儿童样本语音输入到基频语速同步约束函数f(x,λ)=ρ(s(x,λ),λ),获得大龄儿童的基频语速同步约束参数λ=γ;
18.其中,s(x,λ)表示语速变换器,用于根据参数λ对输入的x进行语速变换;ρ(x',λ)表示基频变换器,x’为s(x,λ),用于根据参数λ对输入的x’进行基频变换。
19.在上述基于基频语速同步约束的儿童语音数据的增广方法的一个技术方案中,所述已标注文本的小龄儿童样本语音、中龄儿童样本语音和大龄儿童样本语音的数量相同,所述小龄儿童的基频语速同步约束参数α取平均值得到,所述中龄儿童的基频语速同步约束参数β取平均值得到,所述大龄儿童的基频语速同步约束参数γ取平均值得到。
20.在上述基于基频语速同步约束的儿童语音数据的增广方法的一个技术方案中,分别根据所述不同类别下的儿童样本语音的基频语速同步约束参数获得不同类别的拟儿童语音转化器的表达式,包括:
21.根据所述α获得拟小龄儿童语音转化器g(x)的表达式:g(x)=f(x,α)=ρ(s(x,α),α),其中,输入成人语音x,输出小龄儿童语音;
22.根据所述β获得拟中龄儿童语音转化器g’(x)的表达式:g'(x)=f(x,β)=ρ(s(x,β),β),其中,输入成人语音x,输出中龄儿童语音;
23.根据所述γ获得拟大龄儿童语音转化器g”(x)的表达式:g”(x)=f(x,γ)=ρ(s(x,γ),γ),其中,输入成人语音x,输出大龄儿童语音。
24.在上述基于基频语速同步约束的儿童语音数据的增广方法的一个技术方案中,每次利用成人语音得到的儿童语音数量是成人语音数量的三倍,增广后的儿童语音数量为成人语音数量的三倍加上已标注文本的儿童样本语音的数量。
25.在第二方面,本发明提供一种电子设备,该电子设备包括处理器和存储装置,所述存储装置适于存储多条程序代码,所述程序代码适于由所述处理器加载并运行以执行上述基于基频语速同步约束的儿童语音数据的增广方法的技术方案中任一项技术方案所述的方法。
26.在第三方面,本发明提供一种存储介质,该存储介质其中存储有多条程序代码,所述程序代码适于由处理器加载并运行以执行上述基于基频语速同步约束的儿童语音数据的增广方法的技术方案中任一项技术方案所述的方法。
27.在第四方面,本发明提供一种车载语音识别装置,该车载语音识别装置包括:
28.根据本发明第二方面所述的电子设备;以及
29.输入输出模块。
30.在第五方面,本发明提供一种汽车,该汽车包括:
31.根据本发明第四方面所述的车载语音识别装置。
32.本发明上述一个或多个技术方案,至少具有如下一种或多种有益效果:
33.在实施本发明的技术方案中,提出一种基于基频语速同步约束的儿童语音数据的增广方法,该方法通过获取不同年龄段的儿童的基频语速同步约束参数,并根据基频语速同步约束参数获得不同年龄段的儿童语音转化器,根据不同年龄段的儿童语音转化器将成人语音转换为不同年龄段的儿童语音,该方法可以实现对成人语音数据进行变换得到接近儿童语音的增广数据,从而改善由于儿童数据缺乏导致儿童语音识别识别准确率差的问题。
附图说明
34.参照附图,本发明的公开内容将变得更易理解。本领域技术人员容易理解的是:这些附图仅仅用于说明的目的,而并非意在对本发明的保护范围组成限制。此外,图中类似的数字用以表示类似的部件,其中:
35.图1是根据本发明的一个实施例的基于基频语速同步约束的儿童语音数据的增广方法的主要步骤流程示意图;
36.图2是本发明的一个实施例的步骤s11的主要步骤流程示意图;
37.图3是本发明的一个实施例的步骤s110的主要步骤流程示意图;
38.图4是本发明的一个实施例的步骤s12的主要步骤流程示意图;
39.图5是根据本发明的一个实施例的电子设备的结构示意图。
具体实施方式
40.下面参照附图来描述本发明的一些实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
41.在本发明的描述中,“模块”、“处理器”可以包括硬件、软件或者两者的组合。一个模块可以包括硬件电路,各种合适的感应器,通信端口,存储器,也可以包括软件部分,比如程序代码,也可以是软件和硬件的组合。处理器可以是中央处理器、微处理器、图像处理器、数字信号处理器或者其他任何合适的处理器。处理器具有数据和/或信号处理功能。处理器可以以软件方式实现、硬件方式实现或者二者结合方式实现。非暂时性的计算机可读存储介质包括任何合适的可存储程序代码的介质,比如磁碟、硬盘、光碟、闪存、只读存储器、随机存取存储器等等。术语“a和/或b”表示所有可能的a与b的组合,比如只是a、只是b或者a和b。术语“至少一个a或b”或者“a和b中的至少一个”含义与“a和/或b”类似,可以包括只是a、只是b或者a和b。单数形式的术语“一个”、“这个”也可以包含复数形式。
42.车辆配置的ai语音助手基于语音识别技术采集目标对象的语音数据,并对语音数据进行识别,以确定语音数据对应的文本内容,从而基于获得的文本内容实现具体的应用功能。ai语音助手可以实现呼叫电话、控制音量、调节空调、查询路线、开关车窗、播放音乐等功能,他不需要通过操作按键来完成,这样可以释放双手,增加行车的安全。为了实现更好地服务,ai语音助手不仅需要识别成人语音,还需要识别儿童语音。比如坐在车辆后座的儿童发出“请播放歌曲”的语音,ai语音助手需要识别到该儿童语音对应的文本内容,并开
始播放歌曲。
43.为了能准确的识别到儿童语音对应的文本内容,需要获取大量的儿童语音训练数据,目前对于儿童语音的训练数据的获取方法有以下三种方式,一、单独使用儿童语音数据训练,但该方式由于儿童的声带发育不成熟而且语言认知水平也参差不齐,因此在发音过程中,往往伴随发音不清晰,发音不流利等特殊现象,导致儿童语音的标注成本很大;二、成人语音数据和儿童语音数据混合训练,但该方式中,由于成人和儿童的发音在生理特征上存在很大的差异,如果加入太多的成人数据可能会发挥适得其反的作用,而且需要对加入的成人数据进行多个环节的人工筛选,增加筛选时间成本和人本成本;三、合成儿童语音数据,但该方式中合成语音的质量无法保证真实的语音效果,另外合成的风格比较单一,无法满足多元的儿童识别场景。所以上述三种方式均有一定的局限性。
44.基于背景技术中存在的技术问题,本发明提出一种基于基频语速同步约束的儿童语音数据的增广方法,该方法通过获取不同年龄段的儿童的基频语速同步约束参数,并根据基频语速同步约束参数获得不同年龄段的儿童语音转化器,根据不同年龄段的儿童语音转化器将成人语音转换为不同年龄段的儿童语音,该方法可以实现对成人语音数据进行变换得到接近儿童语音的增广数据,从而改善由于儿童数据缺乏导致儿童语音识别识别准确率差的问题。
45.参阅附图1-4,图1是根据本发明的一个实施例的基频语速同步约束的儿童语音数据的增广方法的主要步骤流程示意图。如图1所示,本发明实施例中的基于基频语速同步约束的儿童语音数据的增广方法,主要包括下列步骤s11-步骤s13。
46.步骤s11:分别获取不同类别的儿童样本语音的基频语速同步约束参数;
47.步骤s12:分别根据所述不同类别的儿童样本语音的基频语速同步约束参数获得不同类别的拟儿童语音转化器的表达式;
48.步骤s13:将成人语音分别输入到不同类别的拟儿童语音转化器的表达式,获得对应的不同类别的儿童语音。
49.一个实施方式中,不同类别包括将儿童按年龄段划分为小龄儿童、中龄儿童以及大龄儿童;还包括将儿童按男生或者女生来划分为男儿童和女儿童。本领域技术人员可以理解的是,本发明对不同类别的具体类别不作限定,只要跟儿童相关的方面,都可以作为本发明限定的类别。
50.接下来,以不同类别按年龄段划分为例进行说明。
51.儿童语音与成人语音相比,在基频方面,儿童语音的基频范围大于成人语音的基频范围,且随着年龄的增长不断减小逐步趋于成人语音的基频范围;在语速方面,儿童随着语言水平的提高从慢速逐步趋于正常水平。因此低龄阶段的儿童语音语速偏慢,基频较高,随着年龄段增加语速加快,基频逐渐变低,因此本实施例针对不同年龄段的儿童,获取不同的基频语速同步约束参数。
52.一个实施方式中,图2是本发明的一个实施例的步骤s11的主要步骤流程示意图,如图2所示,所述步骤s11包括:
53.步骤s110:获取小龄儿童的基频语速同步约束参数α、中龄儿童的基频语速同步约束参数β和大龄儿童的基频语速同步约束参数γ。
54.一个实施方式中,图3是本发明的一个实施例的步骤s110的主要步骤流程示意图,
如图3所示,所述步骤s110包括:
55.步骤s1110、获取已标注文本的小龄儿童样本语音、中龄儿童样本语音和大龄儿童样本语音;
56.步骤s1111、将已标注文本及对应的小龄儿童样本语音输入到基频语速同步约束函数f(x,λ)=ρ(s(x,λ),λ),获得小龄儿童的基频语速同步约束参数λ=α;
57.步骤s1112、将已标注文本及对应的中龄儿童样本语音输入到基频语速同步约束函数f(x,λ)=ρ(s(x,λ),λ),获得中龄儿童的基频语速同步约束参数λ=β;
58.步骤s1113、将已标注文本及对应的大龄儿童样本语音输入到基频语速同步约束函数f(x,λ)=ρ(s(x,λ),λ),获得大龄儿童的基频语速同步约束参数λ=γ;
59.其中,s(x,λ)表示语速变换器,用于根据参数λ对输入的x进行语速变换;ρ(x',λ)表示基频变换器,x’为s(x,λ),用于根据参数λ对输入的x’进行基频变换。
60.一个实施方式中,将年龄范围在1-6岁划分为小龄儿童,将年龄范围在7-12岁划分为中龄儿童,将年龄范围在13-18岁划分为大龄儿童。
61.需要说明的是,上述小龄儿童、中龄儿童和大龄儿童的年龄范围只是示例,本发明对小龄儿童、中龄儿童和大龄儿童的年龄范围的具体划分不作限定。
62.一个实施方式中,为了使得标注文本的小龄儿童样本语音数据、中龄儿童样本语音数据与大龄儿童样本语音数据更均衡,分别获取等数量的已标注文本的小龄儿童样本语音q个、中龄儿童样本语音q个和大龄儿童样本语音q个,标注文本的小龄儿童样本语音、中龄儿童样本语音与大龄儿童样本语音数据的总和为q个。
63.使用q个小龄儿童样本语音作为基频语速同步约束函数f(x,λ)=ρ(s(x,λ),λ)的输入,对应的小龄儿童样本语音的标注文本作为基频语速同步约束函数f(x,λ)=ρ(s(x,λ),λ)的输出,获得小龄儿童的基频语速同步约束参数λ=α;使用q个中龄儿童样本语音作为基频语速同步约束函数f(x,λ)=ρ(s(x,λ),λ)的输入,对应的中龄儿童样本语音的标注文本作为基频语速同步约束函数f(x,λ)=ρ(s(x,λ),λ)的输出,获得中龄儿童的基频语速同步约束参数λ=β;使用q个大龄儿童样本语音作为基频语速同步约束函数f(x,λ)=ρ(s(x,λ),λ)的输入,对应的大龄儿童样本语音的标注文本作为基频语速同步约束函数f(x,λ)=ρ(s(x,λ),λ)的输出,获得大龄儿童的基频语速同步约束参数λ=γ;其中,s(x,λ)表示语速变换器,用于根据参数λ对输入的x进行语速变换;ρ(x',λ)表示基频变换器,x’为s(x,λ),用于根据参数λ对输入的x’进行基频变换。
64.一个实施方式中,所述已标注文本的小龄儿童样本语音、中龄儿童样本语音和大龄儿童样本语音的数量相同,所述小龄儿童的基频语速同步约束参数α取平均值得到,所述中龄儿童的基频语速同步约束参数β取平均值得到,所述大龄儿童的基频语速同步约束参数γ取平均值得到。
65.接续上述实施方式,每向基频语速同步约束函数f(x,λ)=ρ(s(x,λ),λ)输入一个小龄儿童样本语音,输出对应的标注文本时,获得一个小龄儿童的基频语速同步约束参数
α,将小龄儿童样本语音数据集中包括的q个小龄儿童语音与对应的标注文本分别输入到f(x,λ)=ρ(s(x,λ),λ)中,获得q个小龄儿童的基频语速同步约束参数α,取平均值后作为本实施例中的小龄儿童的基频语速同步约束参数α,同理,中龄儿童的基频语速同步约束参数β也是取平均值得到,所述大龄儿童的基频语速同步约束参数γ也是取平均值得到。
66.步骤s12:根据所述α获得拟小龄儿童语音转化器的表达式g(x),根据所述β获得拟中龄儿童语音转化器的表达式g’(x),根据所述γ获得拟大龄儿童语音转化器的表达式g”(x)。
67.一个实施方式中,图4是本发明的一个实施例的步骤s12的主要步骤流程示意图,如图4所示,所述步骤s12包括:
68.步骤s120:根据所述α获得拟小龄儿童语音转化器g(x)的表达式:g(x)=f(x,α)=ρ(s(x,α),α),其中,输入成人语音x,输出小龄儿童语音;
69.步骤s121:根据所述β获得拟中龄儿童语音转化器g’(x)的表达式:g'(x)=f(x,β)=ρ(s(x,β),β),其中,输入成人语音x,输出中龄儿童语音;
70.步骤s122:根据所述γ获得拟大龄儿童语音转化器g”(x)的表达式:g”(x)=f(x,γ)=ρ(s(x,γ),γ),其中,输入成人语音x,输出大龄儿童语音。
71.一个实施方式中,所述步骤s13包括:将成人语音分别输入到拟小龄儿童语音转化器g(x)、拟中龄儿童语音转化器g’(x)和拟大龄儿童语音转化器g”(x)中,获得对应的小龄儿童语音数据、中龄儿童语音数据和大龄儿童语音数据。
72.一个实施例中,例如将成人语音“请打开空调”分别输入到拟小龄儿童语音转化器g(x)、拟中龄儿童语音转化器g’(x)和拟大龄儿童语音转化器g”(x)中,分别会得到1-3岁儿童语音对应的基频语速的“请打开空调”、4-8岁儿童语音对应的基频语速的“请打开空调”与9-12岁儿童语音对应的基频语速的“请打开空调”。
73.一个实施方式中,每次利用成人语音得到的儿童语音数量是成人语音数量的三倍,增广后的儿童语音数量为成人语音数量的三倍加上已标注文本的儿童样本语音的数量。
74.一个实施方式中,将x个成人语音分别输入到拟小龄儿童语音转化器g(x)、拟中龄儿童语音转化器g’(x)和拟大龄儿童语音转化器g”(x)中,会得到3x个不同年龄段的儿童语音,此时,儿童语音数据由上述q个标注文本的数据扩充到3x+q个。
75.基于上述步骤s11-步骤s13,本发明提出一种基于基频语速同步约束的儿童语音数据的增广方法,该方法通过获取不同年龄段的儿童的基频语速同步约束参数,并根据基频语速同步约束参数获得不同年龄段的儿童语音转化器,根据不同年龄段的儿童语音转化器将成人语音转换为不同年龄段的儿童语音,该方法可以实现对成人语音数据进行变换得到接近儿童语音的增广数据,从而改善由于儿童数据缺乏导致儿童语音识别识别准确率差的问题。
76.需要指出的是,尽管上述实施例中将各个步骤按照特定的先后顺序进行了描述,但是本领域技术人员可以理解,为了实现本发明的效果,不同的步骤之间并非必须按照这样的顺序执行,其可以同时(并行)执行或以其他顺序执行,这些变化都在本发明的保护范
围之内。
77.本领域技术人员能够理解的是,本发明实现上述一实施例的方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读存储介质可以包括:能够携带所述计算机程序代码的任何实体或装置、介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器、随机存取存储器、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读存储介质不包括电载波信号和电信信号。
78.进一步,如图5所示,本发明还提供了一种电子设备。在根据本发明的一个电子设备实施例中,电子设备包括处理器和存储装置,存储装置可以被配置成存储执行上述方法实施例的基于基频语速同步约束的儿童语音数据的增广方法的程序,处理器可以被配置成用于执行存储装置中的程序,该程序包括但不限于执行上述方法实施例的基于基频语速同步约束的儿童语音数据的增广方法的程序。为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照本发明实施例方法部分。
79.进一步,本发明还提供了一种存储介质。在根据本发明的一个存储介质实施例中,存储介质可以被配置成存储执行上述方法实施例的基于基频语速同步约束的儿童语音数据的增广方法的程序,该程序可以由处理器加载并运行以实现上述基于基频语速同步约束的儿童语音数据的增广方法。为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照本发明实施例方法部分。本发明实施例中存储介质可以是非暂时性的存储介质。
80.进一步,应该理解的是,由于各个模块的设定仅仅是为了说明本发明的装置的功能单元,这些模块对应的物理器件可以是处理器本身,或者处理器中软件的一部分,硬件的一部分,或者软件和硬件结合的一部分。因此,图中的各个模块的数量仅仅是示意性的。
81.本领域技术人员能够理解的是,可以对装置中的各个模块进行适应性地拆分或合并。对具体模块的这种拆分或合并并不会导致技术方案偏离本发明的原理,因此,拆分或合并之后的技术方案都将落入本发明的保护范围内。
82.进一步,本发明还提供了一种车载语音识别装置,包括:
83.根据本发明实施例所述的电子设备;以及
84.输入输出模块。
85.进一步,本发明还提供了一种汽车,所述汽车包括:
86.根据本发明实施例所述的车载语音识别装置。
87.至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

技术特征:


1.一种基于基频语速同步约束的儿童语音数据的增广方法,其特征在于,包括:分别获取不同类别的儿童样本语音的基频语速同步约束参数;分别根据所述不同类别的儿童样本语音的基频语速同步约束参数获得不同类别的拟儿童语音转化器的表达式;将成人语音分别输入到不同类别的拟儿童语音转化器的表达式,获得对应的不同类别的儿童语音。2.根据权利要求1所述的基于基频语速同步约束的儿童语音数据的增广方法,其特征在于,所述分别获取不同类别下的儿童样本语音的基频语速同步约束参数,包括:获取小龄儿童的基频语速同步约束参数α、中龄儿童的基频语速同步约束参数β和大龄儿童的基频语速同步约束参数γ。3.根据权利要求2所述的基于基频语速同步约束的儿童语音数据的增广方法,其特征在于,所述获取小龄儿童的基频语速同步约束参数α、中龄儿童的基频语速同步约束参数β和大龄儿童的基频语速同步约束参数γ,包括:获取已标注文本的小龄儿童样本语音、中龄儿童样本语音和大龄儿童样本语音;将已标注文本及对应的小龄儿童样本语音输入到基频语速同步约束函数f(x,λ)=ρ(s(x,λ),λ),获得小龄儿童的基频语速同步约束参数λ=α;将已标注文本及对应的中龄儿童样本语音输入到基频语速同步约束函数f(x,λ)=ρ(s(x,λ),λ),获得中龄儿童的基频语速同步约束参数λ=β;将已标注文本及对应的大龄儿童样本语音输入到基频语速同步约束函数f(x,λ)=ρ(s(x,λ),λ),获得大龄儿童的基频语速同步约束参数λ=γ;其中,s(x,λ)表示语速变换器,用于根据参数λ对输入的x进行语速变换;ρ(x',λ)表示基频变换器,x’为s(x,λ),用于根据参数λ对输入的x’进行基频变换。4.根据权利要求3所述基于基频语速同步约束的儿童语音数据的增广方法,其特征在于,所述已标注文本的小龄儿童样本语音、中龄儿童样本语音和大龄儿童样本语音的数量相同,所述小龄儿童的基频语速同步约束参数α取平均值得到,所述中龄儿童的基频语速同步约束参数β取平均值得到,所述大龄儿童的基频语速同步约束参数γ取平均值得到。5.根据权利要求4所述的基于基频语速同步约束的儿童语音数据的增广方法,其特征在于,分别根据所述不同类别下的儿童样本语音的基频语速同步约束参数获得不同类别的拟儿童语音转化器的表达式,包括:根据所述α获得拟小龄儿童语音转化器g(x)的表达式:g(x)=f(x,α)=ρ(s(x,α),α),其中,输入成人语音x,输出小龄儿童语音;根据所述β获得拟中龄儿童语音转化器g’(x)的表达式:g'(x)=f(x,β)=ρ(s(x,β),β),其中,输入成人语音x,输出中龄儿童语音;根据所述γ获得拟大龄儿童语音转化器g”(x)的表达式:g”(x)=f(x,γ)=ρ(s(x,γ),γ),其中,输入成人语音x,输出大龄儿童语音。6.根据权利要求5所述的基于基频语速同步约束的儿童语音数据的增广方法,其特征在于,每次利用成人语音得到的儿童语音数量是成人语音数量的三倍,增广后的儿童语音数量为成人语音数量的三倍加上已标注文本的儿童样本语音的数量。7.一种电子设备,包括处理器和存储装置,所述存储装置适于存储多条程序代码,其特
征在于,所述程序代码适于由所述处理器加载并运行以执行权利要求1至6中任一项所述的方法。8.一种存储介质,其中存储有多条程序代码,其特征在于,所述程序代码适于由处理器加载并运行以执行权利要求1至6中任一项所述的方法。9.一种车载语音识别装置,其特征在于,包括:根据权利要求7所述的电子设备;以及输入输出模块。10.一种汽车,其特征在于,所述汽车包括:根据权利要求9所述的车载语音识别装置。

技术总结


本发明涉及儿童语音数据增广技术领域,具体提供一种基于基频语速同步约束的儿童语音数据的增广方法,旨在解决当前获取儿童语音存在语料缺少、识别准确率差与标注成本大等问题。为此目的,本发明的基于基频语速同步约束的儿童语音数据的增广方法,包括:分别获取不同类别的儿童样本语音的基频语速同步约束参数;分别根据不同类别的儿童样本语音的基频语速同步约束参数获得不同类别的拟儿童语音转化器的表达式;将成人语音分别输入到不同类别的拟儿童语音转化器的表达式,获得对应的不同类别的儿童语音。本发明可实现对成人语音数据进行变换得到接近儿童语音的增广数据,从而改善由于儿童数据缺乏导致儿童语音识别识别准确率差的问题。确率差的问题。确率差的问题。


技术研发人员:

徐高鹏

受保护的技术使用者:

蔚来汽车科技(安徽)有限公司

技术研发日:

2022.07.08

技术公布日:

2022/10/18

本文发布于:2024-09-21 11:12:15,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/24743.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:基频   儿童   语音   语速
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议