识别方言种类的方法和设备的制作流程

图片简介:
技术介绍了一种识别方言种类的方法和装置。其中,该方法包括:获取待检测音节序列中每个音节的第一声学特征和第二声学特征;将每个音节的第一声学特征输入到训练好的发音类型模型得到每个音节的发音类型;将发音类型输入到训练好的发音类型组合模型得到第一概率;将每个音节的第二声学特征输入到训练好的声调模型得到第二概率;根据第一概率和第二概率的乘积确定音节序列所属的方言种类。本技术解决了现有技术的方言辨识方法存在的准确率较低且不具有普遍适用性的技术问题。
技术要求
1.一种识别方言种类的方法,其特征在于,包括:
获取待检测音节序列中每个音节的第一声学特征和第二声学特征,其中,所述音节序列为至少一个音节所组成的序列;
将每个音节的第一声学特征输入到训练好的发音类型模型得到每个音节的发音类型,其中,所述发音类型模型是使用发音类型和第一声学特征训练而成的,所述发音类型是在一个音节中不同音节片段的位置所对应的类型;
将所述发音类型输入到训练好的发音类型组合模型得到第一概率,其中,所述发音类型组合模型是使用所述发音类型、发音类型的位置关系和待检测音节序列所属方言类型的概率训练而成的,所述第一概率
是待检测的音节序列所属方言类型出现的概率,所述发音类型的位置关系是每个发音类型在不同音节片段上的位置关系;
将每个音节的第二声学特征输入到训练好的声调模型得到第二概率,其中,所述声调模型是使用第二声学特征和其对应声调所属的方言种类的概率训练而成的,所述第二概率是所述音节序列中的声调所属的方言种类的概率;
根据所述第一概率和所述第二概率的乘积确定所述音节序列所属的方言种类。
2.根据权利要求1所述的方法,其特征在于,根据所述第一概率和所述第二概率的乘积确定所述音节序列所属的方言种类包括:
计算所述第一概率和所述第二概率的乘积得到所述音节序列所属的方言种类的概率,其中,所述方言种类的概率是所述音节序列在属于多个不同的方言种类的概率;
将所述方言种类的概率由高到底进行优先级排序;
将在优先级排序结果中大于等于阈值概率的方言种类作为候选方言种类,其中,所述候选方言种类为至少一个;
对每一个所述候选方言种类重新进行其方言种类的识别过程直至所述候选方言种类为一种。
3.根据权利要求2所述的方法,其特征在于,对每一个所述候选方言种类重新进行方言种类的识别过程直至所述候选方言种类为一种包括:
判断待验证音节序列在候选方言中的显著程度;
选取显著程度高的待验证音节序列进行候选方言种类识别过程,其中,所述待验证音节序列与所述音节序列不同。
4.根据权利要求1所述的方法,其特征在于,所述发音类型模型是使用发音类型和第一声学特征结合高斯混合模型训练而成的,其中,所述第一声学特征为梅尔倒谱特征。
5.根据权利要求1所述的方法,其特征在于,所述发音类型组合模型是使用所述发音类型、发音类型的位置关系和待检测音节序列所属方言类型的概率通过三层神经网络学习训练而成的。
6.根据权利要求1所述的方法,其特征在于,所述声调模型是使用第二声学特征和其对应声调所属的方言种类的概率结合高斯混合模型训练而成的,其中,所述第二声学特征是基频轮廓特征、时长特征和能量特征。
7.根据权利要求1所述的方法,其特征在于,所述音节片段是将每个音节根据声母、韵母划分成的三个音节片段;所述第一音节片段位置对应的发音类型是塞音、擦音、塞擦音、鼻音和边音;所述第二音节片
段位置对应的发音类型是开口呼、齐齿呼、合口呼和撮口呼;所述第三音节片段位置对应的发音类型是塞音、擦音和鼻音。
8.一种识别方言种类的装置,其特征在于,包括:
获取模块,用于获取待检测音节序列中每个音节的第一声学特征和第二声学特征,其中,所述音节序列为至少一个音节所组成的序列;
第一识别模块,用于将每个音节的第一声学特征输入到训练好的发音类型模型得到每个音节的发音类型,其中,所述发音类型模型是使用发音类型和第一声学特征训练而成的,所述发音类型是在一个音节中不同音节片段的位置所对应的类型;
第二识别模块,用于将所述发音类型输入到训练好的发音类型组合模型得到第一概率,其中,所述发音类型组合模型是使用所述发音类型、发音类型的位置关系和待检测音节序列所属方言类型的概率训练而成的,所述第一概率是待检测的音节序列所属方言类型出现的概率,所述发音类型的位置关系是每个发音类型在不同音节片段上的位置关系;
第三识别模块,用于将每个音节的第二声学特征输入到训练好的声调模型得到第二概率,其中,所述声调模型是使用第二声学特征和其对应声调所属的方言种类的概率训练而成的,所述第二概率是所述音节序列中的声调所属的方言种类的概率;
判断模块,用于根据所述第一概率和所述第二概率的乘积确定所述音节序列所属的方言种类。
9.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序执行权利要求1至8中任意一项所述的方法。
10.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至8中任意一项所述的方法。
技术说明书
识别方言种类的方法和装置
技术领域
本技术涉及语音信号处理领域,具体而言,涉及一种识别方言种类的方法和装置。
背景技术
语音是人类实现信息交互最直接、最便捷和最自然的方式之一。多年来研究者一直致力于让计算机甚至机器人像自然人一样利用语音实现交互。虽然语音合成、语音识别和自然语言处理等领域都有了长足的
发展和广泛的应用,但是基于多种汉语方言的语言交互研究显得非常稀少。其中,汉语方言辨识研究将作为众多智能语音技术重要组成部分,能够为下一步的信息处理提供保障和提高效率。
现有的汉语方言辨识研究仍处于初级阶段,多数研究是将汉语方言辨识看作是语言辨识的一种特殊情况,仅仅简单的在已有语言辨识方法的基础上,将研究对象替换为汉语方言,所以辨识的准确率较低。另外,现有汉语方言众多,方言内部又有很多分区,而现有技术中的汉语方言辨识方法都是针对一种方言开发一种辨识方法,没有一种作为一个系统的具有普适性的辨识方法。
除此之外,现有技术中虽然有针对声母韵母的研究,但都是基于声母韵母的表层信息的划分利用,已有汉语方言辨识方法中语料数据也往往很单一,对高层语言学信息的利用也极少,导致方言辨识准确率较低且不具有普遍适用性。
针对上述现有技术的方言辨识方法存在的准确率较低且不具有普遍适用性的问题,目前尚未提出有效的解决方案。
技术内容
本技术实施例提供了一种识别方言种类的方法和装置,以至少解决现有技术的方言辨识方法存在的准确率较低且不具有普遍适用性的技术问题。
根据本技术实施例的一个方面,提供了一种识别方言种类的方法包括:获取待检测音节序列中每个音节的第一声学特征和第二声学特征,其中,所述音节序列为至少一个音节所组成的序列;将每个音节的第一声学特征输入到训练好的发音类型模型得到每个音节的发音类型,其中,所述发音类型模型是使用发音类型和第一声学特征训练而成的,所述发音类型是在一个音节中不同音节片段的位置所对应的类型;将所述发音类型输入到训练好的发音类型组合模型得到第一概率,其中,所述发音类型组合模型是使用所述发音类型、发音类型的位置关系和待检测音节序列所属方言类型的概率训练而成的,所述第一概率是待检测的音节序列所属方言类型出现的概率,所述发音类型的位置关系是每个发音类型在不同音节片段上的位置关系;将每个音节的第二声学特征输入到训练好的声调模型得到第二概率,其中,所述声调模型是使用第二声学特征和其对应声调所属的方言种类的概率训练而成的,所述第二概率是所述音节序列中的声调所属的方言种类的概率;根据所述第一概率和所述第二概率的乘积确定所述音节序列所属的方言种类。
进一步地,根据所述第一概率和所述第二概率的乘积确定所述音节序列所属的方言种类包括:计算所述第一概率和所述第二概率的乘积得到所述音节序列所属的方言种类的概率,其中,所述方言种类的概率是所述音节序列在属于多个不同的方言种类的概率;将所述方言种类的概率由高到底进行优先级排序;将在优先级排序结果中大于等于阈值概率的方言种类作为候选方言种类,其中,所述候选方言种类为至少一个;对每一个所述候选方言种类重新进行其方言种类的识别过程直至所述候选方言种类为一种。
进一步地,对每一个所述候选方言种类重新进行方言种类的识别过程直至所述候选方言种类为一种包括:判断待验证音节序列在候选方言中的显著程度;选取显著程度高的待验证音节序列进行候选方言种类识别过程,其中,所述待验证音节序列与所述音节序列不同。
进一步地,所述发音类型模型是使用发音类型和第一声学特征结合高斯混合模型训练而成的,其中,所述第一声学特征为梅尔倒谱特征。
进一步地,所述发音类型组合模型是使用所述发音类型、发音类型的位置关系和待检测音节序列所属方言类型的概率通过三层神经网络学习训练而成的。
进一步地,所述声调模型是使用第二声学特征和其对应声调所属的方言种类的概率结合高斯混合模型训练而成的,其中,所述第二声学特征是基频轮廓特征、时长特征和能量特征。
进一步地,所述音节片段是将每个音节根据声母、韵母划分成的三个音节片段;所述第一音节片段位置对应的发音类型是塞音、擦音、塞擦音、鼻音和边音;所述第二音节片段位置对应的发音类型是开口呼、齐齿呼、合口呼和撮口呼;所述第三音节片段位置对应的发音类型是塞音、擦音和鼻音。
根据本技术实施例的另一方面,还提供了一种识别方言种类的装置包括:获取模块,用于获取待检测音节序列中每个音节的第一声学特征和第二声学特征,其中,所述音节序列为至少一个音节所组成的序列;
第一识别模块,用于将每个音节的第一声学特征输入到训练好的发音类型模型得到每个音节的发音类型,其中,所述发音类型模型是使用发音类型和第一声学特征训练而成的,所述发音类型是在一个音节中不同音节片段的位置所对应的类型;第二识别模块,用于将所述发音类型输入到训练好的发音类型组合模型得到第一概率,其中,所述发音类型组合模型是使用所述发音类型、发音类型的位置关系和待检测音节序列所属方言类型的概率训练而成的,所述第一概率是待检测的音节序列所属方言类型出现的概率,所述发音类型的位置关系是每个发音类型在不同音节片段上的位置关系;第三识别模块,用于将每个音节的第二声学特征输入到训练好的声调模型得到第二概率,其中,所述声调模型是使用第二声学特征和其对应声调所属的方言种类的概率训练而成的,所述第二概率是所述音节序列中的声调所属的方言种类的概率;判断模块,用于根据所述第一概率和所述第二概率的乘积确定所述音节序列所属的方言种类。
根据本技术实施例的另一方面,还提供了一种存储介质,所述存储介质包括存储的程序,其中,所述程序执行上述的方法。
根据本技术实施例的另一方面,还提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述的方法。
在本技术实施例中,采用获取待检测音节序列中每个音节的第一声学特征和第二声学特征;将每个音节
的第一声学特征输入到训练好的发音类型模型得到每个音节的发音类型;将发音类型输入到训练好的发音类型组合模型得到第一概率;将每个音节的第二声学特征输入到训练好的声调模型得到第二概率;根据第一概率和第二概率的乘积确定音节序列所属的方言种类的方式,解决了现有技术的方言辨识方法存在的准确率较低且不具有普遍适用性的技术问题,使得方言种类识别更加高效准确具有普适性。
附图说明
此处所说明的附图用来提供对本技术的进一步理解,构成本申请的一部分,本技术的示意性实施例及其说明用于解释本技术,并不构成对本技术的不当限定。在附图中:
图1是根据本技术实施例的一种识别方言种类的方法和装置的流程图;
图2是根据本技术实施例的一种可选的汉字音节组成原理的示意图;
图3是根据本技术实施例的一种中国语言资源保护工程多媒体语料整理的示意图;
图4是根据本技术实施例的一种汉字音节发音类型与帧序列的对应的示意图;
图5是根据本技术实施例的一种方言辨识过程的示意图;
图6是根据本技术实施例的一种识别方言种类的装置示意图。
具体实施方式
为了使本技术领域的人员更好地理解本技术方案,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分的实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本技术保护的范围。
需要说明的是,本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本技术实施例,提供了一种识别方言种类的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本技术实施例的一种识别方言种类的方法,如图1所示,该方法包括如下步骤:
步骤S102,获取待检测音节序列中每个音节的第一声学特征和第二声学特征,其中,音节序列为至少一个音节所组成的序列;
步骤S104,将每个音节的第一声学特征输入到训练好的发音类型模型得到每个音节的发音类型,其中,发音类型模型是使用发音类型和第一声学特征训练而成的,发音类型是在一个音节中不同音节片段的位置所对应的类型;
步骤S106,将发音类型输入到训练好的发音类型组合模型得到第一概率,其中,发音类型组合模型是使用发音类型、发音类型的位置关系和待检测音节序列所属方言类型的概率训练而成的,第一概率是待检测的音节序列所属方言类型出现的概率,发音类型的位置关系是每个发音类型在不同音节片段上的位置关系;
步骤S108,将每个音节的第二声学特征输入到训练好的声调模型得到第二概率,其中,声调模型是使用第二声学特征和其对应声调所属的方言种类的概率训练而成的,第二概率是音节序列中的声调所属的方言种类的概率;
步骤S110,根据第一概率和第二概率的乘积确定音节序列所属的方言种类。

本文发布于:2024-09-22 01:08:22,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/450038.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:方言   音节   技术
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议