首页 > 专利信息

一种通过语音或文字自动生成虚拟人物的口型的方法[发明专利]

(19)中华人民共和国国家知识产权局

(12)发明专利申请

(10)申请公布号 (43)申请公布日 (21)申请号 202010763083.5

(22)申请日 2020.07.31

(71)申请人石亚东

地址 405200 重庆市梁平区香漫林小区

(72)发明人石亚东　

(51)Int.Cl.

G10L 15/26(2006.01)

G10L 15/25(2013.01)

G10L 15/06(2013.01)

G10L 15/02(2006.01)

G10L 13/04(2013.01)

G10L 13/02(2013.01)

(54)发明名称

一种通过语音或文字自动生成虚拟人物的

口型的方法

(57)摘要

本发明公开了一种通过语音或文字自动生

成虚拟人物的口型的方法，其特征在于：包括一

语音数据库的设立，一语音识别技术单元，一口

型动作单元，一获取语音数据单元，获取语音数

据具有语音生成单元，语音生成单元由用户说话

时，用户的语音传入录音设备，从而实时生成当

时语音输入处理单元；语音输入处理单元经过语

音识别技术单元将语音转换为文字输入语句分

析单元；其中语音输入处理单元还进行语音分割

点处理的语音分割处理单元，分割处理单元用于

对先把音频分割成若干份，分割点是以声音振幅

连续一段时间局部最小的位置；能很好的解决自

动对口型问题，而且简单而且高效，本方案设计

适合写实人物口型。权利要求书1页说明书4页附图1页CN 112420048 A 2021.02.26

C N 112420048

1.一种通过语音或文字自动生成虚拟人物的口型的方法，其特征在于：包括

一语音数据库的设立，语音数据库采用的音频来源主要是两种：一种是由人直接录制的干净人声，还有一种是利用现在市面上有的各大语言合成技术；

一语音识别技术单元，用于对外来的语音进行分析识别；

一口型动作单元，包括用于对汉语口型动作的收录形成一个对照收录库单元以及人体表情捕捉单元，根据人体表情捕捉单元捕捉人体表情，对比对照收录库单元内的口型以通过人体模型展示；

一获取语音数据单元，获取语音数据具有语音生成单元，语音生成单元由用户说话时，用户的语音传入录音设备，从而实时生成当时语音输入处理单元；语音输入处理单元经过语音识别技术单元将语音转换为文字输入语句分析单元；

其中语音输入处理单元还进行语音分割点处理的语音分割处理单元，分割处理单元用于对先把音频分割成若干份或不进行切割以标记形式标记对应声音片段时间位置，音频分割的分割点是以声音振幅连续一段时间局部最小的位置；

利用语音识别技术单元把经过切割后的每段声音的内容依次识别出来，得到每段的内容还有字数长度，也可以得到这段语音的时间长度，因为我们知道这段语音的内容，结合口型动作单元的对照收录库单元，可得出当时实时的口型，根据识别的字数长度以确定每个口型动画播放的时间长度。

2.根据权利要求1所述的一种通过语音或文字自动生成虚拟人物的口型的方法，其特征在于：分割点是以声音振幅连续一段时间局部最小的位置采取方法是指：人讲话会停顿，对于安静的环境录音干净人声，人是会换气的，换气就会停顿，停顿的地方就没有声音，或者声音振幅相比其它地方都比较低，这些地方就是我们切割音频的地点，语言合成的声音也有停顿。

3.根据权利要求2所述的一种通过语音或文字自动生成虚拟人物的口型的方法，其特征在于：语音识别技术单元包括有语音识别算法单元，其对通过分割点得到若干切割好的声音片段，逐个分析得到该段的汉字内容以及每个汉字出现的时间，结合对照收录库单元，得到这段汉字的口型动画，最后按照切割的声音片段依次播放就可。

4.根据权利要求1或2或3所述的一种通过语音或文字自动生成虚拟人物的口型的方法，其特征在于：对

照收录库单元采集有十六种口型，十六种口型分为十五种口型动作和一个默认静止动作。

5.根据权利要求1所述的一种通过语音或文字自动生成虚拟人物的口型的方法，其特征在于：还包括文字直接输入单元。

6.根据权利要求1所述的一种通过语音或文字自动生成虚拟人物的口型的方法，其特征在于：语音识别技术单元是开源的语音识别技术。

权　利　要　求　书1/1页CN 112420048 A

一种通过语音或文字自动生成虚拟人物的口型的方法

技术领域

[0001]本发明涉及属于计算机信息行业，特别是涉及一种通过语音或文字自动生成虚拟人物的口型的方法。

背景技术

[0002]无论是现实中的机器人还是计算机里面的虚拟人物或模型，如何通过音频实现虚拟人物或模型

自动对口型，这都是业界的一个难题，即使进过多年的研究和发展，这个问题依然困扰着相关从业人员。

[0003]现在市面上的主流对口型方法有：

①通过对声音区分元辅音（如a、e、u等读音）制作相对应的口型，然后通过算法解析出一段干净人声中对应的元辅音，并把他们按照解析出来的顺序进行排序。该方法的优势是适用于地球上的所有人类语言，因为人的语言发音都是可以通过元辅音拼出来。但是该方法存在很严重的问题，一个是对高精度写实的虚拟人物或模型口型契合度较差，只比较适合计算机里的卡通类虚拟人。还有因为一个汉字或者单词的读音可能是由多个元辅音这样的音节拼凑出来的，导致这种方法得到的口型连贯性不佳，虚拟人物或模型的口型可能会异常抖动，达不到良好的效果，非常令人头痛！最后这种方法在解析3分钟以上的长音频，无论算法多好，都容易出现声音和口型对不齐的情况。

[0004]②通过算法对一段干净人声的振幅进行解析，声音振幅越大，张嘴幅度越大。这种方法优点就是简单可靠，缺点就是口型单一，只适合卡通类的虚拟人物模型口型，对于高精度虚拟写实人物或模型不适用。

[0005]跟据上面的的描述，现在市面上存在两种方法有一定的优点，但是面对高精度写实类的虚拟人物或模型，这自动对口型的效果就很差，针对现有缺陷，本方案提出改进。

发明内容

[0006]本发明的目的在于提供一种通过语音或文字自动生成虚拟人物的口型的方法，以解决上述提出的问题。

[0007]为实现上述目的，本发明提供如下技术方案：

一种通过语音或文字自动生成虚拟人物的口型的方法，其特征在于：包括

一语音数据库的设立，语音数据库采用的音频来源主要是两种：一种是由人直接录制的干净人声，还有一种是利用现在市面上有的各大语言合成技术；

一语音识别技术单元，用于对外来的语音进行分析识别；

一获取语音数据单元，获取语音数据具有语音生成单元，语音生成单元由用户说话时，用户的语音传入录音设备，从而实时生成当时语音输入处理单元；语音输入处理单元经过

语音识别技术单元将语音转换为文字输入语句分析单元；

其中语音输入处理单元还进行语音分割点处理的语音分割处理单元，分割处理单元用于对先把音频分割成若干份，分割点是以声音振幅连续一段时间局部最小的位置；也可不切割，标记对应声音片段时间位置位置即可。

[0008]利用语音识别技术单元把经过切割或标记后的每段声音的内容依次识别出来，得到每段的内容还有字数长度，也可以得到这段语音的时间长度，因为我们知道这段语音的内容，结合口型动作单元的对照收录库单元，可得出当时实时的口型，根据识别的字数长度以确定每个口型动画播放的时间长度。

[0009]优选地，分割点是以声音振幅连续一段时间局部最小的位置采取方法是指：人讲话会停顿，对于安静的环境录音干净人声，人是会换气的，换气就会停顿，停顿的地方就没有声音，或者声音振幅相比其它地方都比较低，这些地方就是我们切割音频的地点，语言合成技术合成的声音也有这样的切割点。

[0010]优选地，语音识别技术单元包括有语音识别算法单元，其对通过分割点得到若干切割好的声音片段，逐个分析得到该段的汉字内容以及每个汉字出现的时间，结合对照收录库单元，得到这段汉字的口型动画，最后按照切割的声音片段依次播放就可。

[0011]优选地，对照收录库单元采集有十六种口型，十六种口型分为十五种口型动作和一个默认静止

动作。

[0012]优选地，还包括文字直接输入单元。

[0013]优选地，语音识别技术单元是开源的语音识别技术。

[0014]综上可知，能很好的解决自动对口型问题，而且简单而且高效，本方案设计适合写实人物口型，主要运用在游戏、动画、影视、虚拟现实等信息技术行业，也可以用于现实中的机器人的口型生成。该技术可以快速且准确的生成计算机里的虚拟人物或模型的口型，或者生成现实中的机器人的口型。

附图说明

[0015]图1为本发明十六种口型的对照收录库单元的示意图；

图2为声音片段分割识别的波形图。

具体实施方式

[0016]下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

[0017]结合图1-图2所示，本实施例公开的一种通过语音或文字自动生成虚拟人物的口型的方法，包括

一语音数据库的设立，语音数据库采用的音频来源主要是两种：一种是由人直接录制的干净人声，还有一种是利用现在市面上有的各大语言合成技术；

一语音识别技术单元，用于对外来的语音进行分析识别；可以是开源的语音识别技术。[0018]一口型动作单元，包括用于对汉语口型动作的收录形成一个对照收录库单元以及人体表情捕捉单元，根据人体表情捕捉单元捕捉人体表情，对比对照收录库单元内的口型以通过人体模型展示；

一获取语音数据单元，获取语音数据具有语音生成单元，语音生成单元由用户说话时，用户的语音传入录音设备或由语言合成系统合成语音，从而实时生成当时语音输入处理单元；语音输入处理单元经过语音识别技术单元将语音转换为文字输入语句分析单元；其中语音输入处理单元还进行语音分割点处理的语音分割处理单元，分割处理单元用于对先把音频分割成若干份，分割点是以声音振幅连续一段时间局部最小的位置；

[0019]优选地，语音识别技术单元包括有语音识别算法单元，其对通过分割点（若标记点不需要切割音频）得到若干切割好的声音片段，逐个分析得到该段的汉字内容以及每个汉字出现的时间，结合对照收录库单元，得到这段汉字的口型动画，最后按照切割的声音片段依次播放就可。

[0020]进一步的，还包括文字直接输入单元。采用文字直接输入单元可以直接输入文字实现表达出对应的口型。

[0021]根据上述方案以下进行详细说明：

我们知道新华字典收录了8000多个汉字，而常用的汉字有3000多个，但是我们经过归纳得出我们讲汉语时的口型动作不超过30种。对此我们归纳出了一个口型动作（也可以说是口型动画）对照表，每个常用汉字对应一个口型动作，一个虚拟人物或模型具体取多少口型动作，可以根据项目精度来决定，如果项目精度要求非常高我们就做30种，如果精度不高10种就可以了。

[0022]我们现在归纳的这个是16(15个对照表口型动作+1个默认静止)个口型动作的，具体可查看附图1。

[0023]我们先用表情捕捉设备，捕捉人讲一个汉字相应的口型动画，一共捕捉完口型对照表上面的15个口型动作，处理完后就得到相对应的15种口型动画。以单独的每个汉字口型动画为基础，如果语音

是一段汉语，那最后生成的口型相比上述元辅音方法就要流畅很多，相比通过振幅控制口型这种方法，我们的口型就复杂很多。而且因为本身就是捕捉的真人口型，所以对高精度写实虚拟人物或模型支持得很好。

[0024]上述讲的是口型动作（也可以说是口型动画）对照表里的口型制作，下面我们讲的是如何解析音频得到相应的内容。首先我们正常人讲话，一次讲话一般不会超过15汉字，中间一般都会换气，换气就会停顿，即使停顿0.2秒也是停顿。如果一个人讲话速度很快，一口气说了60个汉字，那也没事，他这个时候说话的语速一定不是抑扬顿挫，一定是很快而且语速平均。而且就算有0.2秒口型和声音没对上，人眼也看不出来。面对一段汉语音频，我们先把音频分割成若干份，分割点就是声音振幅连续一段时间局部最小的位置，因为我们知道人讲话会停顿，对于安静的环境录音干净人声，人是会换气的，换气就会停顿，停顿的地方就没有声音，或者声音振幅相比其它地方都比较低，这些地方就是我们切割音频的地点，切好音频后并按原音频的顺序排列好命好名。我们可以通过开源的语音识别技术，把经过切割后的每段声音的内容依次识别出来，然后就可以得到每段的内容还有字数长度，也可以得到这段语音的时间长度，因为我们知道这段语音的内容，结合口型动作（也可以说是口型

本文发布于:2024-09-21 17:36:09，感谢您对本站的认可！

本文链接：https://www.17tex.com/tex/2/414075.html

上一篇：一种用于免标记活细胞虚拟染的马赫-曾德尔干涉系统

下一篇：一种虚拟仿真医院护理教学实训系统及其构建方法[发明专利]

标签：语音口型单元人物生成识别声音技术

留言与评论（共有 0 条评论）