一种车辆卡拉OK音频处理方法及系统、存储介质与流程

一种车辆卡拉ok音频处理方法及系统、存储介质
技术领域
1.本发明涉及音频处理技术领域，具体涉及一种车辆卡拉ok音频处理方法及系统、计算机可读存储介质。

背景技术：

2.目前车内卡拉ok主要是将歌唱者输入的人声信号和伴唱音频信号进行混音，然后播放混音得到的音频信号。但实际应用过程中，歌唱者可能会出现歌唱声音小、忘词或唱错的情况，在该情况下，车内卡拉ok的用户体验效果不佳。

技术实现要素：

3.本发明的目的在于提出一种车辆卡拉ok音频处理方法及系统、计算机可读存储介质，以实现在歌唱者出现歌唱声音小、忘词或唱错的情况下，歌唱者也能唱好歌的目的，提高车内卡拉ok的用户体验效果。
4.本发明第一方面提出一种车辆卡拉ok音频处理方法，包括：
5.获取车载采音设备所采集的歌唱者的声纹参数；
6.获取车载摄像设备所采集的歌唱者的嘴型连续帧图像，并利用预先训练好的深度学习网络模型对所述嘴型连续帧图像进行识别获得嘴型声学参数；
7.根据所述嘴型声学参数获得对应的歌唱内容参数；
8.根据所述声纹参数和所述歌唱内容参数生成第一音频信号；
9.获取当前歌曲伴奏音乐所对应的第二音频信号；
10.将所述第一音频信号与所述第二音频信号进行混音处理后获得第三音频信号，并将所述第三音频信号发送至车载音频播放设备以使得所述车载音频播放设备播放所述第三音频信号。
11.可选地，所述嘴型声学参数包括嘴型可信度参数、嘴型与当前歌曲歌词的吻合度参数；
12.其中，多帧连续图像的一个嘴型动作对应一个歌词内容，每一个嘴型动作的嘴型声学参数包括一个嘴型可信度参数、一个嘴型与当前歌曲歌词的吻合度参数。
13.可选地，所述根据所述嘴型声学参数获得对应的歌唱内容参数，包括：
14.根据所述嘴型可信度参数、嘴型与当前歌曲歌词的吻合度参数确定对每一个嘴型动作所对应的歌词内容进行保留或修正，所述修正包括选用当前歌曲所对应的正确歌词替换该歌词内容，或调整该歌词内容使得该歌词内容与当前歌曲所对应的正确歌词的相似度大于预设阈值。
15.可选地，所述根据所述嘴型声学参数获得对应的歌唱内容参数，包括：
16.根据所述嘴型可信度参数、嘴型与当前歌曲歌词的吻合度参数确定对多个嘴型动作所对应的一句歌词内容进行保留或修正，所述修正包括选用当前歌曲所对应的一句正确歌词替换该一句歌词内容，或调整该一句歌词内容使得该歌词内容与当前歌曲所对应的一
句正确歌词的相似度大于预设阈值。
17.可选地，所述嘴型连续帧图像与所述声纹参数的采集时间相同。
18.可选地，所述声纹参数包括基频参数、共振峰参数、谐波振幅参数、谐波噪音比参数。
19.本发明第二方面提出一种车辆卡拉ok音频处理系统，包括：
20.声纹获取单元，用于获取车载采音设备所采集的歌唱者的声纹参数；
21.声学参数获取单元，获取车载摄像设备所采集的歌唱者的嘴型连续帧图像，并利用预先训练好的深度学习网络模型对所述嘴型连续帧图像进行识别获得嘴型声学参数；
22.歌唱内容获取单元，用于根据所述嘴型声学参数获得对应的歌唱内容参数；
23.第一音频获取单元，用于根据所述声纹参数和所述歌唱内容参数生成第一音频信号；
24.第一音频获取单元，用于获取当前歌曲伴奏音乐所对应的第二音频信号；以及
25.第三音频获取单元，用于将所述第一音频信号与所述第二音频信号进行混音处理后获得第三音频信号，并将所述第三音频信号发送至车载音频播放设备以使得所述车载音频播放设备播放所述第三音频信号。
26.可选地，所述嘴型声学参数包括嘴型可信度参数、嘴型与当前歌曲歌词的吻合度参数；
27.其中，多帧连续图像的一个嘴型动作对应一个歌词内容，每一个嘴型动作的嘴型声学参数包括一个嘴型可信度参数、一个嘴型与当前歌曲歌词的吻合度参数。
28.可选地，所述声学参数获取单元，具体用于：
29.根据所述嘴型可信度参数、嘴型与当前歌曲歌词的吻合度参数确定对每一个嘴型动作所对应的歌词内容进行保留或修正，所述修正包括选用当前歌曲所对应的正确歌词替换该歌词内容，或调整该歌词内容使得该歌词内容与当前歌曲所对应的正确歌词的相似度大于预设阈值。
30.或者，根据所述嘴型可信度参数、嘴型与当前歌曲歌词的吻合度参数确定对多个嘴型动作所对应的一句歌词内容进行保留或修正，所述修正包括选用当前歌曲所对应的一句正确歌词替换该一句歌词内容，或调整该一句歌词内容使得该歌词内容与当前歌曲所对应的一句正确歌词的相似度大于预设阈值。
31.本发明第三方面提出一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现第一方面所述车辆卡拉ok音频处理方法的步骤。
32.本发明的多个方面分别提出一种车辆卡拉ok音频处理方法及系统、计算机可读存储介质，在实施时，至少具有如下有益效果：
33.创新性地提出了根据歌唱者的嘴型连续帧图像进行智能识别获得要播放的歌唱内容，该歌唱内容可以是对歌唱者歌唱内容的修正或调整，再结合属于歌唱者的独特声纹特征，可以获得在理想状态下由歌唱者所唱出的歌唱内容，最后再与伴奏混音处理输出并播放，从而实现在歌唱者出现歌唱声音小、忘词或唱错的情况下，歌唱者也能唱好歌的目的，提高车内卡拉ok的用户体验效果。
34.本发明的其它特征和优点将在随后的说明书中阐述。
附图说明
35.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
36.图1为本发明一实施例中一种车辆卡拉ok音频处理方法的流程示意图。
37.图2为本发明另一实施例中一种车辆卡拉ok音频处理系统的框架示意图。
具体实施方式
38.以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。另外，为了更好的说明本发明，在下文的具体实施例中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本发明同样可以实施。在一些实例中，对于本领域技术人员熟知的手段未作详细描述，以便于凸显本发明的主旨。
39.参阅图1，本发明一实施例提出一种车辆卡拉ok音频处理方法，包括如下步骤s1～s6：
40.步骤s1、获取车载采音设备所采集的歌唱者的声纹参数；
41.具体而言，所述声纹参数是表征歌唱者的声音特征的参数，在一具体例子中，所述声纹参数包括歌唱者声音的基频参数、共振峰参数、谐波振幅参数、谐波噪音比参数；
42.步骤s2、获取车载摄像设备所采集的歌唱者的嘴型连续帧图像，并利用预先训练好的深度学习网络模型对所述嘴型连续帧图像进行识别获得嘴型声学参数；
43.具体而言，所述嘴型声学参数为与歌唱者的嘴型记录所要表达语音内容；
44.在一具体例子中，所述嘴型声学参数包括但不限于嘴型可信度参数、嘴型与当前歌曲歌词的吻合度参数；其中，多帧连续图像的一个嘴型动作对应一个歌词内容，每一个嘴型动作的嘴型声学参数包括一个嘴型可信度参数、一个嘴型与当前歌曲歌词的吻合度参数；
45.可以理解的是，歌唱者完成一个嘴型动作需要一定时间，在该时间内车主摄像设备会拍摄到多帧连续图像，因此，一个嘴型动作与多帧连续图像对应，一个嘴型动作实际上对应的是一个歌词内容，例如“我”，“你”，“他”；
46.其中，所述嘴型可信度参数表示嘴型动作是否可信，例如嘴型动作不明显，那么此时的可信度就相对较低，又例如嘴型动作明显，那么此时的可信度就相对较高；具体地，所述嘴型可信度参数采用0～100％的值进行表示，数值越高则可信度越高；
47.其中，所述嘴型与当前歌曲歌词的吻合度参数，可以将嘴型所对应的歌词，根据嘴型所对应的图像帧时间戳确定音乐播放的歌词，然后将2个歌词进行匹配，来确定嘴型与当前歌曲歌词的吻合度参数；具体地，所述吻合度参数采用0～100％的值进行表示，数值越高则吻合度越高；
48.需说明的是，深度学习网络模型是一种可以用于进行图像帧识别的智能工具，其可以通过训练来达到识别目的；只需要对基于现有的深度学习网络模型的输入层和输出层进行调整，使得深度学习网络模型的输入层与本实施例中的嘴型连续帧图像对应，输出层与本实施例中的嘴型声学参数对应，给定训练样本，深度学习网络模型可以自行学习训练
来达到本实施例想要的识别目的；
49.步骤s3、根据所述嘴型声学参数获得对应的歌唱内容参数；
50.在一个具体例子中，所述根据所述嘴型声学参数获得对应的歌唱内容参数，包括：
51.根据所述嘴型可信度参数、嘴型与当前歌曲歌词的吻合度参数确定对每一个嘴型动作所对应的歌词内容进行保留或修正；其中，所述修正包括选用当前歌曲所对应的正确歌词替换该歌词内容，或调整该歌词内容使得该歌词内容与当前歌曲所对应的正确歌词的相似度大于预设阈值；
52.具体地，根据所述嘴型可信度参数与吻合度参数与预设阈值的比较结果来确定是否对嘴型动作所对应的歌词内容进行保留或修正，例如，嘴型动作所对应的嘴型可信度参数大于可信度阈值，且吻合度参数大于吻合度阈值，则确定对嘴型动作所对应的一个歌词内容进行保留，否则，则进行修正；
53.更具体地，歌词的相似度计算可以采用文本距离的计算方式，使得2个词之间的距离小于预设阈值，距离可以是欧氏距离、曼哈顿距离等；
54.在另一个具体例子中，所述根据所述嘴型声学参数获得对应的歌唱内容参数，包括：
55.根据所述嘴型可信度参数、嘴型与当前歌曲歌词的吻合度参数确定对多个嘴型动作所对应的一句歌词内容进行保留或修正；其中，所述修正包括选用当前歌曲所对应的一句正确歌词替换该一句歌词内容，或调整该一句歌词内容使得该歌词内容与当前歌曲所对应的一句正确歌词的相似度大于预设阈值；
56.具体地，根据所述嘴型可信度参数与吻合度参数与预设阈值的比较结果来确定是否对嘴型动作所对应的一句歌词内容进行保留或修正，例如，嘴型动作所对应的嘴型可信度参数大于可信度阈值，且吻合度参数大于吻合度阈值，则确定对嘴型动作所对应的一句歌词内容进行保留，否则，则进行修正；
57.更具体地，歌词的相似度计算可以采用文本距离的计算方式，使得2个句子之间的距离小于预设阈值，距离可以是欧氏距离、曼哈顿距离等。
58.步骤s4、根据所述声纹参数和所述歌唱内容参数生成第一音频信号；
59.具体而言，所述第一音频信号可以理解为在理想状态下由歌唱者所唱出的歌唱内容，从而提高车内卡拉ok的用户体验效果；
60.步骤s5、获取当前歌曲伴奏音乐所对应的第二音频信号；
61.步骤s6、将所述第一音频信号与所述第二音频信号进行混音处理后获得第三音频信号，并将所述第三音频信号发送至车载音频播放设备以使得所述车载音频播放设备播放所述第三音频信号。
62.具体而言，所述步骤s5～s6为常规的卡拉ok混音处理，本实施例方法主要是对歌唱者的人声音频信号的获取方面进行了改进，实现在歌唱者出现歌唱声音小、忘词或唱错的情况下，歌唱者也能唱好歌的目的，提高车内卡拉ok的用户体验效果。
63.在一具体例子中，所述嘴型连续帧图像与所述声纹参数的采集时间相同，使得歌唱者的声纹与歌唱内容对应上。
64.进一步地，当歌唱者仅是嘴巴动作，未发出声音时，此时仅获取到嘴型记录，无法获取到歌唱者的声纹参数，则表明歌唱者可能是唱歌声音太小或可能是忘词了，此时，则以
之前识别的声纹参数作为当前歌唱者的声纹参数，进行后续的音频信号处理。
65.参阅图2，本发明另一实施例提出一种车辆卡拉ok音频处理系统，包括：
66.声纹获取单元1，用于获取车载采音设备所采集的歌唱者的声纹参数；
67.声学参数获取单元2，获取车载摄像设备所采集的歌唱者的嘴型连续帧图像，并利用预先训练好的深度学习网络模型对所述嘴型连续帧图像进行识别获得嘴型声学参数；
68.歌唱内容获取单元3，用于根据所述嘴型声学参数获得对应的歌唱内容参数；
69.第一音频获取单元4，用于根据所述声纹参数和所述歌唱内容参数生成第一音频信号；
70.第一音频获取单元5，用于获取当前歌曲伴奏音乐所对应的第二音频信号；以及
71.第三音频获取单元6，用于将所述第一音频信号与所述第二音频信号进行混音处理后获得第三音频信号，并将所述第三音频信号发送至车载音频播放设备以使得所述车载音频播放设备播放所述第三音频信号。
72.在一具体例子中，所述嘴型声学参数包括嘴型可信度参数、嘴型与当前歌曲歌词的吻合度参数；
73.其中，多帧连续图像的一个嘴型动作对应一个歌词内容，每一个嘴型动作的嘴型声学参数包括一个嘴型可信度参数、一个嘴型与当前歌曲歌词的吻合度参数。
74.在一具体例子中，所述声学参数获取单元2，具体用于：
75.根据所述嘴型可信度参数、嘴型与当前歌曲歌词的吻合度参数确定对每一个嘴型动作所对应的歌词内容进行保留或修正，所述修正包括选用当前歌曲所对应的正确歌词替换该歌词内容，或调整该歌词内容使得该歌词内容与当前歌曲所对应的正确歌词的相似度大于预设阈值。
76.或者，根据所述嘴型可信度参数、嘴型与当前歌曲歌词的吻合度参数确定对多个嘴型动作所对应的一句歌词内容进行保留或修正，所述修正包括选用当前歌曲所对应的一句正确歌词替换该一句歌词内容，或调整该一句歌词内容使得该歌词内容与当前歌曲所对应的一句正确歌词的相似度大于预设阈值。
77.在一具体例子中，所述嘴型连续帧图像与所述声纹参数的采集时间相同。
78.在一具体例子中，所述声纹参数包括基频参数、共振峰参数、谐波振幅参数、谐波噪音比参数。
79.以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
80.需说明的是，上述实施例所述系统与上述实施例所述方法对应，因此，上述实施例所述系统未详述部分可以参阅上述实施例所述方法的内容得到，即上述实施例方法的具体步骤内容可以理解为本实施例系统的所能够实现的功能，此处不再赘述。
81.并且，上述实施例所述车辆卡拉ok音频处理系统若以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。
82.本发明另一实施例提出一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述实施例所述车辆卡拉ok音频处理方法的步骤。
83.具体而言，所述计算机可读存储介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、电载波信号、电信信号以及软件分发介质等。
84.以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

技术特征：

1.一种车辆卡拉ok音频处理方法，其特征在于，包括：获取车载采音设备所采集的歌唱者的声纹参数；获取车载摄像设备所采集的歌唱者的嘴型连续帧图像，并利用预先训练好的深度学习网络模型对所述嘴型连续帧图像进行识别获得嘴型声学参数；根据所述嘴型声学参数获得对应的歌唱内容参数；根据所述声纹参数和所述歌唱内容参数生成第一音频信号；获取当前歌曲伴奏音乐所对应的第二音频信号；将所述第一音频信号与所述第二音频信号进行混音处理后获得第三音频信号，并将所述第三音频信号发送至车载音频播放设备以使得所述车载音频播放设备播放所述第三音频信号。2.根据权利要求1所述的车辆卡拉ok音频处理方法，其特征在于，所述嘴型声学参数包括嘴型可信度参数、嘴型与当前歌曲歌词的吻合度参数；其中，多帧连续图像的一个嘴型动作对应一个歌词内容，每一个嘴型动作的嘴型声学参数包括一个嘴型可信度参数、一个嘴型与当前歌曲歌词的吻合度参数。3.根据权利要求2所述的车辆卡拉ok音频处理方法，其特征在于，所述根据所述嘴型声学参数获得对应的歌唱内容参数，包括：根据所述嘴型可信度参数、嘴型与当前歌曲歌词的吻合度参数确定对每一个嘴型动作所对应的歌词内容进行保留或修正，所述修正包括选用当前歌曲所对应的正确歌词替换该歌词内容，或调整该歌词内容使得该歌词内容与当前歌曲所对应的正确歌词的相似度大于预设阈值。4.根据权利要求2所述的车辆卡拉ok音频处理方法，其特征在于，所述根据所述嘴型声学参数获得对应的歌唱内容参数，包括：根据所述嘴型可信度参数、嘴型与当前歌曲歌词的吻合度参数确定对多个嘴型动作所对应的一句歌词内容进行保留或修正，所述修正包括选用当前歌曲所对应的一句正确歌词替换该一句歌词内容，或调整该一句歌词内容使得该歌词内容与当前歌曲所对应的一句正确歌词的相似度大于预设阈值。5.根据权利要求2所述的车辆卡拉ok音频处理方法，其特征在于，所述嘴型连续帧图像与所述声纹参数的采集时间相同。6.根据权利要求2所述的车辆卡拉ok音频处理方法，其特征在于，所述声纹参数包括基频参数、共振峰参数、谐波振幅参数、谐波噪音比参数。7.一种车辆卡拉ok音频处理系统，其特征在于，包括：声纹获取单元，用于获取车载采音设备所采集的歌唱者的声纹参数；声学参数获取单元，获取车载摄像设备所采集的歌唱者的嘴型连续帧图像，并利用预先训练好的深度学习网络模型对所述嘴型连续帧图像进行识别获得嘴型声学参数；歌唱内容获取单元，用于根据所述嘴型声学参数获得对应的歌唱内容参数；第一音频获取单元，用于根据所述声纹参数和所述歌唱内容参数生成第一音频信号；第一音频获取单元，用于获取当前歌曲伴奏音乐所对应的第二音频信号；以及第三音频获取单元，用于将所述第一音频信号与所述第二音频信号进行混音处理后获得第三音频信号，并将所述第三音频信号发送至车载音频播放设备以使得所述车载音频播
放设备播放所述第三音频信号。8.根据权利要求7所述的车辆卡拉ok音频处理系统，其特征在于，所述嘴型声学参数包括嘴型可信度参数、嘴型与当前歌曲歌词的吻合度参数；其中，多帧连续图像的一个嘴型动作对应一个歌词内容，每一个嘴型动作的嘴型声学参数包括一个嘴型可信度参数、一个嘴型与当前歌曲歌词的吻合度参数。9.根据权利要求8所述的车辆卡拉ok音频处理系统，其特征在于，所述声学参数获取单元，具体用于：根据所述嘴型可信度参数、嘴型与当前歌曲歌词的吻合度参数确定对每一个嘴型动作所对应的歌词内容进行保留或修正，所述修正包括选用当前歌曲所对应的正确歌词替换该歌词内容，或调整该歌词内容使得该歌词内容与当前歌曲所对应的正确歌词的相似度大于预设阈值；或者，根据所述嘴型可信度参数、嘴型与当前歌曲歌词的吻合度参数确定对多个嘴型动作所对应的一句歌词内容进行保留或修正，所述修正包括选用当前歌曲所对应的一句正确歌词替换该一句歌词内容，或调整该一句歌词内容使得该歌词内容与当前歌曲所对应的一句正确歌词的相似度大于预设阈值。10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-6中任一项所述车辆卡拉ok音频处理方法的步骤。

技术总结

本发明涉及一种车辆卡拉OK音频处理方法及系统、存储介质，包括：获取车载采音设备所采集的歌唱者的声纹参数；获取车载摄像设备所采集的歌唱者的嘴型连续帧图像，并对所述嘴型连续帧图像进行识别获得嘴型声学参数；根据所述嘴型声学参数获得对应的歌唱内容参数；根据所述声纹参数和所述歌唱内容参数生成第一音频信号；获取当前歌曲伴奏音乐所对应的第二音频信号；将所述第一音频信号与所述第二音频信号进行混音处理后获得第三音频信号，并将所述第三音频信号发送至车载音频播放设备以使得所述车载音频播放设备播放所述第三音频信号。本发明能够实现在歌唱者出现忘词、唱错的情况下，歌唱者也能唱好歌的目的，提高车内卡拉OK的用户体验效果。的用户体验效果。的用户体验效果。