一种低侵入性的视听语音分离方法及系统



1.本发明涉及语音分离技术领域,特别是一种低侵入性的视听语音分离方法及系统。


背景技术:



2.如今人工智能已广泛应用于各个领域,如医疗领域、金融领域、网络安全领域等等,生活中具有人机交互功能的多模态机器人的应用场景不断增多,良好的语音分离性能是多模态机器人与用户进行良好交互的前提。视听多模态语音分离较单模态语音分离性能更好,但多模态机器人若要实现良好语音分离性能,首要任务在于视觉与语音信息的采集,如人脸图像、用户语音等,这导致对话机器人的隐私性能差,限制了对话机器人的应用范围,在这个个人隐私保护和个人信息安全备受重视的时代,人们一方面享受着多模态机器人所带来的便捷服务,另一方面又为其对隐私的侵犯而困扰。
3.语音分离也被称为“鸡尾酒会问题”,目的是从多人混合语音中得到每个说话人的纯净语音。随着信息技术与多媒体技术的发展,视频信号与音频信号被大量的同时保存与传播,研究者们不再局限于仅采用语音来解决语音分离问题,而是同时引入视觉信息来辅助分离。第一个视听语音分离工作的提出证明了视听语音分离的有效性,随后很多视听语音分离方法被提出,尤其是基于大数据的深度学习视听多模态语音分离。但这些方法在实现了比纯语音分离更好的分离性能的同时也采集用户更多的信息,用户在走向与机器人交互更加顺畅、便捷的同时,也担心自己的隐私被暴露,有些用户甚至会拒绝使用采集个人信息的机器人。
4.除此之外,多模态交互机器人或智能设备采集的视觉信息都为高清视觉信息及高采样率音频信息,如测温机器人、商用服务机器人、人脸验证、考勤设备等,高清视觉信息与高采样率音频中包含用户丰富的个人信息,如年龄、情绪、声纹等,在如今互联网大数据时代这些信息一旦泄露,不法分子便可利用这些信息获取用户更多的隐私,如健康状态、人际关系、消费行为等,而隐私泄露将导致用户不再信任人工智能,不利于人工智能的发展。


技术实现要素:



5.鉴于此,本发明提供一种低侵入性的视听语音分离方法及系统,以解决上述技术问题。
6.本发明公开了一种低侵入性的视听语音分离方法,包括以下步骤:
7.步骤1:获取视频中的人脸图像之间不具备隐私侵入性的分辨率
8.步骤2:基于不具备隐私侵入性的分辨率,选取多种分辨率的音视频训练数据集并预处理;其中,所述音视频包括所述视频以及与所述视频同步的语音;
9.步骤3:构建低侵入性视听语音分离模型;
10.步骤4:利用预处理后的数据训练视听语音分离模型;
11.步骤5:将待分离的视听语音输入已训练好的所述视听语音分离模型中,分离出所
述待分离的视听语音中的语音。
12.进一步地,所述步骤1包括:
13.步骤11、从视觉模态分别采集任意两个目标对象s1和s2的n个人脸图像并分别形成人脸图像序列;其中,所述人脸图像的分辨率为fv;
14.步骤12、利用人脸特征提取器fv,分别对两个目标对象s1和s2对应的人脸图像序列进行特征提取,得到人脸特征序列和
15.步骤13、绘制人脸特征聚类图,计算人脸特征序列和的视觉模态隐私侵入性大小zv;
16.步骤14、降低人脸图像的分辨率,重复步骤12至步骤13,直到不能区分人脸特征聚类图中两个人脸特征聚类图中的类别为止,然后到对应人脸图像不具备隐私侵入性的分辨率。
17.进一步地,在所述步骤13中:
18.当fv低于阈值thv时,采用任意的特征提取器fv得到的两个目标对象的人脸特征均不具有差异性,即对于统计量两者之间的差别无统计学意义,则认为视觉模态不具备侵入性;
[0019][0020]
其中,αv为置信度水平,n为两人采用的人脸图片数,为置信度水平,n为两人采用的人脸图片数,为置信度水平,n为两人采用的人脸图片数,
[0021]
进一步地,所述步骤2包括:
[0022]
提取视听数据集中与视频同步的音频;对于视频,选取三种不同分辨率,分别为原始分辨率,不具备隐私侵入性的分辨率之下的分辨率,介于原始分辨率与不具备隐私侵入性的分辨率之间分辨率;
[0023]
将视听数据集中的视频分辨率灰度化,将灰度化的视频的分辨率分别降低至所选的三种分辨率。
[0024]
进一步地,所述视听数据集选择lrs3数据集、lrs2数据集与grid数据集,且lrs3数据集、lrs2数据集与grid数据集分别被分为训练集、验证集与测试集,互不重叠。
[0025]
进一步地,所述步骤3包括:
[0026]
步骤31:利用深度神经网络构建视觉模态模型,
[0027]
步骤32:将视觉模态模型与多个纯语音分离模型结合,构成低侵入性视听语音分离模型。
[0028]
进一步地,在所述步骤31中:
[0029]
视觉模态模型总体分为快支路和慢支路,快支路和慢支路分别以不同的帧速率处理同一输入的视频,并在不同的阶段进行横向连接,最后通过卷积块注意力模块关注与音频特征相关的视觉特征。
[0030]
进一步地,所述慢支路以较大的时序跨度在一整段视频中获取稀疏的视频帧;若慢支路的采样率为t,时间跨度为τ,原始视频长度为t*τ帧;
[0031]
快支路与慢支路并行,以较小的时间跨度在一整段视频中获取稠密的视频帧;快支路的时间跨度为τ/,α为两支路的帧率比,α》1,即采样率为αt;α代表两条支路对于同一视频在不同时间速度上的处理方式。
[0032]
进一步地,在所述步骤32中:
[0033]
视觉特征与音频特征的融合采用串联方式,串联后的视听融合特征送入分离器进行分离任务,音频解码器将分离器产生的掩码恢复为语音。
[0034]
本发明还公开了一种低侵入性的视听语音分离系统,包括:
[0035]
分辨率获取模块,用于获取视频中不同目标对象的人脸图像之间不具备隐私侵入性的分辨率;
[0036]
预处理模块,用于基于不具备隐私侵入性的分辨率,选取多种分辨率的音视频训练数据集并预处理;其中,所述音视频包括所述视频以及与所述视频同步的语音;
[0037]
构建模块,用于构建低侵入性视听语音分离模型;
[0038]
训练模块,用于利用预处理后的数据训练视听语音分离模型;
[0039]
分离模块,用于将待分离的视听语音输入已训练好的所述视听语音分离模型中,分离出各目标对象的语音。
[0040]
由于采用了上述技术方案,本发明具有如下的优点:构建了一种新的视觉模态模型,将视觉特征的提取分为双支路结构,这种结构同时融合了说话人的唇部动态特征与语义特征,可在人脸图像分辨率不具备隐私侵入性的情况下有效关注可辅助语音分离的唇部动态特征,这使系统能够既达到语音分离的目的又可以保护使用者隐私信息,还可使系统扩展到低分辨率摄像头设备上。
附图说明
[0041]
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
[0042]
图1为本发明实施例的一种低侵入性的视听语音分离方法的流程示意图;
[0043]
图2为本发明实施例的所绘制人脸特征聚类图;
[0044]
图3为本发明实施例的低侵入性视听语音分离流程的系统图;
[0045]
图4为本发明实施例的视觉模态模型的结构示意图。
具体实施方式
[0046]
结合附图和实施例对本发明作进一步说明,显然,所描述的实施例仅是本发明实施例一部分实施例,而不是全部的实施例。本领域普通技术人员所获得的所有其他实施例,都应当属于本发明实施例保护的范围。
[0047]
本实施例中一种低侵入性的视听语音分离方法及系统的具体实现平台:操作系统为ubuntu16.04,编程语言为python 3.7,神经网络框架为pytorch1.11.0版本,cuda版本为11.7,计算加速单元为nvidia 3090ti gpu。
[0048]
如图1所示,本发明提供了一种低侵入性的视听语音分离方法的实施例,其包括如下步骤;
[0049]
s1、获取视频中的人脸图像之间不具备隐私侵入性的分辨率。
[0050]
s11、视觉隐私侵入性的量化计算方法:
[0051]
定义如下:设从视觉模态分别采集到任意两个说话人s1和s2的n个面部图像序列分别为和图像分辨率均为fv,使用视觉特征提取器fv分别对说话人s1和s2的面部图像进行特征提取得到特征序列为和当分辨率fv低于阈值thv时,采用任意的特征提取器fv得到的两个说话人的脸部特征均不具有差异性,即对于统计量两者之间的差别无统计学意义,则认为视觉模态不具备侵入性,公式:其中,αv为置信度水平,n为两人采用的人脸图片数,为置信度水平,n为两人采用的人脸图片数,
[0052]
s12、将人脸识别数据集中男女分开,进行了三组实验,分别为男-男实验组、女-女实验组,男-女实验组,每组实验中任意两人进行配对。
[0053]
本实施例人脸识别数据集采用pins face recognition数据集。pins face recognition数据经过裁剪和标记,共包括了105个名人的不同角度与不同形式的17534张图片,图片原始分辨率为224
×
224。
[0054]
s13、每组实验中,利用最新人脸识别网络提取每对中人脸图像的特征序列与
[0055]
本实施例利用人脸识别网络facenet提取每对人脸图像特征序列与实验采用了该网络中可用于人脸验证、识别或聚类的最后一层面部特征。
[0056]
其中,facenet在lfw数据集上测试的准确率达到了99.63%。
[0057]
s14、绘制人脸特征聚类图,计算两人脸特征序列与的zv;
[0058]
如图2所示,为本发明实施例的人脸特征聚类图。
[0059]
本实施例使用tsne绘制人脸特征聚类图,图中不同颜代表每对中不同人s1与s2,每个点代表从一张人脸图像中提取出的特征,红点代表在低分辨率下,两人特征距离小于0.15。
[0060]
s15、降低人脸图像分辨率、重复s12~s14直到人脸特征聚类图中两人人脸特征聚类图中类别聚合趋势不明显,此时对应分辨率为分辨率上线;
[0061]
其中,实验按照原始图像比例降低分辨率,最低分辨率f
vmin
,最高分辨率为f
vmax

[0062]
s2、基于不具备隐私侵入性的分辨率,选取多种分辨率的音视频训练数据集并预处理;其中,音视频包括视频以及与视频同步的语音;
[0063]
本实施例对视听数据集提取与视频同步的音频。对于视频,选取三个不同分辨率,分别为原始分辨率(hr),阈值分辨率之下的分辨率(lr),介于原始分辨率与阈值分辨率之间分辨率(mr)。将视听数据集中的视频分辨率灰度化,将灰度化的视频分别降低至所选的三种分辨率。
[0064]
其中,视听数据集选择lrs3数据集、lrs2数据集与grid数据集,每个数据集被分为训练集、验证集与测试集,互不重叠。
[0065]
如图3所示,本实施例中,低侵入性视听语音分离模型包括视觉模态模型、音频编码器、分离器及音频解码器。
[0066]
s3、构建低侵入性视听语音分离模型包括;
[0067]
s31、构建视觉模态模型。
[0068]
如图4所示,为本发明实施例中的视觉模态模型结构图。本实施例中,视觉模态模型总体上分为两个支路,分别称为快支路与慢支路。两个支路使用相同的卷积神经网络,但以不同的帧速率处理同一段视频,并在不同的阶段进行横向连接。
[0069]
s32、慢支路以较大的时序跨度在一整段视频中获取稀疏的视频帧,这样低帧率的采样下主要获取人的颜、纹理等语义信息。若慢支路的采样率为t,时间跨度为τ(每隔τ帧图像序列处理一帧),原始视频长度为t*τ帧。
[0070]
s33、快支路与慢支路并行,但以较小的时间跨度在一整段视频中获取稠密的视频帧。快支路的时间跨度为τ/α(α》1),α为两支路的帧率比,即采样率为αt。α代表了两条支路对于同一视频在不同时间速度上的处理方式。
[0071]
其中,在快支路中不仅采用高采样率的输入,在整体网络中不对时间维度进行下采样(不进行池化与卷积)。同时快支路还具有较低的信道容量,慢支路的β(β《1)倍,对于空间的建模能力弱,含有空间语义信息少。
[0072]
本实施例中,τ=16/13,α=8,β=1/8。
[0073]
s34、两支路在每个“阶段”以横向连接的方式进行融合,使另外一条支路含有另外一条支路所提取的特征。
[0074]
本实施例中,横向连接具体在pool1、res2、res3和res4之后。最后,对每条支路的输出进行全局池化,将两个特征向量连接起来。去掉了最后的全连接层,网络具体实例化参数如表1所示,卷积核的维度用{t
×
s2,c}表示,t
×
s2表示时空大小,t其中是时间长度,s是一个正方形空间裁剪的高度和宽度,c是通道数。
[0075]
表1网络具体实例化参数
[0076][0077][0078]
s35、将特征沿时间维度进行上采样后得到视觉特征fv。最后通过卷积块注意力块进一步关注与音频特征相关的视觉特征。
[0079]
s36、将视觉模态模型嵌入到其他纯语音分离模型的方法中,得到低侵入性视听语
音分离模型。视觉特征与音频特征融合阶段采用串联融合方式。
[0080]
本实例化中,纯语音分离模型选择conv-tasnet,dprnn将本发明中所提视觉模态模型嵌入到其中构成低侵入性视听语音分离模型。视觉特征与音频特征的融合采用串联方式,串联后的视听融合特征送入分离器进行分离任务,音频解码器将分离器产生的掩码恢复为语音。
[0081]
s4、利用预处理后的数据训练视听语音分离模型包括;
[0082]
s41、在音频采样率8000hz下训练纯语音模型;
[0083]
s42、利用训练好的纯语音模型进行高分辨率(hr)下的增量训练视听语音分离模型,音频采样率为8000hz;
[0084]
s43、利用s42训练好的视听分离模型继续增量训练低分辨率(mr和lr)下的视听语音分离模型。
[0085]
实验设置:
[0086]
初始学习率为1-5
,批量大小(batch size)为1,优化器为adam优化器,学习率每隔两个epoch调整为原来的0.98倍。采用评价指标为尺度不变信噪比(si-snri)与信噪比(sdri)衡量分离出的说话人语音的质量。
[0087]
实施例结果:
[0088]
表2为本发明与纯语音分离模型对比结果;
[0089]
视觉模态模型对视觉信息提取是在视频原始分辨率、音频采样率为8000hz时。从表中我们可以看出,相比单模态语音分离模型,加入视觉模态模型的方法分离结果更好。这说明,当引入视觉信息时,由于唇部动态特征和声学特征之间的互补性使分离性能的到了提高。同时说明,视觉模态模型在嵌入到其他单模态分离方法中时,仍能够起到作用,与单模态相比多模态语音分离更具有效性。
[0090]
表2本发明与纯语音分离模型对比结果
[0091][0092]
表3为本发明在lrs3数据集中在不用分辨率下对比结果;可以看出在视频分辨率降低时,两种方法的分离性能并没有下降,甚至有所提升。我们猜测这是因为此时在低分辨率情况下,视频中与声学特征无关的信息被模糊,如脸部轮廓、颜、发型等,本视觉模态模型所提取唇部动态特征更加丰富。尤其是在分辨率为50
×
50时分离性能仍旧良好,这说明
了我们的方法能够在不侵犯用户隐私条件下良好的完成语音分离任务。
[0093]
表3本发明在lrs3数据集中在不用分辨率下对比结果
[0094][0095]
表4为本发明实施例在lrs2数据集中在不用分辨率下对比结果;与在lrs3数据集中结果类似,在视频分辨率降低时,两种方法的分离性能并没有下降,甚至有所提升。表5为本发明实施例在grid数据集中在不用分辨率下对比结果。
[0096]
表4本发明在lrs2数据集中在不用分辨率下对比结果
[0097][0098][0099]
表5本发明实施例在grid数据集中在不用分辨率下对比结果;
[0100][0101]
s5、将待分离的视听语音输入已训练好的所述视听语音分离模型中,分离出待分离的视听语音中的语音。
[0102]
本发明还提供了一种低侵入性的视听语音分离系统的实施例,其包括:
[0103]
分辨率获取模块,用于获取视频中不同目标对象的人脸图像之间不具备隐私侵入性的分辨率;
[0104]
预处理模块,用于基于不具备隐私侵入性的分辨率,选取多种分辨率的音视频训练数据集并预处理;其中,音视频包括视频以及与视频同步的语音;
[0105]
构建模块,用于构建低侵入性视听语音分离模型;
[0106]
训练模块,用于利用预处理后的数据训练视听语音分离模型;
[0107]
分离模块,用于将待分离的视听语音输入已训练好的视听语音分离模型中,分离出各目标对象的语音。
[0108]
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

技术特征:


1.一种低侵入性的视听语音分离方法,其特征在于,包括以下步骤:步骤1:获取视频中不同目标对象的人脸图像之间不具备隐私侵入性的分辨率;步骤2:基于不具备隐私侵入性的分辨率,选取多种分辨率的音视频训练数据集并预处理;其中,所述音视频包括所述视频以及与所述视频同步的语音;步骤3:构建低侵入性视听语音分离模型;步骤4:利用预处理后的数据训练视听语音分离模型;步骤5:将待分离的视听语音输入已训练好的所述视听语音分离模型中,分离出各目标对象的语音。2.根据权利要求1所述的方法,其特征在于,所述步骤1包括:步骤11、从视觉模态分别采集任意两个目标对象s1和s2的n个人脸图像并分别形成人脸图像序列;其中,所述人脸图像的分辨率为f
v
;步骤12、利用人脸特征提取器f
v
,分别对两个目标对象s1和s2对应的人脸图像序列进行特征提取,得到人脸特征序列和步骤13、绘制人脸特征聚类图,计算人脸特征序列和的视觉模态隐私侵入性大小z
v
;步骤14、降低人脸图像的分辨率,重复步骤12至步骤13,直到不能区分人脸特征聚类图中两个人脸特征聚类图中的类别为止,然后到对应人脸图像不具备隐私侵入性的分辨率。3.根据权利要求2所述的方法,其特征在于,在所述步骤13中:当f
v
低于阈值th
v
时,采用任意的特征提取器f
v
得到的两个目标对象的人脸特征均不具有差异性,即对于统计量两者之间的差别无统计学意义,则认为视觉模态不具备侵入性;其中,α
v
为置信度水平,n为两人采用的人脸图片数,为置信度水平,n为两人采用的人脸图片数,4.根据权利要求1所述的方法,其特征在于,所述步骤2包括:提取视听数据集中与视频同步的音频;对于视频,选取三种不同分辨率,分别为原始分辨率,不具备隐私侵入性的分辨率之下的分辨率,介于原始分辨率与不具备隐私侵入性的分辨率之间分辨率;将视听数据集中的视频分辨率灰度化,将灰度化的视频的分辨率分别降低至所选的三种分辨率。
5.根据权利要求4所述的方法,其特征在于,所述视听数据集选择lrs3数据集、lrs2数据集与grid数据集,且lrs3数据集、lrs2数据集与grid数据集分别被分为训练集、验证集与测试集,互不重叠。6.根据权利要求1所述的方法,其特征在于,所述步骤3包括:步骤31:利用深度神经网络构建视觉模态模型,步骤32:将视觉模态模型与多个纯语音分离模型结合,构成低侵入性视听语音分离模型。7.根据权利要求6所述的方法,其特征在于,在所述步骤31中:视觉模态模型总体分为快支路和慢支路,快支路和慢支路分别以不同的帧速率处理同一输入的视频,并在不同的阶段进行横向连接,最后通过卷积块注意力模块关注与音频特征相关的视觉特征。8.根据权利要求7所述的方法,其特征在于,所述慢支路以较大的时序跨度在一整段视频中获取稀疏的视频帧;若慢支路的采样率为t,时间跨度为τ,原始视频长度为t*τ帧;快支路与慢支路并行,以较小的时间跨度在一整段视频中获取稠密的视频帧;快支路的时间跨度为τ/α,α为两支路的帧率比,α>1,即采样率为αt;α代表两条支路对于同一视频在不同时间速度上的处理方式。9.根据权利要求6所述的方法,其特征在于,在所述步骤32中:视觉特征与音频特征的融合采用串联方式,串联后的视听融合特征送入分离器进行分离任务,音频解码器将分离器产生的掩码恢复为语音。10.一种低侵入性的视听语音分离系统,其特征在于,包括:分辨率获取模块,用于获取视频中不同目标对象的人脸图像之间不具备隐私侵入性的分辨率;预处理模块,用于基于不具备隐私侵入性的分辨率,选取多种分辨率的音视频训练数据集并预处理;其中,所述音视频包括所述视频以及与所述视频同步的语音;构建模块,用于构建低侵入性视听语音分离模型;训练模块,用于利用预处理后的数据训练视听语音分离模型;分离模块,用于将待分离的视听语音输入已训练好的所述视听语音分离模型中,分离出各目标对象的语音。

技术总结


本发明公开了一种低侵入性的视听语音分离方法及系统,该方法包括以下步骤:获取视频中不同目标对象的人脸图像之间不具备隐私侵入性的分辨率;基于不具备隐私侵入性的分辨率,选取多种分辨率的音视频训练数据集并预处理;构建低侵入性视听语音分离模型;利用预处理后的数据训练视听语音分离模型;将待分离的视听语音输入已训练好的视听语音分离模型中,分离出各目标对象的语音。本发明构建了一种新的视觉模态模型,将视觉特征的提取分为双支路结构,该结构同时融合了说话人的动态特征与语义特征,可在人脸图像分辨率不具备隐私侵入性的情况下有效关注可辅助语音分离的唇部动态特征,这使系统既能达到语音分离的目的又可以保护使用者的隐私信息。保护使用者的隐私信息。保护使用者的隐私信息。


技术研发人员:

王坤朋 李文娜 姚娟 刘忠仁 周浩 张江梅 冯兴华 张春峰

受保护的技术使用者:

西南科技大学

技术研发日:

2022.08.22

技术公布日:

2022/11/22

本文发布于:2024-09-20 12:19:28,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/795.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:语音   特征   分辨率   视听
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议