一种基于交叉注意力机制的说话人检测及字幕生成方法

1.本发明涉及主动说话人检测以及字幕生成技术领域，具体涉及一种基于交叉注意力机制的说话人检测及字幕生成方法。

背景技术：

2.通过语音传递信息是人类最重要、最有效、最常用和最方便的交换信息的形式。然而，听障人士存在着语音信息的传递障碍和接收障碍，因此无法有效地传递语音信息和获取语音信息。作为一种十分重要的信息传递媒介，视频给我们的日常生活增添了彩，为我们提供了便利。但是，视频中的重要信息大多都通过语音进行传递，故听障人士对于视频的理解较为困难。于是，如何帮助听障人士获取视频中的语音信息成为了近年来的研究热门。
3.近年来，随着深度学习的蓬勃发展，语音识别技术取得了较大的突破，各种基于语音识别的字幕生成器层出不穷。很多商业级的字幕生成器成功率已经达到95％以上。字幕生成器的出现，为听障人士提供了获取视频语音信息的渠道，在一定程度上便利了他们的生活。
4.然而，复杂的视频场景让现有的字幕生成器稍显力不从心。当视频存在着多个说话人时，现有的字幕生成器无法根据说话人生成对应的字幕，这会影响我们观看视频的体验；更重要的是，互联网上的视频质量参差不齐，现有的字幕生成器无法在夹杂着噪音的环境下保证字幕生成的准确性。综上，现有的字幕生成技术存在着以下技术难点：
5.(1)如何检测出视频中的说话人，以此来生成对应说话人的字幕。
6.(2)如何在复杂语音环境下利用视觉信息对字幕生成精度进行提升。
7.(3)如何让音频信息和视频信息能够进行有意义的相互学习，而不是简单的进行级联。

技术实现要素：

8.本发明的目的是提供一种基于交叉注意力机制的说话人检测及字幕生成方法，不仅能在多说话人的场景下生成对应说话人的字幕，而且能够在嘈杂的语音环境下保证字幕生成的准确性。
9.为实现上述目的，本发明提供了一种基于交叉注意力机制的说话人检测及字幕生成方法，包括以下步骤：
10.s1、获取ava-active speaker以及cmlr数据集，前者从好莱坞电影中收集制作而来，其包含大约365万个人类标记帧和大约38.5小时的面部轨迹以及相应的音频。其中每个人脸实例都被标记为说话与否，以及语音是否可听。cmlr数据集由浙江大学视觉智能与模式分析(vipa)课题组采集。该数据集由11位发言人的102072个句子组成，这些句子来自于2009年6月至2018年6月期间录制的国家新闻节目《新闻联播》。
11.s2、设计算法模型：一、前端模块：使用两种时间编码器提取音视频信息的时空特征。视觉时间编码器由视觉前端模块(3d-resnet18)和视觉时间模块(深度可分离卷积+
relu&bn)组成，旨在学习面部动态的长期表示。音频时间编码器由resnet-34网络以及se(squeeze-and-excitation)模块组成。其中resnet-34网络可以提取较深的音频特征，se模块则能让网络关注权重较大的特征通道，从而对音频信息进行有效的建模；二、后端模块：设计了一种交叉注意力机制，来动态描述视听交互。通过让前端模块产生的视觉特征和音频特征通过交叉注意力机制相互学习，产生两个新的特征：即学习了视觉特征的音频特征以及学习了音频特征的视觉特征。再将这两个特征进行元素级相乘之后经过一个自注意力机制层，得到增强的自注意力特征，最后应用全连接层，使用softmax操作将自注意力特征投影到一个主动说话人检测标签序列上。同时，将该自注意力特征经过transformer-decoder模块，来根据说话人生成对应的字幕。三、设计损失函数以及优化器。四、设计训练策略，构建主动说话人检测及字幕生成模型。
12.s3、对数据进行预处理，为了检测鲁棒模型在噪声环境下的主动说话人检测以及字幕生成性能，我们通过向数据中的所有音频添加noise_92噪声数据库中-5到20db的噪音音频。为了让我们的模型能更好的适应不同的噪声环境，我们从同批次的视频中随机选择音轨作为噪声进行语音增强。最后，将预处理之后的视频数据、音频数据、文本信息进行编码。
13.s4、使用设计的算法模型对预处理过的数据进行训练，得到训练模型。
14.s5、对主动说话人检测及字幕生成进行演示，将字幕生成结果显示在视频下方。
15.因此，本技术通过设计提出交叉注意力机制，通过设计模型的视觉时间编码器和音频时间编码器，在获取具有时空信息的音视频特征的同时，让音频信息和视频信息相互学习，让字幕生成器能够在多说话人场景下生成与说话人对应的字幕，并且在复杂的语音环境下仍能保持准确性。
16.下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。
附图说明
17.图1为本发明一种基于交叉注意力机制的说话人检测及字幕生成方法的流程图；
18.图2为本发明一种基于交叉注意力机制的说话人检测及字幕生成方法的完整网络图，其中，a表示说话人检测，b表示字幕生成；
19.图3为本发明一种基于交叉注意力机制的说话人检测及字幕生成方法中交叉注意力机制的详细结构图；
20.图4是一种基于交叉注意力机制的说话人检测及字幕生成方法的transformer解码器的详细结构图。
具体实施方式
21.以下通过附图和实施例对本发明的技术方案作进一步说明。
22.以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
23.实施例
24.参见图1，图1是本技术一个实施例提供的一种基于交叉注意力机制的说话人检测
及字幕生成方法流程图，该方法具体可以包括以下步骤：
25.步骤s1：获取ava-active speaker以及cmlr数据集。
26.步骤s2：图2是本技术提出的一种基于交叉注意力机制的说话人检测及字幕生成方法的完整网络。其中，a表示说话人检测，b表示字幕生成。网络前端由视觉时间编码器、音频时间编码器组成。其中视觉时间编码器用来对输入图像序列进行特征提取，并进行时间建模。音频时间编码器用来对音频波形进行特征提取。网络后端由交叉注意力机制层、自注意力机制层和一个transformer解码器构成。交叉注意力机制层可以让音频特征和视频特征相互学习，以此来动态对齐音频特征和视频特征。自注意力机制层用来对交叉注意力机制层的输出特征进行特征增强，并将增强后的特征通过softmax操作投影到一个主动说人检测标签序列上。解码器层则是对增强之后的特征进行解码，从而生成字幕。
27.首先，为了在提取说话人脸部粒度特征的同时对帧与帧之间的时间关系进行建模，我们向视觉时间编码器添加视觉前端模块，该模块由3d-resnet18构成，其中3d卷积层的卷积核大小为5
×7×
7。为了对整个视频序列的时间关系进行建模，我们引入了视觉时间模块，该模块由一个视觉时间卷积块以及一个一维卷积层组成。视觉时间卷积块共有5层，每一层都包含了深度可分离卷积层(ds-conv1d)、整流线性单元层(relu)、批量归一化层(bn)。同时，层与层之间采用残差的方式进行连接。一维卷积层用来降低特征维度。其次，对于音频信息，我们使用音频时间编码器进行特征提取。音频时间编码器由resnet-34网络以及se(squeeze-and-excitation)模块组成。其中resnet-34网络可以提取较深的音频特征，se模块则能让网络关注权重较大的特征通道，从而对音频信息进行有效的建模。对于后端模块，我们设计了两个沿时间维度的交叉注意力网络来动态描述视听交互。如图3所示，为了学习交互的新音频特征fa→v，注意力层应用fv作为目标序列生成查询向量qv，应用fa作为源序列生成键和值ka、va。为了学习新视频特征fv→a，注意力层应用fa作为目标序列生成查询向量qa，应用fv作为源序列生成键和值kv、vv。为了让注意力层的权重分布更加均衡，方便进行梯度更新，我们在查询向量和键值进行点乘之后除以如公式1、2所示：
[0028][0029][0030]
其中，表示输出的维度大小，为键值的转置。
[0031]
我们将fa→v和fv→a进行元素级相乘后输入到自注意力机制，得到一个增强的自注意力特征。之后应用全连接层，使用softmax操作将该注意力特征投影到一个主动说话人检测标签序列上。同时，我们将该特征输入至transformer解码器，来根据说话人生成对应的字幕。transformer解码器结构如图4所示。
[0032]
步骤s3:数据预处理。一、对于视频数据，我们将人脸序列设置为112
×
112的大小，我们通过随机翻转、旋转和裁剪原始图像来执行视觉增强；二、对于音频数据，为了让我们的模型能够在嘈杂的环境中能有好的表现，我们通过向数据中的所有音频添加noise_92噪声数据库中-5到20db的噪音音频；三、我们提出一种负采样方法，以此来增加噪音样本数量。我们在训练过程中使用一个视频作为输入数据，然后我们随机抽取同批次的另一个视
频，选择其音轨作为噪声，叠加到我们的输入视频的音轨上。该方法能极大地增加噪音的丰富性，使我们的模型得到更充分的训练。
[0033]
步骤s4:对预处理过的数据进行训练。我们的训练阶段分为两个步骤。首先，我们对我们的模型的transformer解码器模块进行冻结，专注使用ava-activespeaker数据集训练我们的主动说话人检测部分。训练完成之后，我们使用cmlr数据集，来训练字幕生成部分。一、我们将transformer解码器模块进行冻结，将进行冻结操作之后网络的输出输送至softmax层，对该网络和softmax层组成的网络整体进行端到端的训练，从而得到主动说话人检测部分的预训练权重。我们使用一个adam优化器进行优化，初始学习率η＝3e-4，权重衰减＝1e-4。我们只用了一张显卡进行训练，batch-size设为32。我们在80个训练周期上使用了cosine scheduler，采用cosine scheduler的好处是，我们可以从训练开始就降低学习率的同时也能够保持相对较大的学习率，这对训练有潜在的好处。二、步骤一训练完成之后，我们将transformer解码器进行解冻，将数据集更换为cmlr数据集，并使用相同的设置对字幕生成部分进行端到端的训练，从而得到字幕生成部分的预训练权重。
[0034]
步骤s5：对主动说话人检测及字幕生成进行演示：一、使用pyside2工具包设计好系统的ui界面，ui界面主要由视频显示区域构成。为了增加可用性，我们设置了播放、暂停、快进、快退以及音量调节、进度条、播放列表等模块。二、加载训练权重，加载模型，并将ui界面的按钮和代码中的函数匹配。三、点击“加载视频”按钮将视频导入系统。四、点击“添加噪音”按钮，将noise_92噪声数据库中-5到20db的噪音音频添加到待处理的视频中。五、加载网络，利用训练权重对添加噪音后的视频进行主动说话人检测以及字幕生成。六、将字幕生成结果显示在视频下方。
[0035]
本技术的有益效果为：首先，为了在提说话人脸部粒度特征的同时对帧与帧之间的时间关系进行建模，我们向视频时间编码器添加视觉前端模块，该模块由3d-resnet18构成，其中3d卷积层的卷积核大小为5
×7×
7。为了对整个视频序列的时间关系进行建模，我们引入了视觉时间模块，该模块由一个视觉时间卷积块以及一个一维卷积层组成。视觉时间卷积块共有5层，每一层都包含了深度可分离卷积层(ds-conv1d)、整流线性单元层(relu)、批量归一化层(bn)。同时，层与层之间采用残差的方式进行连接。一维卷积层用来降低特征维度。其次，对于音频信息，我们使用音频时间编码器进行特征提取。音频时间编码器由resnet-34网络以及se(squeeze-and-excitation)模块组成。其中resnet-34网络可以提取较深的音频特征，se模块则能让网络关注权重较大的特征通道，从而对音频信息进行有效的建模。在后端模块，我们设计了一种交叉注意力机制，通过让前端模块产生的视觉特征和音频特征通过交叉注意力机制相互学习，产生两个新的特征：即学习了视觉特征的音频特征以及学习了音频特征的视觉特征。通过该模块，可以让视频信息和音频信息实现动态对齐，从而提高模型在复杂环境下的主动说话人检测及字幕生成性能。
[0036]
最后应说明的是：以上实施例仅用以说明本发明的技术方案而非对其进行限制，尽管参照较佳实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对本发明的技术方案进行修改或者等同替换，而这些修改或者等同替换亦不能使修改后的技术方案脱离本发明技术方案的精神和范围。

技术特征：

1.一种基于交叉注意力机制的说话人检测及字幕生成方法，其特征在于，包括以下步骤：s1、获取数据集；s2、设计算法模型和训练策略，构建主动说话人检测及字幕生成模型；s3、对数据进行预处理和编码；s4、使用设计的算法模型对预处理过的数据进行训练，得到训练模型；s5、对主动说话人检测及字幕生成进行演示，将字幕生成结果显示在视频下方。2.根据权利要求1所述的一种基于交叉注意力机制的说话人检测及字幕生成方法，其特征在于，所述步骤s2中设计算法模型包括以下步骤：s2-1、构建前端模块；s2-2、前端模块产生的视觉特征以及音频特征通过后端模块的交叉注意力机制相互学习，得到学习了视觉特征的音频特征以及学习了音频特征的视觉特征，将学习了视觉特征的音频特征以及学习了音频特征的视觉特征进行元素级相乘之后经过一个自注意力机制层，得到自注意力特征，再将自注意力特征投影到一个主动说话人检测标签序列上，同时，将该自注意力特征经过transformer-decoder模块，根据说话人生成字幕；s2-3、设计损失函数以及优化器；s2-4、设计训练策略，构建主动说话人检测及字幕生成模型。3.根据权利要求2所述的一种基于交叉注意力机制的说话人检测及字幕生成方法，其特征在于：所述步骤s2-1中前端模块由视觉时间编码器和音频时间编码器组成。4.根据权利要求3所述的一种基于交叉注意力机制的说话人检测及字幕生成方法，其特征在于：所述视觉时间编码器由视觉前端模块以及视觉时间模块组成，所述视觉前端模块由3d-resnet18构成，视觉时间模块由一个视觉时间卷积块以及一个一维卷积层组成，所述视觉时间卷积块共有5层。5.根据权利要求4所述的一种基于交叉注意力机制的说话人检测及字幕生成方法，其特征在于：所述音频时间编码器由resnet-34网络以及se(squeeze-and-excitation)模块组成。6.根据权利要求1所述的一种基于交叉注意力机制的说话人检测及字幕生成方法，其特征在于：所述步骤s3中对数据进行预处理采用负采样方法来增加噪音样本数量。

技术总结

本发明公开了一种基于交叉注意力机制的说话人检测及字幕生成方法，涉及主动说话人检测以及字幕生成技术领域，包括以下步骤：(1)获取数据集；(2)设计算法模型，得到主动说话人检测及字幕生成模型；(3)对数据进行预处理；(4)使用设计的主动说话人检测及字幕生成模型对预处理过的数据进行训练，得到训练模型；(5)对主动说话人检测及字幕生成进行演示，将字幕生成结果展示在视频下方。通过设计模型的视觉时间编码器和音频时间编码器，在获取具有时空信息的音视频特征的同时，应用交叉注意力机制让音频信息和视频信息相互学习，让字幕生成器能够在多说话人场景下生成与说话人对应的字幕，并且在复杂的语音环境下仍能保持准确性。并且在复杂的语音环境下仍能保持准确性。并且在复杂的语音环境下仍能保持准确性。