一种基于特征融合的陆空通话说话人角识别方法及装置



1.本发明涉及民用航空空中交管理语音通信领域,特别是一种基于特征融合的陆空通话说话人角识别方法及装置。


背景技术:



2.空中交通管制员和飞行员之间的语音通信是空中交通管理领域中最重要的交互方式之一,也是保证空中交通管理有效实施的基本手段。由于空中交通管制员通过无线电在单一频率上与几个飞行员通信,因此说话人角很难从通信数据链中区分开来。根据国际民用航空组织(international civil aviation organization,icao) 推荐的通信规则,空中交通管制员向目标飞机发送指令前会先呼叫飞机呼号,飞行员先复诵指令然后报告他们的呼号。一般来说,大部分的管制员-飞行员语音通信遵循这些规则,这使得基于文本信息对说话人角进行分类的方法行之有效。而语音可以被认为是说话者的另一种表征:一方面,空中交通管制员和飞行员在进行语音通信时所使用的设备和所处的环境不同,其设备信号特征和背景环境噪声等不同;另一方面,管制员-飞行员语音通信信号隐含着其他表征信息,这意味着它将进一步为说话人角识别任务提供了更多的鉴别知识。
3.近年来,基于语音语义理解的应用在空中交通管理领域中受到了广泛的关注与研究,例如基于语音语义理解的空管安全检测系统、空中交通管制员工作量分析系统等。其中,说话人角在空管语音语义理解中是一种不可缺少的关键信息,但无法直接从通信数据链中区分说话人角信息,在一定程度上给空管语音相关的应用带来了挑战。
4.根据陆空通话语音的特点,目前常用于完成陆空通话说话人角识别任务的方法主要有基于文本的说话人角识别和基于语音的说话人角识别等单模态说话人角识别方法,但基于文本的方法的性能通常依赖于空中交通管理语法,而基于语音的方法与通信环境(设备和背景噪声等)密切相关。如果语音指令偏离预定义的空中交通管理语法,基于文本的方法的性能将显著降低。类似地,当基于语音的方法在看不见的数据集上工作时(即新数据集没有被训练集覆盖),其准确性将会很差。
5.因此,本发明提出一种基于语音-文本特征融合的陆空通话说话人角识别方法及装置,旨在解决陆空通话场景中存在不能高效准确识别说话人角信息的难题,进一步提升空管口语指令理解系统性能,提高空中交通管制员和飞行员之间沟通交流的效率。


技术实现要素:



6.本发明的目的在于克服现有技术中所存在的上述不足,提供一种基于特征融合的陆空通话说话人角识别方法及装置。
7.为了实现上述发明目的,本发明提供了以下技术方案:一种基于特征融合的陆空通话说话人角识别方法,包括以下步骤:s1:实时接收陆空通话的语音信号,并对所述语音信号进行降噪处理;s2:持续监听并从降噪处理后的所述语音信号中提取出包含人声的单句语音片
段;s3:将所述单句语音片段转录为文本信息;s4:将所述单句语音片段以及所述文本信息输入到预构建的多模态说话人角识别模型中进行识别,所述多模态说话人角识别模型分别从所述单句语音片段和所述文本信息中提取语音特征表示和文本特征表示,并根据所述语音特征表示和所述文本特征表示输出所述语音信号对应的说话人角信息;其中,所述说话人角信息包括管制员以及飞行员;所述多模态说话人角识别模型的构建包括以下步骤:a:基于深度神经网络构建多模态说话人角识别初步模型;所述多模态说话人角识别初步模型包括文本预训练模块、语音预训练模块以及基于模态注意力机制的分类模块;b:设置所述多模态说话人角识别初步模型的超参数初始值以及训练参数;c:通过标注说话人角信息的语料训练所述多模态说话人角识别初步模型,网络收敛后输出为多模态说话人角识别模型。本发明提出了一种基于特征融合的陆空通话说话人角识别方法,通过综合考虑陆空通话语音信号的特征表示和文本信息的特征表示,提高了陆空通话语音中说话人角识别的准确率,解决了陆空通话中说话人角识别的难题,为空管安全防护、空管数据分析、空管业务培训等应用提供相对应的说话人角信息。
8.作为本发明的优选方案,所述步骤s1中所述降噪处理采用卡尔曼滤波算法。
9.作为本发明的优选方案,所述步骤s2包括以下步骤:s21:对降噪处理后的所述语音信号进行预处理;所述预处理包括归一化、预加重、加窗和分帧操作;s22:按照预设时间值将预处理后的所述语音信号分为若干单句语音片段,获取并输出所述单句语音片段中带有人声的所述单句语音片段。
10.作为本发明的优选方案,所述步骤s2中提取操作通过预构建的语音活动检测模型实现;所述语音活动检测模型包括特征提取模块和分类判决模块;所述特征提取模块包括若干组相互连接的卷积层和池化层;所述卷积层用于提取特征向量;所述池化层用于防止过拟合;所述分类判决模块包括若干全连接层以及一个输出层;所述全连接层用于对所述特征向量进行全局整合;所述输出层用于根据全局整合后的所述特征向量,提取并输出包含人声的单句语音片段。
11.作为本发明的优选方案,所述步骤s3中转录操作通过预训练的语音识别模型实现;所述语音识别模型为cnn-rnn-ctc架构,包括卷积神经网络层、循环神经网络层和全连接层。
12.作为本发明的优选方案,所述步骤s3包括以下步骤:s31:对所述单句语音片段进行分帧和加窗处理后,提取语谱图特征;s32:将所述语谱图特征输入到所述语音识别模型,转录出所述语谱图特征对应的文本信息。
13.作为本发明的优选方案,所述文本预训练模块采用mask任务进行模型训练,用于从所述文本信息中提取文本特征表示获取;所述文本预训练模块包括embedding单元、transformer单元和预测层;所述embedding单元包括词嵌入层和位置嵌入层;所述词嵌入层用于将各个文本词汇转换成固定维度的向量;所述位置嵌入层用于为不同位置的同一文本词汇赋予不同的向量表示;所述transformer单元由若干编码器单元组成;所述预测层用于预测被mask掉的文本单元,以驱动神经网络学习文本特征的高维表示。作为本发明的优选方案,所述语音预训练模块采用自监督学习进行模型训练,用于从所述单句语音片段中提取语音特征表示;所述语音预训练模块包括动态卷积音频特征提取器、编码器、transformer单元和量化器;所述动态卷积音频特征提取器包括三个串联的动态卷积单元,所述动态卷积单元抽取高维的初步语音特征的步骤包括:将第一动态卷积单元的输出和第二动态卷积单元的输出通过残差链接相加后再输入第三动态卷积单元处理后输出初步语音特征;所述编码器包括若干卷积神经网络层,用于提取所述初步语音特征的潜在语音表征信息;所述transformer单元用于获取上下文表征信息;所述量化器用于构造自监督训练目标;所述语音预训练模块包括以下运行步骤:通过所述动态卷积音频特征提取器从所述单句语音片段中提取初步语音特征;再通过所述编码器提取所述初步语音特征的潜在语音表征信息;然后分别通过所述transformer单元和所述量化器获取所述潜在语音表征信息中的深层表征信息和量化表征后;输出所述单句语音片段对应的语音特征表示。本发明提出了文本预训练模块和语音预训练模块,分别用于对文本信息和语音信号进行特征提取。相比于单个普通cnn网络,预训练模块的特征提取能力更强,也更能充分发挥数据驱动的优势,发现大量数据中的潜在特征,从而有效地提高了角识别的准确度。
14.作为本发明的优选方案,所述分类模块用于根据所述语音特征表示和所述文本特征表示输出所述语音信号对应的说话人角信息;所述分类模块包括模态注意力机制单元、池化层以及分类器:所述模态注意力机制单元用于融合所述语音特征表示和所述文本特征表示的高维特征表示;其运算式为:;
其中,为预设的可训练参数,tanh为激活函数,为时间步为时所述语音特征表示和所述文本特征表示之间的相关向量,所述语音特征表示的向量为,所述文本特征表示的向量为,分别为所述语音预训练模块和所述文本预训练模块输出特征表示的向量的序列长度;为通过softmax函数产生模态注意力权重;为时间步为时的语音特征表示和时间步为时的文本特征表示之间的相关分数;为时间步变量,;所述池化层用于将所述高维特征表示池化为一维特征向量;所述分类器用于根据所述一维特征向量进行说话人角识别分类,输出对应的说话人角信息;所述分类器包括具有两个输出节点的全连接层和softmax激活函数单元。
15.一种基于特征融合的陆空通话说话人角识别装置,包括至少一个处理器,至少一个与所述至少一个处理器通信连接的信号接收器,以及与所述至少一个处理器通信连接的存储器;所述信号接收器用于接收语音信号,并将所述语音信号发送到所述处理器进行处理,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述任一项所述的方法。
16.与现有技术相比,本发明的有益效果:1.本发明提出了一种基于特征融合的陆空通话说话人角识别方法,通过综合考虑陆空通话语音信号的特征表示和文本信息的特征表示,提高了陆空通话语音中说话人角识别的准确率,解决了陆空通话中说话人角识别的难题,为空管安全防护、空管数据分析、空管业务培训等应用提供相对应的说话人角信息。
17.2.本发明提出了文本预训练模块和语音预训练模块,分别用于对文本信息和语音信号进行特征提取。相比于单个普通cnn网络,预训练模块的特征提取能力更强,也更能充分发挥数据驱动的优势,发现大量数据中的潜在特征,从而有效地提高了角识别的准确度。
附图说明
18.图1为本发明实施例1所述的一种基于特征融合的陆空通话说话人角识别方法的流程示意图。
19.图2为本发明实施例2所述的一种基于特征融合的陆空通话说话人角识别方法中语音信号接入模块的组成示意图。
20.图3为本发明实施例2所述的一种基于特征融合的陆空通话说话人角识别方法中基于卷积神经网络的语音活动检测模型的结构示意图。
21.图4为本发明实施例2所述的一种基于特征融合的陆空通话说话人角识别方法中语音识别模型的结构示意图。
22.图5为本发明实施例2所述的一种基于特征融合的陆空通话说话人角识别方法中多模态说话人角识别模型的组成结构示意图。
23.图6为本发明实施例2所述的一种基于特征融合的陆空通话说话人角识别方法中空中交通管理领域飞行员和管制员语音的声谱图。
24.图7为本发明实施例2所述的一种基于特征融合的陆空通话说话人角识别方法中动态卷积音频特征提取器的结构示意图。
25.图8为本发明实施例4所述的一种利用了实施例1所述的一种基于特征融合的陆空通话说话人角识别方法的一种基于特征融合的陆空通话说话人角识别装置的结构示意图。
具体实施方式
26.下面结合试验例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例,凡基于本发明内容所实现的技术均属于本发明的范围。
27.实施例1如图1所示,一种基于特征融合的陆空通话说话人角识别方法,包括以下步骤:s1:实时接收陆空通话的语音信号,并对所述语音信号进行降噪处理;其中,所述降噪处理采用卡尔曼滤波算法。
28.s2:持续监听并从降噪处理后的所述语音信号中提取出包含人声的单句语音片段;s3:将所述单句语音片段转录为文本信息;s4:将所述单句语音片段以及所述文本信息输入到预构建的多模态说话人角识别模型中进行识别,所述多模态说话人角识别模型分别从所述单句语音片段和所述文本信息中提取语音特征表示和文本特征表示,并根据所述语音特征表示和所述文本特征表示输出所述语音信号对应的说话人角信息;其中,所述说话人角信息包括管制员以及飞行员;所述多模态说话人角识别模型的构建包括以下步骤:a:基于深度神经网络构建多模态说话人角识别初步模型;所述多模态说话人角识别初步模型包括文本预训练模块、语音预训练模块以及基于模态注意力机制的分类模块。
29.b:设置所述多模态说话人角识别初步模型的超参数初始值以及训练参数。
30.c:通过标注说话人角信息的语料训练所述多模态说话人角识别初步模型,网络收敛后输出为多模态说话人角识别模型。
31.根据以上的方案,本发明可以结合大数据、云计算等其他手段,辅助空管机构快速分类统计空中交通管制员和飞行员的语音信息,用于深入分析研究(如管制员工作量统计、空中交通通信用语规范培训、空中交通通信链路优化等),从而提高空管从业人员日常工作效率。在飞行事故复盘分析时,本发明可以辅助空管机构对空中交通管制员和飞行员语音通信进行分析,辅助判断每条语音相对应的说话人角,有利于快速区分各方责任,分析事故原因,制定改进措施,从而提高管制安全系数和空管指挥效率。
32.实施例2本实施例为实施例1所述方法的一种具体实施方式,包括以下步骤:s1:实时接收陆空通话的语音信号,并对所述语音信号进行降噪处理;其中,所述降噪处理采用卡尔曼滤波算法。
33.此步骤目的在于采集陆空通话的语音信号,本实施例中后面建立采用的语料库a是从真实空管环境中采集然后手动标注的,语料库a中大约有26.52小时(25765条)的管制员语音和31.29小时(35895条)飞行员的语音。在标注过程中,少部分没有说话者角信息的语音被标记为unknown,并被排除在本实例之外。语料库a中所有样本的采样率均为8000hz。
34.为了进一步评估本发明中所用方法的性能和鲁棒性,在评估阶段除了使用了语料库a中的测试集a外,还引入了一段实时空管语音流作为补充的测试集b。该段实时空管语音流是从另一个不同的空中交通管理中心收集,不在测试集a的覆盖范围内。实时空管语音流的总持续时间约为2小时(1930条语音),语音的标签也是手动标注的。引入测试集b的主要目的是评估模型对于未知空中交通管理环境的稳健性。在训练阶段,本实施例中所使用模型都通过测试集a进行训练,并在测试集b上调整参数。
35.本实施例接收语音信号采用语音信号接入模块,其结构如图2所示,具体的,所述语音信号接入模块包括以下功能:1)所述语音信号接入模块包含线性接入和无线电接收两种语音信号两种接入模式,并支持线性输出和语音播放监听两种输出模式。
36.线性接入是指通过输入模块中线性接入模块的线性输入接口(如3.5mm音频口)接入模拟语音信号;无线电接收是通过输入模块中内置的无线电模块,通过调频旋钮选定对应的陆空通话频段接收语音信号。
37.输出模块由一块声卡和功放两部分组成,无论是线性接入或者无线电接入,语音信号首先接入声卡对输入语音进行预处理,并由语音信号接入模块的输出接口输出。当处于语音播放监听模式时,输出信号分出一路接到功放设备上并播放语音。
38.2)所述语音信号接入模块包含语音信号降噪功能,具体采用卡尔曼滤波器对输入语音信号进行降噪处理。
39.卡尔曼滤波器是一种针对离散线性系统状态的最小均方差估计,它采用了噪音和系统状态的统计学信息,以最小化均方差为优化目标,来给出原输入信号的最优估计。卡尔曼滤波器既可以用于平稳过程,也可以处理复杂的非平稳过程,一般形式的卡尔曼滤波方程表示如下:(1)一步预测方程:;(2)k时刻均方误差的预测方程:;(3)计算滤波增益:;(4)一步预测的方差阵计算:
;(5)估计方差阵计算:;上述卡尔曼滤波方程组中,是指时刻的系统状态;是指时刻系统状态观测值;是指用时刻的观测来对时刻的状态进行估计;是指从时刻到时刻的状态转移矩阵;是指在获得后对的最小方差估计;是指线性最小方差估计;是指时刻系统的量测矩阵;是指的方差阵;是指观测噪声的方差阵;是指的方差阵;是指时刻的噪声驱动矩阵;是指状态方程的噪声的方差阵;是指的方差阵;是指单位矩阵;上标是指转置矩阵。
40.s2:持续监听并从降噪处理后的所述语音信号中提取出包含人声的单句语音片段。
41.s21:对降噪处理后的所述语音信号进行预处理;所述预处理包括归一化、预加重、加窗和分帧操作。
42.s22:按照预设时间值将预处理后的所述语音信号分为若干单句语音片段,获取并输出所述单句语音片段中带有人声的所述单句语音片段。
43.所述步骤s2中提取操作通过预构建的语音活动检测模型实现。如图3所示,所述语音活动检测模型基于卷积神经网络架构搭建,具体由1层输入层,若干层卷积层、若干层池化层组成、若干层全连接层和1层输出层组成,且每层卷积层之后都接有1层池化层。
44.其中,若干组相互连接的卷积层和池化层构成了特征提取模块,所述卷积层用于提取特征向量,其主要特征是其包含局部感受野和权值共享机制,局部感受野和权值共享机制是卷积神经网络针对全连接神经网络处理词向量矩阵出现参数量过多、占用资源大、计算时间长等问题而提出的改进方法,最终目的是减少网络参数和计算量。池化层主要进行池化操作,池化操作实质上是一种下采样操作,其作用主要是提取区域内最具代表性的特征,降低特征的输出维度从而降低参数量。
45.若干全连接层以及一个输出层组成了分类判决模块。通过特征提取模块得到文本的特征向量表示,之后全连接层负责将上层提取并映射得到的高维特征信息进行全局整合。所述输出层用于根据全局整合后的所述特征向量,提取并输出包含人声的单句语音片段。
46.s3:将所述单句语音片段转录为文本信息;所述转录操作通过预训练的语音识别模型实现。
47.s31:对所述单句语音片段进行分帧和加窗处理后,提取语谱图特征;其中,所述语谱图的帧长为25ms、步长为15ms、维度为80维。
48.s32:将所述语谱图特征输入到所述语音识别模型,转录出所述语谱图特征对应的文本信息。
49.如图4所示,所述语音识别模型为cnn-rnn-ctc架构,包括卷积神经网络层、循环神
经网络(recurrent neural network, rnn)层和全连接层,且所述模型使用ctc(connectionist temporal classification,时序链接主义)损失函数进行优化。其中,所述模型的输入为25ms、步长为15ms、80维的语谱图特征;模型采用端到端的建模范式,以中文汉字和英文字母作为基本建模单元,即给定输入语音特征,模型经过解码后直接输出对应的转录文本。所述模型通过训练集a进行模型训练。
50.s4:将所述单句语音片段以及所述文本信息输入到预构建的多模态说话人角识别模型中进行识别,所述多模态说话人角识别模型分别从所述单句语音片段和所述文本信息中提取语音特征表示和文本特征表示,并根据所述语音特征表示和所述文本特征表示输出所述语音信号对应的说话人角信息。所述多模态说话人角识别模型的构建过程如下:a:基于深度神经网络构建多模态说话人角识别初步模型。所述多模态说话人角识别初步模型包括文本预训练模块、语音预训练模块以及基于模态注意力机制的分类模块,如图5所示,具体组成结构如下:1)文本预训练模块:基于文本的说话人角识别方法的核心思想是基于国际民用航空组织发布的空中交通管理通话规则,空中交通管制员和飞行员都应该用严格的程式化句子说话。空中交通管制员必须在说出指令的细节之前指出目标航班的呼号。相反,飞行员在复述程序中的指令后报告他们的呼号。然而在实践中,一些空中交通管理指令违反了空中交通管理通话规则(例如飞行员指令以呼号开始),这给基于文本的方法带来了额外的负担。总之,空中交通管理语法规则是基于文本的说话人角识别方法的理论基础,该方法能够在说话人角识别任务中取得较好的效果。对于违背空中交通管理规则的语音指令,期望该模型从大量数据集中学习区分特征表示。故在本实例的多模态说话人角识别网络中,设计一个bert模型的训练模块用于学习基于文本的高级表示。
51.所述文本预训练模块采用mask任务进行模型训练,用于从所述文本信息中提取文本特征表示获取;所述文本预训练模块包括embedding单元、transformer单元和预测层;所述embedding单元包括词嵌入层和位置嵌入层;所述词嵌入层将各个词转换成固定维度的向量,每个序列的首部始终是cls标志,其表示为(1,n,768);所述位置嵌入层的作用是让文本预训练模块理解不同位置的同一个词应该有着不同的向量表示,克服transformers无法编码输入序列的顺序性的缺点,位置嵌入层不是固定位置编码,而是通过学习得出的,其表示为(1,n,768)。
52.所述transformer单元由若干编码器单元组成;本实施例只使用经典transformer架构中的编码器部分,完全舍弃解码器部分,具有12个隐藏层,输出768维向量,共有12个自注意力头。
53.所述预测层:经过中间层transformer的处理后,所述预测层根据任务需求的不同而做出相应调整。
54.文本预训练模块采用mask的方式进行训练,即对于每一句输入的文本,随机地选择一些词作为要预测的对象,然后使用某个特殊的符号(如[mask])来代替它们,之后文本预训练模块会根据原来正确的标签去学习被替换的地方该填的词。该mask任务的过程为:(1)在原始训练文本中,随机抽取15%的词作为参与mask任务的对象。
[0055]
(2)在这些被选中的词中,数据生成器并不是把它们全部变成[mask]标记,而是分为3种情况:一是在80%的概率下,用[mask]标记替换选中的词;二是在10%的概率下,用一个随机的单词替换所选中的词;三是在10%的概率下,保持选中的词不变。
[0056]
(3)文本预训练模块在高度不确定的情况下,尽最大努力学习该词在上下文中的语义,同时因为参与mask操作的词比较少,仅占原始文本的15%,所以该操作对原来语言的表达能力和语言规则的影响并不大。
[0057]
2)语音预训练模块:在空中交通管理领域,管制员-飞行员通信的语音通过甚高频无线电话传输,其中空中交通管制员的语音是地对空的,而飞行员的语音是空对地的。因此,双方使用的无线电收发设备、麦克风设备和所在环境(控制室和飞机驾驶舱)的背景噪声均不相同,而这些不同特征将出现在语音信号中。如图6所示,在空中交通管理语音的声谱图中,飞行员和管制员语音特征强度分布在不同的频率上。例如,在3000hz以上,空中交通管制员语音的频率能量分布比飞行员的更强。在本实施例中,针对不同的语音给出了不同的背景噪声模型,具体来说,飞行员语音的背景噪声分布是均匀的,而空中交通管制员的背景噪声分布是不稳定的。
[0058]
为充分利用上述语音信息中的关键特征,本发明设计了一种语音预训练模块,其特征在于它使用了自监督学习的方法来学习音频的表征信息。所述语音预训练模块用于从所述单句语音片段中提取语音特征表示;所述语音预训练模块包括动态卷积音频特征提取器、编码器、transformer单元和量化器。
[0059]
所述动态卷积音频特征提取器包括三个串联的动态卷积单元,其设计原理如图7所示,其主要用于解决在陆空通话语音中往往语速较快,并常常伴随不稳定噪声的环境条件下提取语音信号特征的难题。该提取器中使用的卷积层与深度学习中常用的卷积层不同,动态卷积使用一组并行卷积核,而不是每层使用单个卷积核。对于每个单独的语音信号输入,这些并行卷积核通过输入依赖注意力机制实现动态聚合。并行卷积内核通过聚合共享输出通道,它不会增加网络的深度或宽度。常见静态卷积的感知器可表示为:,其中和分别是权重矩阵和偏差矩阵,为转置行列符号,是激活函数(如relu函数、sigmoid函数、tanh函数等),和分别为动态卷积的输入和输出。根据动态卷积感知器的工作原理,可定义其线性方程如下:;其中,和是由k个卷积核动态聚合而得,k为超参数:;并且,满足以下约束条件:;是第k个线性方程的注意力权重,聚合权重和偏差是输入的函数,并且具有相同的注意力。注意力权重不是固定的,而是因输入而异。
[0060]
动态卷积中的注意力机制,应用挤压和激励(squeeze-and-excitation,se)来计
算内核注意力,全局空间信息首先被全局平均池化压缩,然后使用两个全连接层(它们之间有一个relu函数)和softmax函数来生成归一化的卷积核的注意力权重。所述全连接层的神经元数目与语音识别的词表大小相同。
[0061]
所述动态卷积音频特征提取器由三个动态卷积单元构成,每个动态卷积单元抽取高维音频特征的步骤包括:首先,动态卷积层中的k个卷积核首先对输入的音频特征进行卷积操作,得到一系列的特征表示向量,动态卷积中的注意力机制将k个卷积核的特征聚合在一起,并输出至下一层神经网络当中。其中,k为神经网络模型的超参数。
[0062]
其次,动态卷积的输出被馈入批标准化(batch normalization,bn)层,以减少正则化的需求,加快网络收敛,同时也能够较好地防止在训练时发生梯度爆炸或者梯度消失的问题,防止模型过拟合。
[0063]
最后,在批标准化层之后使用relu非线性激活函数,对动态卷积层的输出作非线性变换,并输出至下一个神经网络模块。
[0064]
所述动态卷积音频特征提取器第一动态卷积单元的输出和第二动态卷积单元的输出通过残差链接相加后再输入第三动态卷积单元,以增强模型的特征抽取能力。
[0065]
所述编码器包括若干卷积神经网络层,每个卷积神经网络层中均包含层标准化(layer normalization,ln)和激活函数,用于提取所述初步语音特征的潜在语音表征信息。
[0066]
所述transformer单元用于获取上下文表征信息;使用自注意力机制,让语音预训练模块充分考虑全局信息后产生输出,而不局限于只看到历史信息。
[0067]
所述量化器用于构造自监督训练目标。所述量化器将原来d维的连续空间,拆分成g个子空间,每个子空间的维度是d/g,分别在每个子空间中聚类,获得v个中心及其中心特征,使用中心特征代替每个类别的特征。最终将无限的特征表达空间坍缩成有限的离散空间,让特征的鲁棒性更强,不受少量扰动的影响。
[0068]
所述语音预训练模块包括以下运行步骤:通过所述动态卷积音频特征提取器从所述单句语音片段中提取初步语音特征;再通过所述编码器提取所述初步语音特征的潜在语音表征信息;然后分别通过所述transformer单元和所述量化器获取所述潜在语音表征信息中的深层表征信息和量化表征后;输出所述单句语音片段对应的语音特征表示。
[0069]
3)基于模态注意力机制的分类模块:所述分类模块用于根据所述语音特征表示和所述文本特征表示生成说话人角的最终概率,输出所述语音信号对应的说话人角信息。所述分类模块包括模态注意力机制单元、池化层以及分类器。
[0070]
给定语音预训练模块输出的向量为,文本预训练模块的输出向量为,其中分别为所述语音预训练模块和所述文本预训练模块输出特征表示的向量的序列长度,则基于模态注意力机制得到的高维特征表示的递推公式如下:首先,使用score打分函数计算出时间步的语音特征和时间步的文本特征之间
的相关分数:;是可训练的参数,为时间步变量,;其次,通过softmax函数产生模态注意力权重:;然后,通过加权求和操作计算出时间步的语音特征和文本特征之间的相关向量:;最后,按照公式融合特征生成高维特征表示:;是可训练参数、tanh是激活函数。
[0071]
模态注意机制的目的是计算文本表征和声学表征之间的相关性表征,从而增强隐含的文本信息与听觉表征中的与说话人角识别任务相关的特征,尤其是呼号的位置和语义特征。
[0072]
所述池化层用于将所述高维特征表示池化为一维特征向量;所述分类器用于根据所述一维特征向量进行说话人角识别分类,输出对应的说话人角信息;所述分类器包括具有两个输出节点的全连接层和softmax激活函数单元。
[0073]
b:设置所述多模态说话人角识别初步模型的超参数初始值以及训练参数(如损失函数,学习率等)。
[0074]
c:通过标注说话人角信息的语料(即训练集a)训练所述多模态说话人角识别初步模型,网络收敛后输出为多模态说话人角识别模型,并在训练集b上测试所述模型的性能。
[0075]
实施例3将词嵌入的维数设置为512,分类器中2个全连接层的神经元数量分别设置为256和2。特征编码器和模态融合模块输出的维数均设置为512。
[0076]
在基于语音的方法的实验中,通过80个具有25毫秒窗口和15毫秒步长的对数滤波器组来产生语谱图。由于语料库a的多语言特性,在基于文本的方法中,用中文字符和英文单词作为基本词汇表。词汇表中有1284个标记,包括698个汉字,584个英语单词,以及两个特殊标记,即《 pad 》、《 unk 》。
[0077]
在本实例中,使用开源的深度学习框架pytorch 1.4.0来构建和训练所有模型。服务器配置如下:安装ubuntu 16.04操作系统,配备两块nvidia geforce rtx 2080ti gpu、一个英特尔至强e5-2630 cpu和128 gb内存。使用初始学习率为10-4
的adam优化器来完成训练任务,使用交叉熵作为损失函数。
[0078]
为验证实验结果,在实施例中,分别设计了基于文本的说话人角识别方法和基
于语音的说话人角识别方法与本发明提出的方法作对比:基于文本的方法,描述如下:(1)textcnn:使用三个含有不同卷积核的cnn块来从原始文本中提取位置特征信息。然后,通过将cnn块的输出级联起来产生特征图。cnn块中包含conv2d层、relu激活函数和池化层。卷积滤波器的大小设置为(3,4,5),对应不同的感受野。
[0079]
(2)transformer:主干网络由4个transformer块组成,其中每个模块包含多头注意力机制模块、层标准化和位置前馈方向网络组成。在本实例中,我们在注意力模块中采用4个注意力头,前馈层的维数设置为512。
[0080]
基于语音的方法,描述如下:(1)x-vector:x-vector模型用于提取说话人识别的dnn嵌入特征。在本实例中,将前端的x-vector模型当做特征编码器,其中包括4个时延深度神经网络层和一个统计池层。时延深度神经网络层主要学习帧级表示,统计汇总层(statistic pooling layer)将其聚合到句子级嵌入特征表示。
[0081]
(2)sincnet:sincnet是一种新颖有效的cnn架构,其使用原始波形作为输入,用以完成说话人语音识别任务。在sincnet模块中,应用带通滤波器代替标准cnn滤波器对波形进行卷积,与cnn模块相比,它具有更好的性能且更容易收敛。
[0082]
空中交通管制员和飞行员的样本在语料库a中是不平衡的,如表1所示,本实例中所有模型的性能都通过模型在测试集上的准确度(acc)和f1分数(f1-score)来测量。具体来说,准确度指标用于考虑被正确预测的样本的比率,而f1分数是是统计学中用来衡量二分类模型精确度的一种指标,在本实施例中计算这些度量标准时,将飞行员语音视作正类。
[0083]
表1 各类模型在测试集a和测试集b上的性能实验结果如表1所示,基于文本的方法中,对于所提出的单模态说话人角识别框架,两个文本为主模型取得了不相上下的性能,在测试集a上准确率为96%-97%。然而,f1分数在测试集b上显著降低,即大约降低了2%。基于语音的方法的性能通常优于基于文本的方法,它们都实现了超过97%的准确率。
[0084]
对于所提出的多模态说话人角识别框架,实验结果表明,同时利用语音和文本模态特征是一种可行的说话人角识别任务方法。提出的多模态说话人角识别网络在测试集a和测试集b上都得到了最好的准确性和f1-得分,分别实现了98.56%、98.08%的准确率和98.87%、98.39%的f1得分。此结果可以理解为,在说话人角识别任务中,空中交通管理语音的声学特征和文本特征互为补充。此外,通过模态注意机制,多模态说话人角识别网络可以适当地考虑语音的声学特性和空中交通管理语法。
[0085]
实施例4如图8所示,一种基于特征融合的陆空通话说话人角识别装置,包括至少一个处理器,至少一个与所述至少一个处理器通信连接的信号接收器,以及与所述至少一个处理
器通信连接的存储器;所述信号接收器用于接收语音信号,并将所述语音信号发送到所述处理器进行处理,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行前述实施例所述的一种基于特征融合的陆空通话说话人角识别方法。所述输入输出接口可以包括显示器、键盘、鼠标、以及usb接口,用于输入输出数据;电源用于为基于特征融合的陆空通话说话人角识别装置提供电能。
[0086]
本领域技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(read only memory,rom)、磁碟或者光盘等各种可以存储程序代码的介质。
[0087]
当本发明上述集成的单元以软件功能单元的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、rom、磁碟或者光盘等各种可以存储程序代码的介质。

技术特征:


1.一种基于特征融合的陆空通话说话人角识别方法,其特征在于,包括以下步骤:s1:实时接收陆空通话的语音信号,并对所述语音信号进行降噪处理;s2:持续监听并从降噪处理后的所述语音信号中提取出包含人声的单句语音片段;s3:将所述单句语音片段转录为文本信息;s4:将所述单句语音片段以及所述文本信息输入到预构建的多模态说话人角识别模型中进行识别,所述多模态说话人角识别模型分别从所述单句语音片段和所述文本信息中提取语音特征表示和文本特征表示,并根据所述语音特征表示和所述文本特征表示输出所述语音信号对应的说话人角信息;其中,所述说话人角信息包括管制员以及飞行员;所述多模态说话人角识别模型的构建包括以下步骤:a:基于深度神经网络构建多模态说话人角识别初步模型;所述多模态说话人角识别初步模型包括文本预训练模块、语音预训练模块以及基于模态注意力机制的分类模块;b:设置所述多模态说话人角识别初步模型的超参数初始值以及训练参数;c:通过标注说话人角信息的语料训练所述多模态说话人角识别初步模型,网络收敛后输出为多模态说话人角识别模型。2.根据权利要求1所述的一种基于特征融合的陆空通话说话人角识别方法,其特征在于,所述步骤s1中所述降噪处理采用卡尔曼滤波算法。3.根据权利要求1所述的一种基于特征融合的陆空通话说话人角识别方法,其特征在于,所述步骤s2包括以下步骤:s21:对降噪处理后的所述语音信号进行预处理;所述预处理包括归一化、预加重、加窗和分帧操作;s22:按照预设时间值将预处理后的所述语音信号分为若干单句语音片段,获取并输出所述单句语音片段中带有人声的所述单句语音片段。4.根据权利要求3所述的一种基于特征融合的陆空通话说话人角识别方法,其特征在于,所述步骤s2中提取操作通过预构建的语音活动检测模型实现;所述语音活动检测模型包括特征提取模块和分类判决模块;所述特征提取模块包括若干组相互连接的卷积层和池化层;所述卷积层用于提取特征向量;所述池化层用于防止过拟合;所述分类判决模块包括若干全连接层以及一个输出层;所述全连接层用于对所述特征向量进行全局整合;所述输出层用于根据全局整合后的所述特征向量,提取并输出包含人声的单句语音片段。5.根据权利要求1所述的一种基于特征融合的陆空通话说话人角识别方法,其特征在于,所述步骤s3中转录操作通过预训练的语音识别模型实现;所述语音识别模型为cnn-rnn-ctc架构,包括卷积神经网络层、循环神经网络层和全连接层。6.根据权利要求5所述的一种基于特征融合的陆空通话说话人角识别方法,其特征在于,所述步骤s3包括以下步骤:s31:对所述单句语音片段进行分帧和加窗处理后,提取语谱图特征;s32:将所述语谱图特征输入到所述语音识别模型,转录出所述语谱图特征对应的文本
信息。7.根据权利要求1所述的一种基于特征融合的陆空通话说话人角识别方法,其特征在于,所述文本预训练模块采用mask任务进行模型训练,用于从所述文本信息中提取文本特征表示获取;所述文本预训练模块包括embedding单元、transformer单元和预测层;所述embedding单元包括词嵌入层和位置嵌入层;所述词嵌入层用于将各个文本词汇转换成固定维度的向量;所述位置嵌入层用于为不同位置的同一文本词汇赋予不同的向量表示;所述transformer单元由若干编码器单元组成;所述预测层用于预测被mask掉的文本单元,以驱动神经网络学习文本特征的高维表示。8.根据权利要求1所述的一种基于特征融合的陆空通话说话人角识别方法,其特征在于,所述语音预训练模块采用自监督学习进行模型训练,用于从所述单句语音片段中提取语音特征表示;所述语音预训练模块包括动态卷积音频特征提取器、编码器、transformer单元和量化器;所述动态卷积音频特征提取器包括三个串联的动态卷积单元,所述动态卷积单元抽取高维的初步语音特征的步骤包括:将第一动态卷积单元的输出和第二动态卷积单元的输出通过残差链接相加后再输入第三动态卷积单元处理后输出初步语音特征;所述编码器包括若干卷积神经网络层,用于提取所述初步语音特征的潜在语音表征信息;所述transformer单元用于获取上下文表征信息;所述量化器用于用于构造自监督训练目标;所述语音预训练模块包括以下运行步骤:通过所述动态卷积音频特征提取器从所述单句语音片段中提取初步语音特征;再通过所述编码器提取所述初步语音特征的潜在语音表征信息;然后分别通过所述transformer单元和所述量化器获取所述潜在语音表征信息中的深层表征信息和量化表征后;输出所述单句语音片段对应的语音特征表示。9.根据权利要求1所述的一种基于特征融合的陆空通话说话人角识别方法,其特征在于,所述分类模块用于根据所述语音特征表示和所述文本特征表示输出所述语音信号对应的说话人角信息;所述分类模块包括模态注意力机制单元、池化层以及分类器:所述模态注意力机制单元用于融合所述语音特征表示和所述文本特征表示的高维特征表示;其运算式为:;
其中,为预设的可训练参数,tanh为激活函数,为时间步为时所述语音特征表示和所述文本特征表示之间的相关向量,所述语音特征表示的向量为,所述文本特征表示的向量为,分别为所述语音预训练模块和所述文本预训练模块输出特征表示的向量的序列长度;为通过softmax函数产生模态注意力权重;为时间步为时的语音特征表示和时间步为时的文本特征表示之间的相关分数;为时间步变量,;所述池化层用于将所述高维特征表示池化为一维特征向量;所述分类器用于根据所述一维特征向量进行说话人角识别分类,输出对应的说话人角信息;所述分类器包括具有两个输出节点的全连接层和softmax激活函数单元。10.一种基于特征融合的陆空通话说话人角识别装置,其特征在于,包括至少一个处理器,至少一个与所述至少一个处理器通信连接的信号接收器,以及与所述至少一个处理器通信连接的存储器;所述信号接收器用于接收语音信号,并将所述语音信号发送到所述处理器进行处理,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至9中任一项所述的方法。

技术总结


本发明涉及民用航空空中交管理语音通信领域,特别是一种基于特征融合的陆空通话说话人角识别方法及装置。本发明提出了一种基于特征融合的陆空通话说话人角识别方法,通过综合考虑陆空通话语音信号的特征表示和文本信息的特征表示,提高了陆空通话语音中说话人角识别的准确率,解决了陆空通话中说话人角识别的难题,为空管安全防护、空管数据分析、空管业务培训等应用提供相对应的说话人角信息。信息。信息。


技术研发人员:

林毅 石含 郭东岳 杨波 吴志红

受保护的技术使用者:

四川大学

技术研发日:

2022.07.18

技术公布日:

2022/10/25

本文发布于:2024-09-23 18:21:51,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/20781.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:所述   语音   特征   卷积
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议