语义文本的生成方法、装置、电子设备及存储介质与流程

1.本公开涉及音频处理技术领域，特别涉及一种语义文本的生成方法、装置、电子设备及存储介质。

背景技术：

2.aac（automated audio captioning，音频自动概述）是一种将音频信号用自然语言进行表述的算法。aac能够利用音频信号中的场景信息，生成语义文本，来描述音频信号所表达的语义。例如，以音频信号“你吃了没”为例，aac根据该音频信号输出“有人在打招呼”这一语义文本。如何提高生成的语义文本的准确性是业内研究的重点。
3.相关技术中，通过特征提取器来提取音频信号中的场景信息，以获得与场景对应的音频特征，再通过语义概述生成器来对该音频特征进行语义感知，得到语义文本特征，结合全局信息和局部信息来构建音频特征到语义文本特征的映射关系，从而生成音频信号的语义文本。
4.但是，上述技术方案中，对音频信号的处理方式较为简单，从音频信号中获取的信息较少，导致生成的语义文本的准确率不高。

技术实现要素：

5.本公开提供一种语义文本的生成方法、装置、电子设备及存储介质，该方法能够提高语义文本的准确率，从而更加准确表达音频信号的语义。本公开的技术方案如下所述。
6.根据本公开实施例的一方面，提供一种语义文本的生成方法，包括：获取音频信号的梅尔谱图；通过语义识别模型中的音频特征提取网络，基于时空注意力机制和通道注意力机制，对所述梅尔谱图进行特征提取，得到音频特征矩阵，所述语义识别模型用于识别输入的音频信号所表达的语义；通过所述语义识别模型中的文本生成网络，基于所述音频特征矩阵，生成语义文本，所述语义文本用于描述所述音频信号所表达的语义。
7.在一些实施例中，所述基于时空注意力机制和通道注意力机制，对所述梅尔谱图进行特征提取，得到音频特征矩阵，包括：通过所述音频特征提取网络中的卷积神经层，对所述梅尔谱图进行特征提取，得到第一特征；基于所述时空注意力机制，对所述第一特征进行处理，得到第二特征；基于所述通道注意力机制，对所述第二特征进行处理，得到第三特征；基于所述第一特征、所述第二特征以及所述第三特征，确定所述音频特征矩阵。
8.在一些实施例中，所述基于所述时空注意力机制，对所述第一特征进行处理，得到第二特征，包括：基于所述时空注意力机制，对所述第一特征进行深度卷积，得到第一中间特征；对所述第一中间特征进行逐点卷积，得到第二中间特征；将所述第一特征与所述第二中间特征的哈达玛积，确定为所述第二特征。
9.在一些实施例中，所述基于所述通道注意力机制，对所述第二特征进行处理，得到
第三特征，包括：基于所述通道注意力机制，对所述第二特征进行处理，得到第三中间特征，所述第三中间特征中的元素用于表示所述第二特征中不同通道的权重；将所述第三中间特征与所述第二特征的哈达玛积，确定为所述第三特征。
10.在一些实施例中，所述基于所述第一特征、所述第二特征以及所述第三特征，确定所述音频特征矩阵，包括：对所述第一特征进行全局池化和线性卷积，得到第四中间特征；对所述第二特征和所述第三特征进行残差和卷积，得到第五中间特征；基于所述第四中间特征和所述第五中间特征，确定所述音频特征矩阵。
11.在一些实施例中，所述方法还包括：通过所述语义识别模型中的关键字预测网络，对所述梅尔谱图进行关键字识别，得到关键字特征，所述关键字特征用于表示所述音频信号中的关键字；所述通过所述语义识别模型中的文本生成网络，基于所述音频特征矩阵，生成语义文本，包括：通过所述语义识别模型中的文本生成网络，基于所述音频特征矩阵和所述关键字特征，生成所述语义文本。
12.在一些实施例中，所述对所述梅尔谱图进行关键字识别，得到关键字特征，包括：获取预设的多个关键字；通过所述关键字预测网络中的多个卷积层，对所述梅尔谱图进行多次卷积，得到第六中间特征；基于所述第六中间特征，确定出现的至少一个目标关键字，得到所述关键字特征，所述关键字特征包括所述音频信号中出现的所述至少一个目标关键字的特征。
13.在一些实施例中，所述通过所述语义识别模型中的文本生成网络，基于所述音频特征矩阵和所述关键字特征，生成所述语义文本，包括：通过所述语义识别模型中的文本生成网络，对所述音频特征矩阵和所述关键字特征进行处理，得到所述音频信号的第一文本特征，所述第一文本特征用于表示所述音频信号所表达的语义；将所述第一文本特征与所述关键字特征进行拼接，得到第二文本特征；基于所述音频特征矩阵和所述第二文本特征，生成所述语义文本。
14.在一些实施例中，所述通过所述语义识别模型中的文本生成网络，对所述音频特征矩阵和所述关键字特征进行处理，得到所述音频信号的第一文本特征，包括：通过所述语义识别模型中的文本生成网络，对所述音频特征矩阵和所述关键字特征进行处理，得到所述语义文本的首个字符；对于所述语义文本中除首个字符外的其他任一字符，通过所述语义识别模型中的文本特征提取网络，对位于所述字符之前的至少一个字符进行特征提取，得到所述字符在所述第一文本特征中对应的元素值，所述字符对应的元素值用于预测所述字符。
15.在一些实施例中，所述基于所述音频特征矩阵和所述第二文本特征，生成所述语义文本，包括：基于所述第二文本特征，获取位置编码特征，所述位置编码特征用于表示各个字符的顺序特征；将所述位置编码特征与第二文本特征进行融合，得到融合特征；基于所述融合特征和所述音频特征矩阵，生成所述语义文本。
16.在一些实施例中，通过所述音频特征提取网络，基于时空注意力机制和通道注意力机制，对样本音频信号的样本梅尔谱图进行特征提取，得到样本音频特征矩阵；通过所述语义识别模型中的关键字预测网络，对所述样本梅尔谱图进行关键字识别，得到样本关键字特征，所述样本关键字特征用于表示所述样本音频信号中的关键字；通过所述语义识别模型中的文本特征提取网络，对样本标签进行特征提取，得到第一样本文本特征，所述样本
标签用于描述所述样本音频信号所表达的语义；将所述第一样本文本特征与所述样本关键字特征进行拼接，得到第二样本文本特征；通过所述文本生成网络，基于所述样本音频特征矩阵和所述第二样本文本特征，生成所述样本音频信号的样本语义文本；基于所述样本语义文本和所述样本标签的差异，训练所述语义识别模型。
17.根据本公开实施例的另一方面，提供一种语义文本的生成装置，包括：获取单元，被配置为执行获取音频信号的梅尔谱图；第一提取单元，被配置为执行通过语义识别模型中的音频特征提取网络，基于时空注意力机制和通道注意力机制，对所述梅尔谱图进行特征提取，得到音频特征矩阵，所述语义识别模型用于识别输入的音频信号所表达的语义；生成单元，被配置为执行通过所述语义识别模型中的文本生成网络，基于所述音频特征矩阵，生成语义文本，所述语义文本用于描述所述音频信号所表达的语义。
18.在一些实施例中，所述第一提取单元，包括：提取子单元，被配置为执行通过所述音频特征提取网络中的卷积神经层，对所述梅尔谱图进行特征提取，得到第一特征；第一处理子单元，被配置为执行基于所述时空注意力机制，对所述第一特征进行处理，得到第二特征；第二处理子单元，被配置为执行基于所述通道注意力机制，对所述第二特征进行处理，得到第三特征；确定子单元，被配置为执行基于所述第一特征、所述第二特征以及所述第三特征，确定所述音频特征矩阵。
19.在一些实施例中，所述第一处理子单元，被配置为执行基于所述时空注意力机制，对所述第一特征进行深度卷积，得到第一中间特征；对所述第一中间特征进行逐点卷积，得到第二中间特征；将所述第一特征与所述第二中间特征的哈达玛积，确定为所述第二特征。
20.在一些实施例中，所述第二处理子单元，被配置为执行基于所述通道注意力机制，对所述第二特征进行处理，得到第三中间特征，所述第三中间特征中的元素用于表示所述第二特征中不同通道的权重；将所述第三中间特征与所述第二特征的哈达玛积，确定为所述第三特征。
21.在一些实施例中，所述确定子单元，被配置为执行对所述第一特征进行全局池化和线性卷积，得到第四中间特征；对所述第二特征和所述第三特征进行残差和卷积，得到第五中间特征；基于所述第四中间特征和所述第五中间特征，确定所述音频特征矩阵。
22.在一些实施例中，所述装置还包括：预测单元，被配置为执行通过所述语义识别模型中的关键字预测网络，对所述梅尔谱图进行关键字识别，得到关键字特征，所述关键字特征用于表示所述音频信号中的关键字；所述生成单元，被配置为执行通过所述语义识别模型中的文本生成网络，基于所述音频特征矩阵和所述关键字特征，生成所述语义文本。
23.在一些实施例中，所述预测单元，被配置为执行获取预设的多个关键字；通过所述关键字预测网络中的多个卷积层，对所述梅尔谱图进行多次卷积，得到第六中间特征；基于所述第六中间特征，确定出现的至少一个目标关键字，得到所述关键字特征，所述关键字特
征包括所述音频信号中出现的所述至少一个目标关键字的特征。
24.在一些实施例中，所述生成单元，包括：第三处理子单元，被配置为执行通过所述语义识别模型中的文本生成网络，对所述音频特征矩阵和所述关键字特征进行处理，得到所述音频信号的第一文本特征，所述第一文本特征用于表示所述音频信号所表达的语义；拼接子单元，被配置为执行将所述第一文本特征与所述关键字特征进行拼接，得到第二文本特征；生成子单元，被配置为执行基于所述音频特征矩阵和所述第二文本特征，生成所述语义文本。
25.在一些实施例中，所述第三处理子单元，被配置为执行通过所述语义识别模型中的文本生成网络，对所述音频特征矩阵和所述关键字特征进行处理，得到所述语义文本的首个字符；对于所述语义文本中除首个字符外的其他任一字符，通过所述语义识别模型中的文本特征提取网络，对位于所述字符之前的至少一个字符进行特征提取，得到所述字符在所述第一文本特征中对应的元素值，所述字符对应的元素值用于预测所述字符。
26.在一些实施例中，所述生成子单元，被配置为执行基于所述第二文本特征，获取位置编码特征，所述位置编码特征用于表示各个字符的顺序特征；将所述位置编码特征与第二文本特征进行融合，得到融合特征；基于所述融合特征和所述音频特征矩阵，生成所述语义文本。
27.在一些实施例中，所述装置还包括：所述第一提取单元，还被配置为执行通过所述音频特征提取网络，基于时空注意力机制和通道注意力机制，对样本音频信号的样本梅尔谱图进行特征提取，得到样本音频特征矩阵；所述预测单元，还被配置为执行通过所述语义识别模型中的关键字预测网络，对所述样本梅尔谱图进行关键字识别，得到样本关键字特征，所述样本关键字特征用于表示所述样本音频信号中的关键字；第二提取单元，被配置为执行通过所述语义识别模型中的文本特征提取网络，对样本标签进行特征提取，得到第一样本文本特征，所述样本标签用于描述所述样本音频信号所表达的语义；拼接单元，被配置为执行将所述第一样本文本特征与所述样本关键字特征进行拼接，得到第二样本文本特征；所述生成单元，还被配置为执行通过所述文本生成网络，基于所述样本音频特征矩阵和所述第二样本文本特征，生成所述样本音频信号的样本语义文本；训练单元，被配置为执行基于所述样本语义文本和所述样本标签的差异，训练所述语义识别模型。
28.根据本公开实施例的另一方面，提供一种电子设备，该电子设备包括：一个或多个处理器；用于存储该处理器可执行程序代码的存储器；其中，该处理器被配置为执行该程序代码，以实现上述语义文本的生成方法。
29.根据本公开实施例的另一方面，提供一种计算机可读存储介质，当该计算机可读
存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行上述语义文本的生成方法。
30.根据本公开实施例的另一方面，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述语义文本的生成方法。
31.本公开提供了一种音频信号的语义文本的生成方法，不仅通过时空注意力机制来提取音频信号的特征，还能够基于通道注意力机制来提取音频信号的特征，使得提取到的音频特征矩阵能够表示音频信号的特征，再通过文本生成网络对音频特征矩阵进行处理，基于该音频特征矩阵来生成语义文本，能够提高语义文本的准确率，从而更加准确表达音频信号的语义。
32.应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。
附图说明
33.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。
34.图1是根据一示例性实施例示出的一种语义文本的生成方法的实施环境示意图；图2是根据一示例性实施例示出的一种语义文本的生成方法的流程图；图3是根据一示例性实施例示出的另一种语义文本的生成方法的流程图；图4是根据一示例性实施例示出的一种卷积神经层的结构示意图；图5是根据一示例性实施例示出的一种残差层中各种残差模块的结构示意图；图6是根据一示例性实施例示出的一种第一卷积层的结构示意图；图7是根据一示例性实施例示出的一种第二卷积层的结构示意图；图8是根据一示例性实施例示出的一种基于时空注意力机制和通道注意力机制得到音频特征矩阵的神经网络的结构示意图；图9是根据一示例性实施例示出的一种关键字预测网络的结构示意图；图10是根据一示例性实施例示出的一种文本生成网络的结构示意图；图11是根据一示例性实施例示出的一种语义识别模型的结构示意图；图12是根据一示例性实施例示出的一种语义文本的生成装置的结构示意图；图13是根据一示例性实施例示出的另一种语义文本的生成装置的结构示意图；图14是根据一示例性实施例示出的一种终端的框图；图15是根据一示例性实施例示出的一种服务器的框图。
具体实施方式
35.为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。
36.需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相
一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
37.需要说明的是，本公开所涉及的信息（包括但不限于目标对象的设备信息、目标对象的个人信息等）、数据（包括但不限于用于分析的数据、存储的数据、展示的数据等）以及信号，均为经目标对象授权或者经过各方充分授权的，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如，本公开中涉及到的音频信号都是在充分授权的情况下获取的。
38.为了便于理解，以下，对本公开涉及的术语进行解释。
39.aac（automated audio captioning，音频自动概述）：是一种根据音频信号中的场景信息，将音频信号用自然语言进行表述的算法，也即能够识别音频信号所表达的语义。
40.relu（rectified linear unit，线性整流函数）：是一种人工神经网络中常用的激励函数（activation function），通常指代以斜坡函数及其变种为代表的非线性函数，也称为修正线性单元。
41.bn（batch normalization，批标准化）：是一种用于改善人工神经网络的性能和稳定性的方法，能够为神经网络中的任何层提供零均值或者单位方差输入，也称为批量归一化。
42.在本公开实施例中，电子设备可以被提供为终端或者服务器，当电子设备被提供为终端时，可以由该终端实现本公开实施例提供的语义文本的生成方法；当电子设备被提供为服务器时，可以由该服务器实现本公开实施例提供的语义文本的生成方法，或者通过服务器和终端之间的交互来实现本公开实施例提供的语义文本的生成方法。
43.图1是根据一示例性实施例示出的一种语义文本的生成方法的实施环境示意图。以电子设备被提供为服务器为例，参见图1，该实施环境具体包括：终端101和服务器102。
44.终端101为智能手机、智能手表、平板电脑、台式电脑、笔记本电脑、mp3播放器（moving picture experts group audio layer iii，动态影像专家压缩标准音频层面3）、mp4（moving picture experts group audio layer iv，动态影像专家压缩标准音频层面4）播放器和膝上型便携计算机等设备中的至少一种。终端101能够获取音频信号。该音频信号可以是终端101采集得到的，也可以是从其他电子设备上获取的，本公开实施例对此不加以限定。终端101能够通过无线网络或有线网络与服务器102相连，进而能够将该音频信号发送给服务器102。终端101泛指多个终端中的一个，本实施例以终端101来举例说明。本领域技术人员可以知晓，上述终端的数量可以更多或更少。比如上述终端可以为几个，或者上述终端为几十个或几百个，或者更多数量，本公开实施例对终端的数量和设备类型均不加以限定。
45.服务器102为一台服务器、多台服务器、云计算平台和虚拟化中心中的至少一种。服务器102能够通过无线网络或有线网络与终端101和其他终端相连，服务器102能够接收终端101发送的音频信号，通过语义识别模型对该音频信号进行语义识别，得到该音频信号的语义文本，并将该语义文本发送给终端101，以便用户能够通过终端101来查看该音频信号的语义文本。在一些实施例中，上述服务器的数量可以更多或更少，本公开实施例对此不加以限定。当然，服务器102还包括其他功能服务器，以便提供更全面且多样化的服务。
46.图2是根据一示例性实施例示出的一种语义文本的生成方法的流程图，参见图2，
该语义文本的生成方法包括以下步骤。
47.在步骤201中，获取音频信号的梅尔谱图。
48.在本公开实施例中，音频信号的梅尔谱图可以是对数梅尔谱图。电子设备能够对音频信号进行预处理，提取该音频信号的梅尔谱图。然后，电子设备能够对该梅尔谱图进行对数运算，来获得该音频信号的对数梅尔谱图。
49.在步骤202中，通过语义识别模型中的音频特征提取网络，基于时空注意力机制和通道注意力机制，对该梅尔谱图进行特征提取，得到音频特征矩阵，该语义识别模型用于识别输入的音频信号所表达的语义。
50.在本公开实施例中，该语义识别模型能够将输入的音频信号用自然语言进行概述，也即通过文本来概括性地描述该音频信号的语义。例如，该音频信号为“你吃饭了吗”，该语义识别模型能够生成“有人在打招呼”这一文本，来概括性地描述该音频信号的语义。
51.该语义识别模型包括音频特征提取网络，该音频特征提取网络用于基于时空注意力机制和通道注意力机制，来进行特征提取。电子设备先对音频信号进行处理，得到该音频信号的梅尔谱图。然后，电子设备将该梅尔谱图输入语义识别模型，通过该语义识别模型中的音频特征提取网络对该梅尔谱图进行特征提取，得到该音频信号的音频特征矩阵。通过在音频特征提取网络中引入时空注意力机制和通道注意力机制，能够抑制音频信号中的噪声等无用信息，突出音频信号中与语义相关的有用信息，从而使得该音频特征矩阵更加突显有用信息，更加准确地传达音频信号中的语义。
52.在步骤203中，通过语义识别模型中的文本生成网络，基于音频特征矩阵，生成语义文本，该语义文本用于描述音频信号所表达的语义。
53.在本公开实施例中，该语义识别模型中还包括文本生成网络，该文本生成网络用于生成音频信号的语义文本。电子设备通过该文本生成网络，对音频特征矩阵进行处理，得到该音频信号的语义文本。其中，电子设备能够从音频特征矩阵中获取音频信号中与语义相关的有用信息，使得生成的语义文本更加准确表达音频信号的语义。
54.本公开实施例提供的方案，不仅通过时空注意力机制来提取音频信号的特征，还能够基于通道注意力机制来提取音频信号的特征，使得提取到的音频特征矩阵能够表示音频信号的特征，再通过文本生成网络对音频特征矩阵进行处理，基于该音频特征矩阵来生成语义文本，从而能够提高语义文本的准确率，进而更加准确表达音频信号的语义。
55.在一些实施例中，基于时空注意力机制和通道注意力机制，对音频信号的梅尔谱图进行特征提取，得到音频特征矩阵，包括：通过音频特征提取网络中的卷积神经层，对梅尔谱图进行特征提取，得到第一特征；基于时空注意力机制，对第一特征进行处理，得到第二特征；基于通道注意力机制，对第二特征进行处理，得到第三特征；基于第一特征、第二特征以及第三特征，确定音频特征矩阵。
56.本公开实施例提供的方案，通过卷积神经层，对梅尔谱图进行特征提取，使得第一特征中包含音频信号中的全部信息，再通过时空注意力机制和通道注意力机制对第一特征进行处理，能够抑制音频信号中的噪声等无用信息，突出音频信号中与语义相关的有用信息，使得提取到的音频特征矩阵能够表示音频信号的特征。
57.在一些实施例中，基于时空注意力机制，对第一特征进行处理，得到第二特征，包括：基于时空注意力机制，对第一特征进行深度卷积，得到第一中间特征；对第一中间特征进行逐点卷积，得到第二中间特征；将第一特征与第二中间特征的哈达玛积，确定为第二特征。
58.本公开实施例提供的方案，由于音频信号中并不是所有的时刻都会传达与语义相关的有用信息，通过时空注意力机制，对第一特征依次进行深度卷积和逐点卷积，能够更加关注与语义相关的时刻所传达的信息，使得得到的第二特征中更加突显与语义相关的有用信息，利于后续得到能够准确表示音频信号中语义的音频特征矩阵。
59.在一些实施例中，基于通道注意力机制，对第二特征进行处理，得到第三中间特征，该第三中间特征中的元素用于表示第二特征中不同通道的权重；将第三中间特征与第二特征的哈达玛积，确定为第三特征。
60.本公开实施例提供的方案，由于不同通道所包含的音频信号中的信息不同，存在某些通道仅包含音频信号中的噪声等无用信息，通过通道注意力机制对第二特征进行处理，来得到用于表示第二特征中不同通道的权重的第三中间特征，使得能够更加关注与语义相关的通道所包含的信息，再对第三中间特征与第二特征进行哈达玛积，能够对各个通道进行加权，使得第三特征中更加突显与语义相关的有用信息，利于后续得到能够准确表示音频信号中语义的音频特征矩阵。
61.在一些实施例中，基于第一特征、第二特征以及第三特征，确定音频特征矩阵，包括：对第一特征进行全局池化和线性卷积，得到第四中间特征；对第二特征和第三特征进行残差和卷积，得到第五中间特征；基于第四中间特征和第五中间特征，确定音频特征矩阵。
62.本公开实施例提供的方案，通过对第一特征进行全局池化和线性卷积，使得第四中间特征包含音频信号中的全部信息，并且通过对第二特征和第三特征进行残差和卷积，使得第五中间特征中更加与语义相关的局部信息，从而能够从音频信号中的全部信息和局部信息两个方面来确定音频信号的音频特征矩阵，使得该音频特征矩阵能够表示音频信号的特征，较为准确地表示音频信号中语义。
63.在一些实施例中，该方法还包括：通过该语义识别模型中的关键字预测网络，对梅尔谱图进行关键字识别，得到关键字特征，该关键字特征用于表示音频信号中的关键字；通过语义识别模型中的文本生成网络，基于音频特征矩阵，生成语义文本，包括：通过该语义识别模型中的文本生成网络，基于该音频特征矩阵和该关键字特征，生成语义文本。
64.本公开实施例提供的方案，通过关键字预测网络来对该对数梅尔谱图进行关键字识别，使得识别到的关键字特征能够表示音频信号的中关键字的特征，再通过文本生成网络对音频特征矩阵和关键字特征进行处理，使得能够基于关键字特征来指导语义文本的生成，能够提高语义文本的准确率，从而更加准确表达音频信号的语义。
65.在一些实施例中，对梅尔谱图进行关键字识别，得到关键字特征，包括：
获取预设的多个关键字；通过关键字预测网络中的多个卷积层，对梅尔谱图进行多次卷积，得到第六中间特征；基于第六中间特征，确定出现的至少一个目标关键字，得到关键字特征，该关键字特征包括音频信号中出现的至少一个目标关键字的特征。
66.本公开实施例提供的方案，通过关键字预测网络中的多个卷积层，对梅尔谱图进行多次卷积，使得第六中间特征能够更加准确表示音频信号中所出现的文字的特征，再通过第六中间特征，识别音频信号中出现的与预设的关键字相同的目标关键字，将该目标关键字作为音频信号的关键字，从而得到音频信号的关键字特征，使得该关键字特征能够表示音频信号的中关键字的特征，利于后续通过该关键字特征指导生成的语义文本更加准确。
67.在一些实施例中，通过语义识别模型中的文本生成网络，基于音频特征矩阵和关键字特征，生成语义文本，包括：通过语义识别模型中的文本生成网络，对音频特征矩阵和关键字特征进行处理，得到音频信号的第一文本特征，该第一文本特征用于表示音频信号所表达的语义；将第一文本特征与关键字特征进行拼接，得到第二文本特征；基于音频特征矩阵和第二文本特征，生成语义文本。
68.本公开实施例提供的方案，通过文本生成网络对音频特征矩阵和关键字特征进行处理，来得到音频信号的第一文本特征，使得第一文本特征能够表示音频信号所表达的语义，再通过将第一文本特征与关键字特征拼接后的第二文本特征与音频特征矩阵，来生成语义文本，不仅能够根据第二文本特征来指导语义文本的生成，还能够从音频特征矩阵中获取音频信号中与语义相关的信息，使得生成的语义文本更加准确表达音频信号的语义。
69.在一些实施例中，通过语义识别模型中的文本生成网络，对音频特征矩阵和关键字特征进行处理，得到音频信号的第一文本特征，包括：通过语义识别模型中的文本生成网络，对音频特征矩阵和关键字特征进行处理，得到语义文本的首个字符；对于语义文本中除首个字符外的其他任一字符，通过语义识别模型中的文本特征提取网络，对位于字符之前的至少一个字符进行特征提取，得到字符在第一文本特征中对应的元素值，该字符对应的元素值用于预测字符。
70.本公开实施例提供的方案，对于语义文本的首个字符，通过音频特征矩阵和关键字特征来进行预测，对于除首个字符外的其他任一字符，通过位于该字符之前的至少一个字符对应的元素值、音频特征矩阵以及关键字特征来进行预测，使得不仅能够按照顺序依次预测语义文本中的各个字符，还能够基于已预测出的字符来预测当前字符，从而使得生成的语义文本更加流畅，准确性更高，更加准确表达音频信号的语义。
71.在一些实施例中，基于音频特征矩阵和第二文本特征，生成语义文本，包括：基于第二文本特征，获取位置编码特征，该位置编码特征用于表示各个字符的顺序特征；将位置编码特征与第二文本特征进行融合，得到融合特征；基于融合特征和音频特征矩阵，生成语义文本。
72.本公开实施例提供的方案，通过获取能够表示语义文本中各个字符的顺序的位置编码特征，将该位置编码特征与第二文本特征进行融合，使得能够基于融合后的特征和音频特征矩阵来生成语义文本，从而能够按照顺序依次预测语义文本中的各个字符，使得生成的语义文本更加流畅，准确性更高，更加准确表达音频信号的语义。
73.在一些实施例中，该方法还包括：通过音频特征提取网络，基于时空注意力机制和通道注意力机制，对样本音频信号的样本梅尔谱图进行特征提取，得到样本音频特征矩阵；通过语义识别模型中的关键字预测网络，对样本梅尔谱图进行关键字识别，得到样本关键字特征，该样本关键字特征用于表示样本音频信号中的关键字；通过语义识别模型中的文本特征提取网络，对样本标签进行特征提取，得到第一样本文本特征，该样本标签用于描述样本音频信号所表达的语义；将第一样本文本特征与样本关键字特征进行拼接，得到第二样本文本特征；通过文本生成网络，基于样本音频特征矩阵和第二样本文本特征，生成样本音频信号的样本语义文本；基于样本语义文本和样本标签的差异，训练语义识别模型。
74.本公开实施例提供的方案，通过时空注意力机制和通道注意力机制对样本音频信号的样本梅尔谱图进行特征提取，使得提取到的样本音频特征矩阵能够表示样本音频信号的特征，然后通过关键字预测网络来对该样本梅尔谱图进行关键字识别，使得识别到的样本关键字特征能够表示样本音频信号的中关键字的特征，然后通过文本特征提取网络对样本标签进行特征提取，使得第一样本文本特征能够表示样本音频信号所表达的语义，再通过文本生成网络对第一样本文本特征与样本关键字特征拼接后的第二样本文本特征以及样本音频特征矩阵进行处理，使得能够基于样本关键字特征来指导样本语义文本的生成，最后通过样本语义文本和样本标签的差异来训练语义识别模型，能够提高语义识别模型生成语义文本的准确率，从而使得语义识别模型更加准确地识别音频信号的语义。
75.上述图2所示为本公开的基本流程，下面基于一种实现方式，来对本公开提供的方案进行进一步阐述，图3是根据一示例性实施例示出的另一种语义文本的生成方法的流程图。以电子设备被提供为服务器为例，参见图3，该方法包括以下步骤。
76.在步骤301中，获取音频信号的梅尔谱图。
77.在本公开实施例中，服务器获取音频信号，该音频信号可以是人类说话声音的信号、车辆运行声音的信号或者时钟运行声音的信号，本公开实施例对此不加以限定。服务器能够对该音频信号进行预处理，来获取音频信号的梅尔谱图。
78.在一些实施例中，服务器将该音频信号输入梅尔特征提取网络。服务器通过梅尔特征提取网络来对该音频信号进行预处理。该梅尔特征提取网络用于提取音频信号的对数梅尔特征。该对数梅尔特征即为该音频信号的梅尔谱图。其中，服务器通过该梅尔特征提取网络，得到音频信号的梅尔谱图的过程，主要包括短时傅里叶变换和梅尔滤波两个步骤。
79.第一步，服务器通过该梅尔特征提取网络，对该音频信号进行短时傅里叶变换。该短时傅里叶变换能够将音频信号这类时域信号转换为频域信号。首先，服务器通过该梅尔特征提取网络，对该音频信号进行分帧，将时长较长的音频信号分成多个时长较短的音频信号。然后，服务器通过该梅尔特征提取网络，对多个时长较短的音频信号进行加窗。然后，
服务器通过该梅尔特征提取网络，对加窗后的各个时长较短的音频信号，分别进行短时傅里叶变换，得到对应的频域信号。该频域信号依然保留着时域信息，也即该频域信号中每一帧对应的信号为频率特征。
80.第二步，服务器通过该梅尔特征提取网络，对短时傅里叶变换得到的频域信号进行梅尔滤波。首先，服务器通过梅尔函数，将频域信号中的频率转换为梅尔频率。然后，服务器通过梅尔滤波器来提取梅尔频谱特征，得到音频信号的梅尔频谱。然后，服务器对该梅尔频谱，进行对数运算，得到该音频信号的对数梅尔频谱，也即对数梅尔谱图。
81.在步骤302中，通过语义识别模型的音频特征提取网络中的卷积神经层，对梅尔谱图进行特征提取，得到第一特征，该语义识别模型用于识别输入的音频信号所表达的语义。
82.在本公开实施例中，服务器通过语义识别模型中的音频特征提取网络，能够对服务器得到的音频信号的梅尔谱图进行特征提取。其中，音频特征提取网络包括卷积神经层，通过该卷积神经层，对梅尔谱图进行特征提取，得到音频信号的第一特征。该第一特征中包含与音频信号的语义相关的信息的特征。
83.图4是根据一示例性实施例示出的一种卷积神经层的结构示意图。参见图4，该卷积神经层由38层的残差网络组成，该卷积神经层主要包括输入卷积层、残差层以及输出卷积层。为了更加清楚地描述服务器通过卷积神经层，对梅尔谱图进行特征提取的过程，下面针对于卷积神经层中的输入卷积层、残差层以及输出卷积层分别进行描述。
84.首先，介绍一下该卷积神经层中的输入卷积层。继续参见图4，该输入卷积层由两个相同的卷积层构成。对于输入卷积层中的任一卷积层，该卷积层中卷积核的大小为3
×
3，卷积核的数量为64个。该卷积层中还包括归一化层、激活函数和池化层。服务器通过第一个卷积层中的64个卷积核对输入的梅尔谱图进行卷积；然后，通过归一化层和激活函数对卷积后得到的特征进行处理；然后，再采用2
×
2大小的卷积核对处理后的特征进行池化。其中，归一化层即为bn层，激活函数为relu函数。第一个卷积层的输出为第二个卷积层的输入，服务器通过该第二个卷积层对第一个卷积层输出的特征进行处理。其中，第二个卷积层处理特征的方式与第一个卷积层处理特征的方式相似，在此不再赘述。
85.然后，再介绍一下该卷积神经层中的残差层。继续参见图4，该残差层包括四种类型的残差模块，分别是第一残差模块、第二残差模块、第三残差模块以及第四残差模块。这四种类型的残差模块包含的卷积核数目各不相同，分别是64个、128个、256个以及512个。在该残差层每种类型的残差子模块的数量也有所不同。该残差层包括3个第一残差子模块、4个第二残差模块、6个第三残差模块以及3个第四残差模块。
86.然后，再介绍一下该卷积神经层中的输出卷积层。继续参见图4，该输出卷积层由两个相同的卷积层构成。对于输出卷积层中的任一卷积层，该卷积层中卷积核的大小为3
×
3，卷积核的数量为2048个。该卷积层中还包括归一化层、激活函数和池化层。服务器通过该卷积层中的64个卷积核对输入的特征进行卷积；然后，通过归一化层和激活函数对卷积后得到的特征进行处理；然后，再通过2
×
2大小的卷积核对处理后的特征进行池化。其中，归一化层即为bn层，激活函数为relu函数。
87.最后，再介绍一下该卷积神经层中的全局池化层和线性层。继续参见图4，该线性层中包含2048个卷积核。通过该2048个卷积核，对全局池化层输出的特征进行线性卷积，再通过激活函数对卷积后得到的特征进行处理，从而输出第一特征。其中，该激活函数为relu
函数。
88.为了更加清楚地描述上述残差层中四种残差模块的工作原理，下面结合附图对上述四种残差模块进行进一步描述。
89.图5是根据一示例性实施例示出的一种残差层中各种残差模块的结构示意图。参见图5，图5中的（a）示例性地示出了第一残差模块的结构示意图，图5中的（b）示例性地示出了第二残差模块的结构示意图，图5中的（c）示例性地示出了第三残差模块的结构示意图，图5中的（d）示例性地示出了第四残差模块的结构示意图。对于任一残差模块，该残差模块包括第一子模块和第二子模块。不同残差模块的第一子模块的结构不相同，不同残差模块的第二子模块的结构也不相同。
90.参见图5中的（a），该第一残差模块的第一子模块包括两个卷积层、归一化层以及激活函数。其中，对于第一子模块中的任一卷积层，该卷积层中卷积核的大小为3
×
3，卷积核的数量为64个。该第一残差模块的第二子模块包括一个卷积层和归一化层。该第二子模块的卷积层中卷积核的大小为1
×
1，卷积核的数量为64个。服务器通过激活函数，对第一子模块的输出和第二子模块的输出进行残差连接。
91.参见图5中的（b），该第二残差模块的第一子模块包括平均池化层、两个卷积层、归一化层以及激活函数。其中，对于该第一子模块中的任一卷积层，该卷积层中卷积核的大小为3
×
3，卷积核的数量为128个。该第二残差模块的第二子模块包括平均池化层、一个卷积层和归一化层。该第二子模块的卷积层中卷积核的大小为1
×
1，卷积核的数量为128个。服务器通过激活函数，对第一子模块的输出和第二子模块的输出进行残差连接。
92.参见图5中的（c），该第三残差模块的第一子模块包括平均池化层、两个卷积层、归一化层以及激活函数。其中，对于该第一子模块中的任一卷积层，该卷积层中卷积核的大小为3
×
3，卷积核的数量为256个。该第三残差模块的第二子模块包括平均池化层、一个卷积层和归一化层。该第二子模块的卷积层中卷积核的大小为1
×
1，卷积核的数量为256个。服务器通过激活函数，对第一子模块的输出和第二子模块的输出进行残差连接。
93.参见图5中的（d），该第四残差模块的第一子模块包括平均池化层、两个卷积层、归一化层以及激活函数。其中，对于该第一子模块中的任一卷积层，该卷积层中卷积核的大小为3
×
3，卷积核的数量为512个。该第四残差模块的第二子模块包括平均池化层、一个卷积层和归一化层。该第二子模块的卷积层中卷积核的大小为1
×
1，卷积核的数量为512个。服务器通过激活函数，对第一子模块的输出和第二子模块的输出进行残差连接。
94.继续参见图5，上述残差模块中的激活函数均为relu函数。对于任一残差模块，该残差模块的第一子模块为basic block，第二子模块为bottleneck block。服务器将第一子模块输出的特征与第二子模块输出的特征相加，再经过relu函数处理，从而得到该残差模块的输出。
95.在一些实施例中，服务器能够通过以下公式一，来确定残差模块的输出。
96.公式一：。
97.其中，为该残差模块的输入特征，为该残差模块的输出特征，为该
残差模块的第一子模块的输出特征，为该残差模块的第二子模块的输出特征，为激活函数。
98.在步骤303中，基于时空注意力机制，对第一特征进行处理，得到第二特征。
99.在本公开实施例中，第一特征是一个三维的特征矩阵，第一特征的尺寸为w
×h×
c。其中，w表示音频信号的时间，h表示音频信号的频率，c表示该第一特征的通道数。由于音频信号中并不是所有时间都对应有与语义相关的有用信息，还存在一些噪声等无用信息，因此，该第一特征中同样包含有用信息的特征与无用信息的特征。服务器通过时空注意力机制来对该第一特征进行处理，使得能够抑制音频信号中的噪声等无用信息，突出音频信号中与语义相关的有用信息，从而使得第二特征中更加突显与语义相关的有用信息，进而使得第二特征能够更加准确表示音频信号的语义。
100.在一些实施例中，该音频特征提取网络包括第一卷积层，该第一卷积层为深度可分离卷积（depthwise separable convolution，dsc）层。服务器在该第一卷积层中，引入时空注意力机制，通过该时空注意力机制对第一特征进行处理。其中，该第一卷积层包括深度卷积（depthwise convolution，dwc）和逐点卷积（pointwise convolution，pwc）等两种处理方式。相应地，服务器基于时空注意力机制，对第一特征进行深度卷积，得到第一中间特征。然后，服务器对第一中间特征进行逐点卷积，得到第二中间特征。然后，服务器将第一特征与第二中间特征的哈达玛积，确定为第二特征。其中，第二中间特征相当于第一特征的权重矩阵。通过将第一特征与第二中间特征对应位置的元素值相乘，来对第一特征中的元素值进行加权，也即对音频信号中不同时刻对应的信息进行加权。本公开实施例提供的方案，由于音频信号中并不是所有的时刻都会传达与语义相关的有用信息，通过时空注意力机制，对第一特征依次进行深度卷积和逐点卷积，能够更加关注与语义相关的时刻所传达的信息，使得得到的第二特征中更加突显与语义相关的有用信息，利于后续得到能够准确表示音频信号中语义的音频特征矩阵。
101.例如，图6是根据一示例性实施例示出的一种第一卷积层的结构示意图。参见图6，该第一卷积层包括深度卷积和逐点卷积两部分。其中，在深度卷积的过程中，服务器对第一特征中多个通道的特征分别进行处理。对于任一通道的特征，服务器通过7
×
3大小的卷积核对该通道的特征进行深度卷积。该多个通道深度卷积后的特征构成第一中间特征。该深度卷积的过程中，卷积核的数量等于第一特征的通道数。然后，服务器通过1
×
1大小的卷积核对该第一中间特征进行逐点卷积。该逐点卷积中卷积核的厚度与第一特征的通道数相等，能够融合多个通道的特征。该逐点卷积的过程中，卷积核的数量等于所要输出的第二中间特征的通道数。然后，服务器将第一特征和第二中间特征对应位置的元素值相乘，从而得到第二特征。
102.在步骤304中，基于通道注意力机制，对第二特征进行处理，得到第三特征。
103.在本公开实施例中，第二特征是一个三维的特征矩阵。该第二特征的尺寸为w
×h×
c。其中，w表示音频信号的时间，h表示音频信号的频率，c表示该第二特征的通道数。该第二特征包括多个通道，由于并不是所有的通道都包含与语义相关的有用信息，并且包含有用信息的不同通道中所含有的有用信息的含量也有所不同，有些通道包含的有用信息多，有些通道包含的有用信息少，因此，本公开实施例提出通过通道注意力机制来对该第二特
征进行处理，使得能够抑制音频信号中的噪声等无用信息，突出音频信号中与语义相关的有用信息，从而使得第三特征中更加突显与语义相关的有用信息，进而使得第三特征能够更加准确表示音频信号的语义。
104.在一些实施例中，该音频特征提取网络包括第二卷积层，该第二卷积层为se（squeeze and excitation，压缩和激励）网络层。服务器在该第二卷积层中，引入通道注意力机制，通过该通道注意力机制，对第二特征进行处理。相应地，服务器基于通道注意力机制，对第二特征进行处理，得到第三中间特征。然后，服务器将第三中间特征与第二特征的哈达玛积，确定为第三特征。其中，该第三中间特征中的元素用于表示第二特征中不同通道的权重。通过将第三中间特征与第二特征对应位置的元素值相乘，来对第二特征中不同通道的元素值进行加权，也即对音频信号的不同通道对应的信息进行加权。本公开实施例提供的方案，由于不同通道所包含的音频信号中的信息不同，存在某些通道仅包含音频信号中的噪声等无用信息，通过通道注意力机制对第二特征进行处理，来得到用于表示第二特征中不同通道的权重的第三中间特征，使得能够更加关注与语义相关的通道所包含的信息，再对第三中间特征与第二特征进行哈达玛积，能够对各个通道进行加权，使得第三特征中更加突显与语义相关的有用信息，利于后续得到能够准确表示音频信号中语义的音频特征矩阵。
105.例如，图7是根据一示例性实施例示出的一种第二卷积层的结构示意图。参见图7，该第二卷积层包括全局池化层、第一线性层、第一激活函数、第二线性层以及第二激活函数。服务器通过该第二卷积层，对第二特征进行压缩（squeeze）处理和激励（excitation）处理，特征的大小发生变化。以第二特征的大小为w
×h×
c为例，服务器通过全局池化层对第二特征进行全局池化，池化后的特征的大小为1
×1×
c，也即对第二特征进行压缩处理。然后，服务器通过第一线性层对池化后的特征进行线性卷积，由于该第一线性层中包含c/r个卷积核，因此卷积后的特征的大小为1
×1×
c/r。其中，r为缩放参数，该参数的目的是为了减少通道个数，从而降低计算量。然后，服务器通过第一激活函数对卷积后的特征进行处理，处理后的特征的大小依旧为1
×1×
c/r。然后，服务器通过第二线性层，对处理后的特征进行线性卷积，由于该第二线性层中包含c个卷积核，因此卷积后的特征的大小为1
×1×
c。然后，服务器通过第二激活函数对卷积后的特征进行处理，处理后的特征的大小依旧为1
×1×
c。服务器通过激励处理，将第二卷积层中的特征由1
×1×
c/r变为1
×1×
c。其中，第一激活函数和第二激活函数可以是同一个函数，也可以是不同的函数，本公开实施例对此不进行限制。可选地，该第一激活函数为relu函数，该第二激活函数为sigmoid函数。
106.在步骤305中，基于第一特征、第二特征以及第三特征，确定音频特征矩阵。
107.在本公开实施例中，通过将第一特征、第二特征以及第三特征进行融合，以此来确定音频信号的音频特征矩阵。其中，融合特征的方式可以是concat方式，也即对第一特征、第二特征以及第三特征进行拼接；也可以是add方式，也即将第一特征、第二特征以及第三特征进行逐元素叠加；还可以是对第一特征、第二特征以及第三特征进行处理后再进行拼接等，本公开实施例对此不进行限制。
108.在一些实施例中，服务器对第一特征、第二特征以及第三特征进行处理后再进行融合，从而得到音频信号的音频特征矩阵。相应地，服务器对第一特征进行全局池化和线性卷积，得到第四中间特征。然后，服务器对第二特征和第三特征进行残差和卷积，得到第五
中间特征。然后，服务器基于第四中间特征和第五中间特征，确定音频特征矩阵。本公开实施例提供的方案，通过对第一特征进行全局池化和线性卷积，使得第四中间特征包含音频信号中的全部信息，并且通过对第二特征和第三特征进行残差和卷积，使得第五中间特征中更加与语义相关的局部信息，从而能够从音频信号中的全部信息和局部信息两个方面来确定音频信号的音频特征矩阵，使得该音频特征矩阵能够表示音频信号的特征，较为准确地表示音频信号中语义。
109.例如，图8是根据一示例性实施例示出的一种基于时空注意力机制和通道注意力机制得到音频特征矩阵的神经网络的结构示意图。参见图8，该神经网络包括第一卷积层、第二卷积层、第三卷积层、局部池化、全局池化以及线性层。服务器通过第一卷积层中的时空注意力机制，对第一特征进行处理，得到第二特征。然后，服务器通过第二卷积层中的通道注意力机制，对第二特征进行处理，得到第三特征。然后，服务器对第二特征和第三特征进行残差，也即将第二特征和第三特征相加。然后，服务器通过第三卷积层对残差后得到的特征进行卷积，得到第五中间特征。然后，类似于上述对第一特征的处理方式，服务器对第五中间特征进行同样的处理，在此不再赘述。然后，服务器对处理后的特征进行池化，以得到第五中间特征中与语义相关的局部信息。另外，服务器还对第一特征进行全局池化后，将全局池化后的特征输入线性层，进行线性卷积，得到第四中间特征，从而得到音频信号中与语义相关的全部信息。然后，服务器对池化后的特征和第四中间特征进行融合。可选地，该融合方式是concat方式。
110.在步骤306中，通过语义识别模型中的关键字预测网络，对梅尔谱图进行关键字识别，得到关键字特征，该关键字特征用于表示音频信号中的关键字。
111.在本公开实施例中，该关键字预测网络用于识别音频信号中出现的关键字，从而得到能够表示音频信号中关键字的特征。服务器通过该关键字预测网络可以预测出关键字的数量为1个、2个或者多个，本公开实施例对此不加以限定。
112.在一些实施例中，该关键字预测网络所识别的关键字是预先设置的。相应地，服务器获取预设的多个关键字。然后，服务器通过关键字预测网络中的多个卷积层，对梅尔谱图进行多次卷积，得到第六中间特征。然后，服务器基于第六中间特征，确定出现的至少一个目标关键字，得到关键字特征。其中，该关键字特征包括音频信号中出现的至少一个目标关键字的特征。本公开实施例提供的方案，通过关键字预测网络中的多个卷积层，对梅尔谱图进行多次卷积，使得第六中间特征能够更加准确表示音频信号中所出现的文字的特征，再通过第六中间特征，识别音频信号中出现的与预设的关键字相同的目标关键字，将该目标关键字作为音频信号的关键字，从而得到音频信号的关键字特征，使得该关键字特征能够表示音频信号的中关键字的特征，利于后续通过该关键字特征指导生成的语义文本更加准确。其中，该关键字预测网络有多个卷积层和全连接层组成。
113.例如，图9是根据一示例性实施例示出的一种关键字预测网络的结构示意图。参见图9，该关键字预测网络由8个卷积层和2个全连接层组成。其中，每两个卷积层构成一个卷积模块。对于任一卷积模块，该卷积模块中的两个卷积层中卷积核的大小和数量是一样的。该卷积模块中还包含有归一化层和激活函数，该归一化层和激活函数连接在两个卷积层之后，也即在任一卷积模块中，服务器通过该卷积模块中的两个卷积层对输入的特征进行卷积，然后，服务器再通过归一化层和激活函数进行处理。每个卷积模块中卷积核的数量是不
同的，从上至下依次是64个、128个、256个以及512个。每个卷积模块后都连接有池化层。对于前三个卷积模块中的任一卷积模块而言，服务器采用2
×
2大小的卷积核，对该卷积模块输出的特征进行池化。池化层的输出为下一卷积模块的输入。对于最后一个卷积模块，服务器对该卷积模块输出的特征进行全局池化。然后，服务器通过第一全连接层和第二全连接层，对池化后的特征依次进行处理。其中，第一全连接层中卷积核的数量为512，第二全连接层中卷积核的数量为预设的关键字的数量。可选地，该第二全连接层中卷积核的数量为300。
114.在步骤307中，通过语义识别模型中的文本生成网络，对音频特征矩阵和关键字特征进行处理，得到音频信号的第一文本特征，该第一文本特征用于表示音频信号所表达的语义。
115.在本公开实施例中，该文本生成网络用于通过音频信号的音频特征矩阵和关键字特征，生成该音频信号的语义文本。其中，该语义文本包括多个字符。服务器通过文本生成网络，按照顺序依次预测语义文本中的多个字符，从而得到该音频信号的语义文本。在预测语义文本的过程中，服务器通过音频信号的音频特征矩阵和关键字特征，来确定该语义文本对应的第一文本特征，从而能够根据音频特征矩阵、关键字特征以及第一文本特征，生成音频信号的语义文本。
116.在一些实施例中，该语义识别模型包括文本特征提取网络，该文本特征提取网络用于获取第一文本特征。对于文本生成网络已预测出的字符，服务器通过文本特征提取网络，对已预测出的字符进行特征提取，得到已预测出的字符的文本特征。然后，服务器通过音频特征矩阵、关键字特征以及已预测出的字符的文本特征，预测当前字符。其中，已预测出的字符的文本特征为该字符在第一文本特征中对应的元素值。第一文本特征为语义文本对应的文本特征，包括语义文本中各个字符的文本特征。简而言之，对于预测语义文本中除首个字符外的其他任一字符，服务器能够通过该文本特征提取网络，提取位于字符之前的至少一个字符对应的文本特征，从而来预测该字符。相应地，服务器通过语义识别模型中的文本生成网络，对音频特征矩阵和关键字特征进行处理，得到语义文本的首个字符。然后，对于语义文本中除首个字符外的其他任一字符，服务器通过语义识别模型中的文本特征提取网络，对位于字符之前的至少一个字符进行特征提取，得到字符在第一文本特征中对应的元素值。其中，该字符对应的元素值用于预测字符。该文本特征提取网络可以是fasttext网络，本公开实施例对此不加以限定。该文本特征提取网络用于提取字符的embedding表征。本公开实施例提供的方案，对于语义文本的首个字符，通过音频特征矩阵和关键字特征来进行预测，对于除首个字符外的其他任一字符，通过位于该字符之前的至少一个字符对应的元素值、音频特征矩阵以及关键字特征来进行预测，使得不仅能够按照顺序依次预测语义文本中的各个字符，还能够基于已预测出的字符来预测当前字符，从而使得生成的语义文本更加流畅，准确性更高，更加准确表达音频信号的语义。
117.在步骤308中，将第一文本特征与关键字特征进行拼接，得到第二文本特征。
118.在本公开实施例中，第一文本特征的维度数与关键字特征的维度数相等。服务器将第一文本特征与关键字特征进行拼接，得到第二文本特征，该第二文本特征的维度数与关键字特征的维度数相等，该第二文本特征的行数是第一文本特征和关键字特征的行数的和。例如，该关键字特征的大小为1
×
300，该第一文本特征的大小为10
×
300，则该第二文本
特征的大小为11
×
300。其中，该300为预设的关键字的数量，也即关键字特征的维度数，10为该第一文本特征对应的语义文本中字符的数量，也即第一文本特征的行数。
119.在步骤309中，基于音频特征矩阵和第二文本特征，生成语义文本，该语义文本用于描述音频信号所表达的语义。
120.在本公开实施例中，服务器将第二文本特征输入该文本生成网络，通过该文本生成网络，对音频特征矩阵和第二文本特征进行处理，得到音频信号的语义文本。
121.在一些实施例中，服务器能够根据语义文本中字符的位置顺序，来依次预测语义文本中的各个字符，使得生成的语义文本更加流畅。相应地，服务器基于第二文本特征，获取位置编码特征，该位置编码特征用于表示各个字符的顺序特征。然后，服务器将位置编码特征与第二文本特征进行融合，得到融合特征。然后，服务器基于融合特征和音频特征矩阵，生成语义文本。本公开实施例提供的方案，通过获取能够表示语义文本中各个字符的顺序的位置编码特征，将该位置编码特征与第二文本特征进行融合，使得能够基于融合后的特征和音频特征矩阵来生成语义文本，从而能够按照顺序依次预测语义文本中的各个字符，使得生成的语义文本更加流畅，准确性更高，更加准确表达音频信号的语义。
122.例如，图10是根据一示例性实施例示出的一种文本生成网络的结构示意图。参见图10，该包括多头注意力机制、叠加层、归一化层、前馈神经网络、线性层以及分类层。服务器将第一文本特征和位置编码特征进行融合。然后，服务器对融合后的特征采用第一多头注意力机制进行处理。然后，通过叠加层和归一化层，对处理后的特征中的元素值进行规范化，使其在合理的范围内。然后，采用第二多头注意力机制，对规范化后的特征以及音频特征矩阵进行处理。然后，通过叠加层对第二多头注意力机制处理前后的特征进行叠加，也即残差。并且，通过归一化层对残差后的特征进行归一化。然后，通过前馈神经网络对归一化后的特征进行卷积。然后，通过叠加层对前馈神经网络卷积前后的特征进行叠加，并且通过归一化层对残差后的特征进行归一化。然后，服务器重复上述过程，输出的特征为线性层的输入。服务器通过该线性层对输入的特征进行线性卷积。然后，服务器通过分类层，对卷积后的特征进行识别。该分类层为softmax层。
123.其中，服务器能够通过以下公式二和公式三，来确定语义文本中字符对应的位置编码。
124.公式二：。
125.公式三：。
126.其中，用于表示字符对应的位置编码；用于表示单词的位置；为超参数，用于表示当字符为第偶数个字符时，采用公式二进行位置编码，当字符为第奇数个字符时，采用公式三进行位置编码；为位置编码的长度。
127.为了更加清楚地描述该语义识别模型的结构，下面结合附图再次对语义识别模型
的结构进行进一步描述。例如，图11是根据一示例性实施例示出的一种语义识别模型的结构示意图。参见图11，该语义识别模型包括音频特征提取网络、关键字预测网络、文本特征提取网络以及文本生成网络。服务器获取音频信号的对数梅尔频谱。然后，服务器将该对数梅尔频谱输入到音频特征提取网络和关键字预测网络。服务器通过音频特征提取网络，对梅尔谱图进行特征提取，得到该音频信号的音频特征矩阵。服务器通过关键字预测网络，对梅尔谱图进行关键字识别，得到该音频信号的关键字特征。服务器通过文本特征提取网络，生成该音频信号对应的第一文本特征。然后，服务器将关键字特征与第一文本特征进行融合，得到第二文本特征。然后，服务器通过文本生成网络，对第二文本特征和音频特征矩阵进行处理，以生成音频信号的语义文本。
128.需要说明的是，为了提高语义识别模型识别语义的准确性，能够预先对该语义识别模型进行训练。相应地，服务器能够通过以下步骤（1）-（6）来对语义识别模型进行训练。
129.（1）服务器通过音频特征提取网络，基于时空注意力机制和通道注意力机制，对样本音频信号的样本梅尔谱图进行特征提取，得到样本音频特征矩阵。
130.其中，步骤（1）中得到样本音频特征矩阵的方式与步骤301-305中得到音频特征矩阵的方式相似，在此不再赘述。
131.（2）服务器通过语义识别模型中的关键字预测网络，对样本梅尔谱图进行关键字识别，得到样本关键字特征。
132.其中，该样本关键字特征用于表示样本音频信号中的关键字。该关键字预测网络是预先训练好的神经网络，在对语义识别模型进行训练的过程中，该关键字预测网络的参数固定。步骤（2）中得到样本关键字特征的方式与步骤306中得到关键字特征的方式相似，在此不再赘述。
133.（3）服务器通过语义识别模型中的文本特征提取网络，对样本标签进行特征提取，得到第一样本文本特征。
134.其中，该样本标签用于描述样本音频信号所表达的语义。该样本标签为该样本音频信号的真实的语义文本。由于训练语义识别模型的过程中，能够通过样本标签，直接得到语义文本对应的完整的第一样本文本特征，因此，无需再根据文本生成网络预测出的字符来提取文本特征。
135.（4）服务器将第一样本文本特征与样本关键字特征进行拼接，得到第二样本文本特征。
136.其中，步骤（4）中第一样本文本特征与样本关键字特征进行拼接的方式与步骤308中进行拼接的方式相似，在此不再赘述。
137.（5）服务器通过文本生成网络，基于样本音频特征矩阵和第二样本文本特征，生成样本音频信号的样本语义文本。
138.其中，步骤（5）中生成样本语义文本的方式与步骤309中生成语义文本的方式相似，服务器能够通过文本生成网络，依次预测样本语义文本中的各个字符，在此不再赘述。或者，由于能够直接得到语义文本对应的完整的第一样本文本特征，则服务器还能够通过文本生成网络，并行预测样本语义文本中的各个字符，本公开对此不加以限定。
139.（6）服务器基于样本语义文本和样本标签的差异，训练语义识别模型。
140.其中，为了减小样本语义文本和样本标签的差异，服务器能够调整音频特征提取
网络的参数、文本特征提取网络的参数以及文本生成网络的参数。
141.本公开实施例提供的方案，通过时空注意力机制和通道注意力机制对样本音频信号的样本梅尔谱图进行特征提取，使得提取到的样本音频特征矩阵能够表示样本音频信号的特征，然后通过关键字预测网络来对该样本梅尔谱图进行关键字识别，使得识别到的样本关键字特征能够表示样本音频信号的中关键字的特征，然后通过文本特征提取网络对样本标签进行特征提取，使得第一样本文本特征能够表示样本音频信号所表达的语义，再通过文本生成网络对第一样本文本特征与样本关键字特征拼接后的第二样本文本特征以及样本音频特征矩阵进行处理，使得能够基于样本关键字特征来指导样本语义文本的生成，最后通过样本语义文本和样本标签的差异来训练语义识别模型，能够提高语义识别模型生成语义文本的准确率，从而使得语义识别模型更加准确地识别音频信号的语义。
142.本公开提供了一种音频信号的语义文本的生成方法，通过时空注意力机制和通道注意力机制对音频信号的梅尔谱图进行特征提取，使得提取到的音频特征矩阵能够表示音频信号的特征，再通过关键字预测网络来对该梅尔谱图进行关键字识别，使得识别到的关键字特征能够表示音频信号的中关键字的特征，最后通过文本生成网络对音频特征矩阵和关键字特征进行处理，使得能够基于关键字特征来指导语义文本的生成，从而能够提高语义文本的准确率，进而更加准确表达音频信号的语义。
143.上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。
144.图12是根据一示例性实施例示出的一种语义文本的生成装置的结构示意图。参见图12，该装置包括：获取单元1201、第一提取单元1202以及生成单元1203。
145.获取单元1201，被配置为执行获取音频信号的梅尔谱图。
146.第一提取单元1202，被配置为执行通过语义识别模型中的音频特征提取网络，基于时空注意力机制和通道注意力机制，对该梅尔谱图进行特征提取，得到音频特征矩阵，该语义识别模型用于识别输入的音频信号所表达的语义。
147.生成单元1203，被配置为执行通过语义识别模型中的文本生成网络，基于音频特征矩阵，生成语义文本，该语义文本用于描述音频信号所表达的语义。
148.本公开提供了一种音频信号的语义文本的生成装置，不仅通过时空注意力机制来提取音频信号的特征，还能够基于通道注意力机制来提取音频信号的特征，使得提取到的音频特征矩阵能够表示音频信号的特征，再通过文本生成网络对音频特征矩阵进行处理，使得能够基于该音频特征矩阵来生成语义文本，能够提高语义文本的准确率，从而更加准确表达音频信号的语义。
149.在一些实施例中，图13是根据一示例性实施例示出的另一种语义文本的生成装置的结构示意图。参见图13，该第一提取单元1202，包括下述子单元。
150.提取子单元1301，被配置为执行通过音频特征提取网络中的卷积神经层，对梅尔谱图进行特征提取，得到第一特征。
151.第一处理子单元1302，被配置为执行基于时空注意力机制，对第一特征进行处理，得到第二特征。
152.第二处理子单元1303，被配置为执行基于通道注意力机制，对第二特征进行处理，得到第三特征。
153.确定子单元1304，被配置为执行基于第一特征、第二特征以及第三特征，确定音频特征矩阵。
154.在一些实施例中，继续参见图13，该第一处理子单元1302，被配置为执行基于时空注意力机制，对第一特征进行深度卷积，得到第一中间特征；对第一中间特征进行逐点卷积，得到第二中间特征；将第一特征与第二中间特征的哈达玛积，确定为第二特征。
155.在一些实施例中，继续参见图13，该第二处理子单元1303，被配置为执行基于通道注意力机制，对第二特征进行处理，得到第三中间特征，该第三中间特征中的元素用于表示第二特征中不同通道的权重；将第三中间特征与第二特征的哈达玛积，确定为第三特征。
156.在一些实施例中，继续参见图13，该确定子单元1304，被配置为执行对第一特征进行全局池化和线性卷积，得到第四中间特征；对第二特征和第三特征进行残差和卷积，得到第五中间特征；基于第四中间特征和第五中间特征，确定音频特征矩阵。
157.在一些实施例中，继续参见图13，该装置还包括下述子单元。
158.预测单元1204，被配置为执行通过该语义识别模型中的关键字预测网络，对该梅尔谱图进行关键字识别，得到关键字特征，该关键字特征用于表示音频信号中的关键字。
159.生成单元1203，被配置为执行通过该语义识别模型中的文本生成网络，基于音频特征矩阵和关键字特征，生成语义文本。
160.在一些实施例中，继续参见图13，该预测单元1204，被配置为执行获取预设的多个关键字；通过关键字预测网络中的多个卷积层，对梅尔谱图进行多次卷积，得到第六中间特征；基于第六中间特征，确定出现的至少一个目标关键字，得到关键字特征，该关键字特征包括音频信号中出现的至少一个目标关键字的特征。
161.在一些实施例中，继续参见图13，该生成单元1203，包括下述子单元。
162.第三处理子单元1305，被配置为执行通过语义识别模型中的文本生成网络，对音频特征矩阵和关键字特征进行处理，得到音频信号的第一文本特征，该第一文本特征用于表示音频信号所表达的语义。
163.拼接子单元1306，被配置为执行将第一文本特征与关键字特征进行拼接，得到第二文本特征。
164.生成子单元1307，被配置为执行基于音频特征矩阵和第二文本特征，生成语义文本。
165.在一些实施例中，继续参见图13，该第三处理子单元1305，被配置为执行通过语义识别模型中的文本生成网络，对音频特征矩阵和关键字特征进行处理，得到语义文本的首个字符；对于语义文本中除首个字符外的其他任一字符，通过语义识别模型中的文本特征提取网络，对位于字符之前的至少一个字符进行特征提取，得到字符在第一文本特征中对应的元素值，该字符对应的元素值用于预测字符。
166.在一些实施例中，继续参见图13，该生成子单元1307，被配置为执行基于第二文本特征，获取位置编码特征，该位置编码特征用于表示各个字符的顺序特征；将位置编码特征与第二文本特征进行融合，得到融合特征；基于融合特征和音频特征矩阵，生成语义文本。
167.在一些实施例中，继续参见图13，该装置还包括下述子单元。
168.第一提取单元1202，还被配置为执行通过音频特征提取网络，基于时空注意力机制和通道注意力机制，对样本音频信号的样本梅尔谱图进行特征提取，得到样本音频特征
矩阵。
169.预测单元1204，还被配置为执行通过语义识别模型中的关键字预测网络，对样本梅尔谱图进行关键字识别，得到样本关键字特征，样本关键字特征用于表示样本音频信号中的关键字。
170.第二提取单元1205，被配置为执行通过语义识别模型中的文本特征提取网络，对样本标签进行特征提取，得到第一样本文本特征，该样本标签用于描述样本音频信号所表达的语义。
171.拼接单元1206，被配置为执行将第一样本文本特征与样本关键字特征进行拼接，得到第二样本文本特征。
172.生成单元1203，还被配置为执行通过文本生成网络，基于样本音频特征矩阵和第二样本文本特征，生成样本音频信号的样本语义文本。
173.训练单元1207，被配置为执行基于样本语义文本和样本标签的差异，训练语义识别模型。
174.需要说明的是，上述实施例提供的语义文本的生成装置在生成语义文本时，仅以上述各功能单元的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元完成，即将电子设备的内部结构划分成不同的功能单元，以完成以上描述的全部或者部分功能。另外，上述实施例提供的语义文本的生成装置与语义文本的生成方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。
175.关于上述实施例中的装置，其中各个单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。
176.电子设备被提供为终端时，图14是根据一示例性实施例示出的一种终端1400的框图。该终端1400还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
177.通常，终端1400包括有：处理器1401和存储器1402。
178.处理器1401可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1401可以采用dsp（digital signal processing，数字信号处理）、fpga（field－programmable gate array，现场可编程门阵列）、pla（programmable logic array，可编程逻辑阵列）中的至少一种硬件形式来实现。处理器1401也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称cpu（central processing unit，中央处理器）；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1401可以在集成有gpu（graphics processing unit，图像处理器），gpu用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1401还可以包括ai（artificial intelligence，人工智能）处理器，该ai处理器用于处理有关机器学习的计算操作。
179.存储器1402可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1402还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1402中的非暂态的计算机可读存储介质用于存储至少一个程序代码，该至少一个程序代码用于被处理器1401所执行以实现本公开中方法实施例提供的语义文本的生成方法。
180.在一些实施例中，终端1400还可选包括有：外围设备接口1403和至少一个外围设
备。处理器1401、存储器1402和外围设备接口1403之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1403相连。具体地，外围设备包括：射频电路1404、显示屏1405、摄像头组件1406、音频电路1407、定位组件1408和电源1409中的至少一种。
181.外围设备接口1403可被用于将i/o（input /output，输入/输出）相关的至少一个外围设备连接到处理器1401和存储器1402。在一些实施例中，处理器1401、存储器1402和外围设备接口1403被集成在同一芯片或电路板上；在一些其他实施例中，处理器1401、存储器1402和外围设备接口1403中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。
182.射频电路1404用于接收和发射rf（radio frequency，射频）信号，也称电磁信号。射频电路1404通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1404将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路1404包括：天线系统、rf收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1404可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络（2g、3g、4g及5g）、无线局域网和/或wifi（wireless fidelity，无线保真）网络。在一些实施例中，射频电路1404还可以包括nfc（near field communication，近距离无线通信）有关的电路，本公开对此不加以限定。
183.显示屏1405用于显示ui（user interface，用户界面）。该ui可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1405是触摸显示屏时，显示屏1405还具有采集在显示屏1405的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1401进行处理。此时，显示屏1405还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏1405可以为一个，设置终端1400的前面板；在另一些实施例中，显示屏1405可以为至少两个，分别设置在终端1400的不同表面或呈折叠设计；在再一些实施例中，显示屏1405可以是柔性显示屏，设置在终端1400的弯曲表面上或折叠面上。甚至，显示屏1405还可以设置成非矩形的不规则图形，也即异形屏。显示屏1405可以采用lcd（liquid crystal display，液晶显示屏）、oled（organic light-emitting diode，有机发光二极管）等材质制备。
184.摄像头组件1406用于采集图像或视频。可选地，摄像头组件1406包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及vr（virtual reality，虚拟现实）拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件1406还可以包括闪光灯。闪光灯可以是单温闪光灯，也可以是双温闪光灯。双温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同温下的光线补偿。
185.音频电路1407可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1401进行处理，或者输入至射频电路1404以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端1400的不同部位。
麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1401或射频电路1404的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路1407还可以包括耳机插孔。
186.定位组件1408用于定位终端1400的当前地理位置，以实现导航或lbs（location based service，基于位置的服务）。定位组件1408可以是基于美国的gps（global positioning system，全球定位系统）、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。
187.电源1409用于为终端1400中的各个组件进行供电。电源1409可以是交流电、直流电、一次性电池或可充电电池。当电源1409包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。
188.在一些实施例中，终端1400还包括有一个或多个传感器1410。该一个或多个传感器1410包括但不限于：加速度传感器1411、陀螺仪传感器1412、压力传感器1413、指纹传感器1414、光学传感器1415以及接近传感器1416。
189.加速度传感器1411可以检测以终端1400建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器1411可以用于检测重力加速度在三个坐标轴上的分量。处理器1401可以根据加速度传感器1411采集的重力加速度信号，控制显示屏1405以横向视图或纵向视图进行用户界面的显示。加速度传感器1411还可以用于游戏或者用户的运动数据的采集。
190.陀螺仪传感器1412可以检测终端1400的机体方向及转动角度，陀螺仪传感器1412可以与加速度传感器1411协同采集用户对终端1400的3d动作。处理器1401根据陀螺仪传感器1412采集的数据，可以实现如下功能：动作感应（比如根据用户的倾斜操作来改变ui）、拍摄时的图像稳定、游戏控制以及惯性导航。
191.压力传感器1413可以设置在终端1400的侧边框和/或显示屏1405的下层。当压力传感器1413设置在终端1400的侧边框时，可以检测用户对终端1400的握持信号，由处理器1401根据压力传感器1413采集的握持信号进行左右手识别或快捷操作。当压力传感器1413设置在显示屏1405的下层时，由处理器1401根据用户对显示屏1405的压力操作，实现对ui界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
192.指纹传感器1414用于采集用户的指纹，由处理器1401根据指纹传感器1414采集到的指纹识别用户的身份，或者，由指纹传感器1414根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器1401授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1414可以被设置终端1400的正面、背面或侧面。当终端1400上设置有物理按键或厂商logo时，指纹传感器1414可以与物理按键或厂商logo集成在一起。
193.光学传感器1415用于采集环境光强度。在一个实施例中，处理器1401可以根据光学传感器1415采集的环境光强度，控制显示屏1405的显示亮度。具体地，当环境光强度较高时，调高显示屏1405的显示亮度；当环境光强度较低时，调低显示屏1405的显示亮度。在另
一个实施例中，处理器1401还可以根据光学传感器1415采集的环境光强度，动态调整摄像头组件1406的拍摄参数。
194.接近传感器1416，也称距离传感器，通常设置在终端1400的前面板。接近传感器1416用于采集用户与终端1400的正面之间的距离。在一个实施例中，当接近传感器1416检测到用户与终端1400的正面之间的距离逐渐变小时，由处理器1401控制显示屏1405从亮屏状态切换为息屏状态；当接近传感器1416检测到用户与终端1400的正面之间的距离逐渐变大时，由处理器1401控制显示屏1405从息屏状态切换为亮屏状态。
195.本领域技术人员可以理解，图14中示出的结构并不构成对终端1400的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。
196.电子设备被提供为服务器时，图15是根据一示例性实施例示出的一种服务器1500的框图，该服务器1500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器（central processing units，cpu）1501和一个或一个以上的存储器1502，其中，该存储器1502中存储有至少一条程序代码，该至少一条程序代码由该处理器1501加载并执行以实现上述各个方法实施例提供的语义文本的生成方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器1500还可以包括其他用于实现设备功能的部件，在此不做赘述。
197.在示例性实施例中，还提供了一种包括指令的计算机可读存储介质，例如包括指令的存储器1402或者存储器1502，上述指令可由终端1400的处理器1401或者服务器1500的处理器1501执行以完成上述方法。可选地，计算机可读存储介质可以是rom、随机存取存储器（ram）、cd-rom、磁带、软盘和光数据存储设备等。
198.一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述语义文本的生成方法。
199.本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。
200.应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

技术特征：

1.一种语义文本的生成方法，其特征在于，所述方法包括：获取音频信号的梅尔谱图；通过语义识别模型中的音频特征提取网络，基于时空注意力机制和通道注意力机制，对所述梅尔谱图进行特征提取，得到音频特征矩阵，所述语义识别模型用于识别输入的音频信号所表达的语义；通过所述语义识别模型中的文本生成网络，基于所述音频特征矩阵，生成语义文本，所述语义文本用于描述所述音频信号所表达的语义。2.根据权利要求1所述的语义文本的生成方法，其特征在于，所述基于时空注意力机制和通道注意力机制，对所述梅尔谱图进行特征提取，得到音频特征矩阵，包括：通过所述音频特征提取网络中的卷积神经层，对所述梅尔谱图进行特征提取，得到第一特征；基于所述时空注意力机制，对所述第一特征进行处理，得到第二特征；基于所述通道注意力机制，对所述第二特征进行处理，得到第三特征；基于所述第一特征、所述第二特征以及所述第三特征，确定所述音频特征矩阵。3.根据权利要求2所述的语义文本的生成方法，其特征在于，所述基于所述时空注意力机制，对所述第一特征进行处理，得到第二特征，包括：基于所述时空注意力机制，对所述第一特征进行深度卷积，得到第一中间特征；对所述第一中间特征进行逐点卷积，得到第二中间特征；将所述第一特征与所述第二中间特征的哈达玛积，确定为所述第二特征。4.根据权利要求2所述的语义文本的生成方法，其特征在于，所述基于所述通道注意力机制，对所述第二特征进行处理，得到第三特征，包括：基于所述通道注意力机制，对所述第二特征进行处理，得到第三中间特征，所述第三中间特征中的元素用于表示所述第二特征中不同通道的权重；将所述第三中间特征与所述第二特征的哈达玛积，确定为所述第三特征。5.根据权利要求2所述的语义文本的生成方法，其特征在于，所述基于所述第一特征、所述第二特征以及所述第三特征，确定所述音频特征矩阵，包括：对所述第一特征进行全局池化和线性卷积，得到第四中间特征；对所述第二特征和所述第三特征进行残差和卷积，得到第五中间特征；基于所述第四中间特征和所述第五中间特征，确定所述音频特征矩阵。6.根据权利要求1-5任一项所述的语义文本的生成方法，其特征在于，所述方法还包括：通过所述语义识别模型中的关键字预测网络，对所述梅尔谱图进行关键字识别，得到关键字特征，所述关键字特征用于表示所述音频信号中的关键字；所述通过所述语义识别模型中的文本生成网络，基于所述音频特征矩阵，生成语义文本，包括：通过所述语义识别模型中的文本生成网络，基于所述音频特征矩阵和所述关键字特征，生成所述语义文本。7.根据权利要求6所述的语义文本的生成方法，其特征在于，所述对所述梅尔谱图进行关键字识别，得到关键字特征，包括：
获取预设的多个关键字；通过所述关键字预测网络中的多个卷积层，对所述梅尔谱图进行多次卷积，得到第六中间特征；基于所述第六中间特征，确定出现的至少一个目标关键字，得到所述关键字特征，所述关键字特征包括所述音频信号中出现的所述至少一个目标关键字的特征。8.根据权利要求6所述的语义文本的生成方法，其特征在于，所述通过所述语义识别模型中的文本生成网络，基于所述音频特征矩阵和所述关键字特征，生成所述语义文本，包括：通过所述语义识别模型中的文本生成网络，对所述音频特征矩阵和所述关键字特征进行处理，得到所述音频信号的第一文本特征，所述第一文本特征用于表示所述音频信号所表达的语义；将所述第一文本特征与所述关键字特征进行拼接，得到第二文本特征；基于所述音频特征矩阵和所述第二文本特征，生成所述语义文本。9.根据权利要求8所述的语义文本的生成方法，其特征在于，所述通过所述语义识别模型中的文本生成网络，对所述音频特征矩阵和所述关键字特征进行处理，得到所述音频信号的第一文本特征，包括：通过所述语义识别模型中的文本生成网络，对所述音频特征矩阵和所述关键字特征进行处理，得到所述语义文本的首个字符；对于所述语义文本中除首个字符外的其他任一字符，通过所述语义识别模型中的文本特征提取网络，对位于所述字符之前的至少一个字符进行特征提取，得到所述字符在所述第一文本特征中对应的元素值，所述字符对应的元素值用于预测所述字符。10.根据权利要求8所述的语义文本的生成方法，其特征在于，所述基于所述音频特征矩阵和所述第二文本特征，生成所述语义文本，包括：基于所述第二文本特征，获取位置编码特征，所述位置编码特征用于表示各个字符的顺序特征；将所述位置编码特征与第二文本特征进行融合，得到融合特征；基于所述融合特征和所述音频特征矩阵，生成所述语义文本。11.根据权利要求1-5任一项所述的语义文本的生成方法，其特征在于，所述方法还包括：通过所述音频特征提取网络，基于时空注意力机制和通道注意力机制，对样本音频信号的样本梅尔谱图进行特征提取，得到样本音频特征矩阵；通过所述语义识别模型中的关键字预测网络，对所述样本梅尔谱图进行关键字识别，得到样本关键字特征，所述样本关键字特征用于表示所述样本音频信号中的关键字；通过所述语义识别模型中的文本特征提取网络，对样本标签进行特征提取，得到第一样本文本特征，所述样本标签用于描述所述样本音频信号所表达的语义；将所述第一样本文本特征与所述样本关键字特征进行拼接，得到第二样本文本特征；通过所述文本生成网络，基于所述样本音频特征矩阵和所述第二样本文本特征，生成所述样本音频信号的样本语义文本；基于所述样本语义文本和所述样本标签的差异，训练所述语义识别模型。
12.一种语义文本的生成装置，其特征在于，所述装置包括：获取单元，被配置为执行获取音频信号的梅尔谱图；第一提取单元，被配置为执行通过语义识别模型中的音频特征提取网络，基于时空注意力机制和通道注意力机制，对所述梅尔谱图进行特征提取，得到音频特征矩阵，所述语义识别模型用于识别输入的音频信号所表达的语义；生成单元，被配置为执行通过所述语义识别模型中的文本生成网络，基于所述音频特征矩阵，生成语义文本，所述语义文本用于描述所述音频信号所表达的语义。13.一种电子设备，其特征在于，所述电子设备包括：一个或多个处理器；用于存储所述处理器可执行程序代码的存储器；其中，所述处理器被配置为执行所述程序代码，以实现如权利要求1至11任一项所述的语义文本的生成方法。14.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至11任一项所述的语义文本的生成方法。

技术总结

本公开提供了一种语义文本的生成方法、装置、电子设备及存储介质，属于音频处理技术领域。该方法包括：获取音频信号的梅尔谱图；通过语义识别模型中的音频特征提取网络，基于时空注意力机制和通道注意力机制，对所述梅尔谱图进行特征提取，得到音频特征矩阵；通过所述语义识别模型中的文本生成网络，基于所述音频特征矩阵，生成语义文本。上述方案不仅基于时空注意力机制来提取音频信号的特征，还能够基于通道注意力机制来提取音频信号的特征，使得提取到的音频特征矩阵能够准确表示音频信号的特征，从而能够提高语义文本的准确率，进而更加准确表达音频信号的语义。加准确表达音频信号的语义。加准确表达音频信号的语义。