音频处理方法、装置、存储介质及电子设备与流程

1.本发明涉及计算机技术和音频处理领域，具体而言，涉及一种音频处理方法、装置、存储介质及电子设备。

背景技术：

2.在涉及音频处理的应用领域(如音频会议、语音翻译和智能语音助手等)中，通常需要对音频进行语义分割或标记，以基于音频进行信息检索和音频跳转。
3.相关技术中，主要基于词粒度或音频帧粒度对音频进行语义分析和分割处理以实现音轨语义分割，然而，这种方法的缺陷在于：计算难度大、效率低、分割准确度低且难以大规模应用。
4.针对上述的问题，目前尚未提出有效的解决方案。

技术实现要素：

5.本发明实施例提供了一种音频处理方法、装置、存储介质及电子设备，以至少解决相关技术中基于词粒度或音频帧粒度进行音轨语义分割的方法其计算难度大、效率低和分割准确度低的技术问题。
6.根据本发明实施例的一个方面，提供了一种音频处理方法，包括：获取待识别的原始音频数据；对原始音频数据进行语音识别，得到识别结果；按照目标分割粒度对识别结果进行语义分割，得到分割结果，其中，目标分割粒度用于按照文本离散表示方式确定语义分割对应的分割位置；将分割结果映射至原始音频数据对应的音轨，得到目标音频数据；输出目标音频数据。
7.根据本发明实施例的另一方面，还提供了一种音频处理方法，包括：接收来自于客户端的待识别的原始音频数据；对原始音频数据进行语音识别以得到识别结果，按照目标分割粒度对识别结果进行语义分割以得到分割结果，以及将分割结果映射至原始音频数据对应的音轨以得到目标音频数据，其中，目标分割粒度用于按照文本离散表示方式确定语义分割对应的分割位置；向客户端反馈目标音频数据。
8.根据本发明实施例的另一方面，还提供了一种音频处理装置，包括：获取模块，用于获取待识别的原始音频数据；识别模块，用于对原始音频数据进行语音识别，得到识别结果；分割模块，用于按照目标分割粒度对识别结果进行语义分割，得到分割结果，其中，目标分割粒度用于按照文本离散表示方式确定语义分割对应的分割位置；处理模块，用于将分割结果映射至原始音频数据对应的音轨，得到目标音频数据；输出模块，用于输出目标音频数据。
9.根据本发明实施例的另一方面，还提供了一种计算机可读存储介质，上述计算机可读存储介质包括存储的程序，其中，在上述程序运行时控制上述存储介质所在设备执行任意一项上述的音频处理方法。
10.根据本发明实施例的另一方面，还提供了一种电子设备，包括：处理器；以及存储
器，与上述处理器连接，用于为上述处理器提供处理以下处理步骤的指令：获取待识别的原始音频数据；对原始音频数据进行语音识别，得到识别结果；按照目标分割粒度对识别结果进行语义分割，得到分割结果，其中，目标分割粒度用于按照文本离散表示方式确定语义分割对应的分割位置；将分割结果映射至原始音频数据对应的音轨，得到目标音频数据；输出目标音频数据。
11.在本发明实施例中，首先获取待识别的原始音频数据，采用对原始音频数据进行语音识别的方式得到识别结果，然后按照目标分割粒度对识别结果进行语义分割，得到分割结果，其中，目标分割粒度用于按照文本离散表示方式确定语义分割对应的分割位置，通过将分割结果映射至原始音频数据对应的音轨，得到目标音频数据，进而输出目标音频数据。
12.容易注意到的是，根据本发明实施例提供的方法，基于文本离散表示方式(如词袋表示方式)对应的分割粒度，对音频数据的语音识别结果进行语义分割，达到了基于目标分割粒度对音频进行准确高效的音轨语义分割的目的，从而实现了提高对音频进行音轨语义分割的效率和准确度的技术效果，进而解决了相关技术中基于词粒度或音频帧粒度进行音轨语义分割的方法其计算难度大、效率低和分割准确度低的技术问题。
附图说明
13.此处所说明的附图用来提供对本发明的进一步理解，构成本技术的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：
14.图1示出了一种用于实现音频处理方法的计算机终端(或移动设备)的硬件结构框图；
15.图2是根据本发明实施例的一种音频处理方法的流程图；
16.图3是根据本发明实施例的一种可选的音轨语义分割过程的示意图；
17.图4是根据本发明实施例的一种可选的词袋分割模型的示意图；
18.图5是根据本发明实施例的一种可选的词袋分割原理的示意图；
19.图6是根据本发明实施例的一种可选的音频处理方法的流程图；
20.图7是根据本发明实施例的一种在云端服务器进行音频处理的示意图；
21.图8是根据本发明实施例的一种音频处理装置的结构示意图；
22.图9是根据本发明实施例的另一种计算机终端的结构框图。
具体实施方式
23.为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。
24.需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或
描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
25.首先，在对本发明实施例进行描述的过程中出现的部分名词或术语适用于如下解释：
26.自动语音转写(automatic speech recognition，asr)：是指一种通过机器将语音自动转换为文字的技术。
27.词袋(bag of words，bow)：是指一种文本离散表示方式，将句子或是文件中的文字用一个“袋子”装着，而不考虑文法以及词的顺序。词袋模型中将词袋作为音轨语义分割点的最小判断单元。
28.实施例1
29.根据本发明实施例，还提供了一种音频处理方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。
30.本发明实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现音频处理方法的计算机终端(或移动设备)的硬件结构框图。如图1所示，计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a，102b，
……
，102n来示出)处理器102(处理器102可以包括但不限于微处理器mcu或可编程逻辑器件fpga等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输装置106。除此以外，还可以包括：显示器、键盘、光标控制设备(如鼠标)、输入/输出接口(i/o接口)、通用串行总线(usb)端口(可以作为bus总线的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。
31.应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本发明实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
32.存储器104可用于存储应用软件的软件程序以及模块，如本发明实施例中的音频处理方法对应的程序指令/数据存储装置，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的音频处理方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
33.传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括
计算机终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(network interface controller，nic)，其可通过与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(radio frequency，rf)模块，其用于通过无线方式与互联网进行通讯。
34.显示器可以例如触摸屏式的液晶显示器(lcd)，该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。
35.此处需要说明的是，在一些可选实施例中，上述图1所示的计算机设备(或移动设备)可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是，图1仅为特定具体实例的一个实例，并且旨在示出可存在于上述计算机设备(或移动设备)中的部件的类型。
36.在上述运行环境下，本发明提供了如图2所示的一种音频处理方法。图2是根据本发明实施例的一种音频处理方法的流程图，如图2所示，该音频处理方法包括：
37.步骤s21，获取待识别的原始音频数据；
38.步骤s22，对原始音频数据进行语音识别，得到识别结果；
39.步骤s23，按照目标分割粒度对识别结果进行语义分割，得到分割结果，其中，目标分割粒度用于按照文本离散表示方式确定语义分割对应的分割位置；
40.步骤s24，将分割结果映射至原始音频数据对应的音轨，得到目标音频数据；
41.步骤s25，输出目标音频数据。
42.上述待识别的原始音频数据可以是在涉及音频处理的应用领域(如音频会议、语音翻译和智能语音助手等)中的音频数据。该待识别的原始音频数据中可以包含数字化的人声语音数据。
43.对上述原始音频数据进行语音识别可以是：通过语音识别工具(如智能语音识别模型和语音自动转换工具等)将该原始音频数据转换为文本数据。上述识别结果可以是与上述待识别的原始音频数据对应的文本数据。
44.上述目标分割粒度可以由文本离散表示方式(例如可以是词袋表示方式)确定。该目标分割粒度可以用于按照该文本离散表示方式确定语义分割对应的分割位置。该分割位置可以是文本数据中多个字符之间确定的语义分割位置。
45.按照上述目标分割粒度对上述原始音频数据对应的识别结果进行语义分割，可以得到上述分割结果。该分割结果可以用于确定该识别结果对应的语义分割信息。
46.将上述分割结果映射至上述原始音频数据对应的音轨，可以得到上述目标音频数据。该目标音频数据可以是带有语义分割信息的结构化音频数据。
47.图3是根据本发明实施例的一种可选的音轨语义分割过程的示意图，如图3所示，在音轨语义分割的过程中，首先通过语音识别将原始音频文件audio01识别为文字序列char01；然后对该文字序列char01进行核心词袋分割，得到分割结果r01；最后将该分割结果r01输出。
48.上述分割结果r01可以用于得到与原始音频文件audio01对应的目标音频文件audio02，该目标音频文件audio02中带有该分割结果r01中的语义分割信息。
49.具体地，按照目标分割粒度对识别结果进行语义分割，得到分割结果，还包括其他方法步骤，可以参照下文中对于本发明实施例的进一步介绍，此处不予赘述。
50.在本发明实施例中，首先获取待识别的原始音频数据，采用对原始音频数据进行语音识别的方式得到识别结果，然后按照目标分割粒度对识别结果进行语义分割，得到分割结果，其中，目标分割粒度用于按照文本离散表示方式确定语义分割对应的分割位置，通过将分割结果映射至原始音频数据对应的音轨，得到目标音频数据，进而输出目标音频数据。
51.容易注意到的是，根据本发明实施例提供的方法，基于文本离散表示方式(如词袋表示方式)对应的分割粒度，对音频数据的语音识别结果进行语义分割，达到了基于目标分割粒度对音频进行准确高效的音轨语义分割的目的，从而实现了提高对音频进行音轨语义分割的效率和准确度的技术效果，进而解决了相关技术中基于词粒度或音频帧粒度进行音轨语义分割的方法其计算难度大、效率低和分割准确度低的技术问题。
52.下面对本发明实施例的上述方法进行进一步介绍。
53.在一种可选的实施例中，在步骤s23中，目标分割粒度为词袋粒度，按照目标分割粒度对识别结果进行语义分割，得到分割结果，包括如下方法步骤：
54.步骤s231，对识别结果进行词袋聚合，得到多个词袋；
55.步骤s232，按照词袋粒度对多个词袋中是否存在分割位置进行预测，得到预测结果；
56.步骤s233，基于预测结果对识别结果进行语义分割，得到分割结果。
57.上述识别结果可以是与上述待识别的原始音频数据对应的文本数据。该文本数据中可以包含多个字符。
58.对上述识别结果进行词袋聚合，可以是通过词袋聚合模型对该识别结果进行处理。通过对识别结果进行词袋聚合处理，可以得到上述多个词袋。
59.上述目标分割粒度可以是词袋粒度，该词袋粒度可以用于按照词袋确定语义分割对应的分割位置。
60.按照上述词袋粒度对上述词袋聚合得到的多个词袋中是否存在分割位置进行预测，进而得到上述预测结果。该分割位置可以是文本数据中多个字符之间确定的语义分割位置。该预测结果可以用于确定该多个词袋中存在的分割位置信息。
61.基于上述预测结果，可以对上述识别结果进行语义分割，进而得到上述分割结果。该分割结果可以用于确定该识别结果对应的语义分割信息。
62.仍然如图3所示，对文字序列char01进行核心词袋分割可以包括词袋聚合(相当于上述步骤s231)和语义分割(相当于上述步骤s232和步骤s233)两个阶段。
63.图4是根据本发明实施例的一种可选的词袋分割模型的示意图，如图4所示，基于原始音频文件audio01识别得到的文字序列char01包括的多个字符分别记为：字符11、字符12、
…
、字符nn。对该文字序列char01进行词袋聚合，可以得到多个词袋(图中以4个词袋为例)。
64.在一种可选的实施例中，在步骤s231中，对识别结果进行词袋聚合，得到多个词袋，包括如下方法步骤：
65.步骤s234，基于原始音频数据的应用场景，确定识别结果对应的聚合粒度；
66.步骤s235，按照聚合粒度对识别结果进行词袋聚合，得到多个词袋。
67.上述原始音频数据的应用场景可以是任何涉及音频识别、音频分析、音频处理以
及音频检索的场景。例如：该应用场景可以是各种应用领域(如金融领域、教育领域、医疗领域、农业领域、工业领域和互联网领域等)下的语音会议场景、智能客服场景、语音输入场景和语音助手场景等。
68.基于上述原始音频数据的应用场景，可以确定上述识别结果对应的聚合粒度。例如：根据原始音频数据的实际应用场景需求，可以确定上述识别结果对应的聚合粒度为句子聚合、段落聚合或者发言人聚合等。
69.按照该聚合粒度，可以对上述识别结果进行词袋聚合，进而得到上述多个词袋。例如：当上述聚合粒度为句子聚合时，通过词袋聚合模型对识别结果中的文本数据进行词袋聚合，可以得到多个句子词袋，该多个句子词袋中每个句子词袋中包含一个词袋聚合得到的句子。
70.仍然如图4所示，在词袋聚合模型中，首先确定词袋粒度(可以是技术人员根据应用场景预先指定的，也可以是该词袋聚合模型根据应用场景和词袋粒度选取策略确定的)，然后根据词袋粒度对文字序列char01进行词袋聚合，得到多个词袋(如图4中的词袋1、词袋2、词袋3和词袋4)。
71.在一种可选的实施例中，在步骤s232中，按照词袋粒度对多个词袋中是否存在分割位置进行预测，得到预测结果，包括如下方法步骤：
72.步骤s236，按照词袋粒度对多个词袋进行特征提取，得到提取结果；
73.步骤s237，基于提取结果对多个词袋中每个词袋是否存在分割位置进行预测，得到预测结果。
74.按照上述词袋粒度对上述多个词袋进行特征抽取，可以得到上述提取结果。该提取结果中包括：多个词袋中每个词袋对应的词袋特征。
75.基于上述提取结果，可以预测上述多个词袋中每个词袋是否存在分割位置，进而得到上述预测结果。该预测结果可以用于确定该多个词袋中存在的分割位置信息。
76.图5是根据本发明实施例的一种可选的词袋分割原理的示意图，如图5所示，按照词袋粒度对词袋聚合得到的多个词袋(如图4中的词袋1、词袋2、词袋3和词袋4)进行特征提取，可以得到提取结果，该提取结果可以包括多个词袋特征(如图5中的特征e1、特征e2、特征e3等)；然后，基于提取结果中的多个词袋特征进行是否存在分割位置的词袋预测，进而得到预测结果，该预测结果可以包括多个词袋中每个词袋对应的预测结果(如图5中的结果r1、结果r2、结果r3等)。
77.在一种可选的实施例中，在步骤s236中，按照词袋粒度对多个词袋进行特征提取，得到提取结果，包括如下方法步骤：
78.步骤s238，采用预训练词袋模型对多个词袋进行特征提取，得到提取结果，其中，预训练词袋模型采用多组数据通过机器学习训练得到，多组数据中的每组数据包括：由样本音频数据确定的样本词袋和样本词袋对应的样本向量表征。
79.仍然如图4所示，词袋预训练模型可以是采用多组训练数据预先通过机器学习训练得到的。该多组训练数据中的每组训练数据可以包括：由样本音频数据确定的样本词袋和该样本词袋对应的样本向量表征。其中，样本音频数据可以是由技术人员预先指定的样本数据，也可以是在词袋预训练模型运行中根据待语义分割的原始音频数据实时更新的样本数据。
80.在一种可选的实施例中，在步骤s238中，采用预训练词袋模型对多个词袋进行特征提取，得到提取结果，包括如下方法步骤：
81.步骤s2381，采用预训练词袋模型对多个词袋中每个词袋的词袋表征进行特征提取，得到每个词袋对应的目标向量表征；
82.步骤s2382，将每个词袋对应的目标向量表征确定为提取结果。
83.仍然如图4所示，在词袋预训练模型中，采用预训练词袋模型对词袋聚合得到的多个词袋(如图4中的词袋1、词袋2、词袋3和词袋4)中的每个词袋的词袋表征(图5中未示出，词袋表征与词袋相关联，可以记为表征e1、表征e2、表征e3和表征e4)进行特征提取，进而得到每个词袋对应的目标向量表征(如图5中的特征e1、特征e2、特征e3等)。
84.需要说明的是，本发明实施例对以下过程做出限定：按照目标分割粒度，对原始音频数据的语音识别结果进行语义分割，以及基于分割结果得到并输出目标音频数据。然而，上述过程中涉及的语义分割模型可以是词袋分割模型，也可以是其他任意可实现的音轨话题语义分割模型。
85.容易注意到的是，与相关技术提供的基于词粒度或音频帧粒度的语义分割方法相比，本发明实施例的有益效果在于：将语义分割粒度定为文本离散表示方式确定的粒度(如词袋粒度)，可以降低语义分割难度、减少计算量进而提高语义分割效率；此外，(以词袋分割模型为例)语义分割模型在建模时考虑了整个词袋序列的信息，进而可以提高语义分割的准确度。
86.容易注意到的是，通过本发明实施例提供的方法，可以将音轨的语义分割任务定义为词袋层面上的序列标注任务，进而可以对多个词袋进行预测，提高语义分割模型的效率和语义分割准确度。
87.容易注意到的是，根据本发明实施例提供的方法，通过词袋聚合模块，可以进行多种场景下的词袋聚合，在不同场景下按照不同的聚合逻辑进行不同粒度的聚合操作(如句子聚合、段落聚合或者发言人聚合等)，进而可以同时满足语义分割任务的效率要求和准确度要求。
88.本发明其中一实施例还提供了一种音频处理方法，该音频处理方法在云端服务器上运行，图6是根据本发明实施例的一种可选的音频处理方法的流程图，如图6所示，该音频处理方法，包括：
89.步骤s61，接收来自于客户端的待识别的原始音频数据；
90.步骤s62，对原始音频数据进行语音识别以得到识别结果，按照目标分割粒度对识别结果进行语义分割以得到分割结果，以及将分割结果映射至原始音频数据对应的音轨以得到目标音频数据，其中，目标分割粒度用于按照文本离散表示方式确定语义分割对应的分割位置；
91.步骤s63，向客户端反馈目标音频数据。
92.可选地，图7是根据本发明实施例的一种在云端服务器进行音频处理的示意图，如图7所示，客户端将待识别的原始音频数据上传至云端服务器；云端服务器对原始音频数据进行语音识别以得到识别结果，按照目标分割粒度对识别结果进行语义分割以得到分割结果，以及将分割结果映射至原始音频数据对应的音轨以得到目标音频数据，其中，目标分割粒度用于按照文本离散表示方式确定语义分割对应的分割位置。然后，云端服务器会向上
述客户端反馈目标音频数据，最终的目标音频数据会通过客户端的图形用户界面提供给用户。
93.需要说明的是，本发明实施例所提供的上述音频处理方法，可以但不限于适用于各种应用领域(如金融领域、教育领域、医疗领域、农业领域、工业领域和互联网领域等)下的语音会议、智能客服、语音输入和语音助手等实际应用场景，通过saas服务端和客户端进行交互的方式，采用对客户端发送的待识别的原始音频数据进行语音识别以得到识别结果，按照目标分割粒度对识别结果进行语义分割以得到分割结果，以及将分割结果映射至原始音频数据对应的音轨的方式得到目标音频数据，并将返回的目标音频数据通过客户端提供给用户。
94.需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。
95.通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。
96.实施例2
97.根据本发明实施例，还提供了一种用于实施上述音频处理方法的装置，图8是根据本发明实施例的一种音频处理装置的结构示意图，如图8所示，该装置包括：获取模块81、识别模块82、分割模块83、处理模块84和输出模块85，其中，
98.获取模块81，用于获取待识别的原始音频数据；识别模块82，用于对原始音频数据进行语音识别，得到识别结果；分割模块83，用于按照目标分割粒度对识别结果进行语义分割，得到分割结果，其中，目标分割粒度用于按照文本离散表示方式确定语义分割对应的分割位置；处理模块84，用于将分割结果映射至原始音频数据对应的音轨，得到目标音频数据；输出模块85，用于输出目标音频数据。
99.可选地，目标分割粒度为词袋粒度，上述分割模块83还用于：对识别结果进行词袋聚合，得到多个词袋；按照词袋粒度对多个词袋中是否存在分割位置进行预测，得到预测结果；基于预测结果对识别结果进行语义分割，得到分割结果。
100.可选地，上述分割模块83还用于：基于原始音频数据的应用场景，确定识别结果对应的聚合粒度；按照聚合粒度对识别结果进行词袋聚合，得到多个词袋。
101.可选地，上述分割模块83还用于：按照词袋粒度对多个词袋进行特征提取，得到提取结果；基于提取结果对多个词袋中每个词袋是否存在分割位置进行预测，得到预测结果。
102.可选地，上述分割模块83还用于：采用预训练词袋模型对多个词袋进行特征提取，得到提取结果，其中，预训练词袋模型采用多组数据通过机器学习训练得到，多组数据中的每组数据包括：由样本音频数据确定的样本词袋和样本词袋对应的样本向量表征。
103.可选地，上述分割模块83还用于：采用预训练词袋模型对多个词袋中每个词袋的词袋表征进行特征提取，得到每个词袋对应的目标向量表征；将每个词袋对应的目标向量表征确定为提取结果。
104.此处需要说明的是，上述获取模块81、识别模块82、分割模块83、处理模块84和输出模块85对应于实施例1中的步骤s21至步骤s25，五个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例一提供的计算机终端10中。
105.在本发明实施例中，首先获取待识别的原始音频数据，采用对原始音频数据进行语音识别的方式得到识别结果，然后按照目标分割粒度对识别结果进行语义分割，得到分割结果，其中，目标分割粒度用于按照文本离散表示方式确定语义分割对应的分割位置，通过将分割结果映射至原始音频数据对应的音轨，得到目标音频数据，进而输出目标音频数据。
106.容易注意到的是，根据本发明实施例提供的方法，基于文本离散表示方式(如词袋表示方式)对应的分割粒度，对音频数据的语音识别结果进行语义分割，达到了基于目标分割粒度对音频进行准确高效的音轨语义分割的目的，从而实现了提高对音频进行音轨语义分割的效率和准确度的技术效果，进而解决了相关技术中基于词粒度或音频帧粒度进行音轨语义分割的方法其计算难度大、效率低和分割准确度低的技术问题。
107.需要说明的是，本实施例的优选实施方式可以参见实施例1中的相关描述，此处不再赘述。
108.实施例3
109.根据本发明实施例，还提供了一种电子装置的实施例，该电子装置可以是计算装置中的任意一个计算装置。该电子装置包括：处理器和存储器，其中：
110.存储器，与上述处理器连接，用于为上述处理器提供处理以下处理步骤的指令：获取待识别的原始音频数据；对原始音频数据进行语音识别，得到识别结果；按照目标分割粒度对识别结果进行语义分割，得到分割结果，其中，目标分割粒度用于按照文本离散表示方式确定语义分割对应的分割位置；将分割结果映射至原始音频数据对应的音轨，得到目标音频数据；输出目标音频数据。
111.在本发明实施例中，首先获取待识别的原始音频数据，采用对原始音频数据进行语音识别的方式得到识别结果，然后按照目标分割粒度对识别结果进行语义分割，得到分割结果，其中，目标分割粒度用于按照文本离散表示方式确定语义分割对应的分割位置，通过将分割结果映射至原始音频数据对应的音轨，得到目标音频数据，进而输出目标音频数据。
112.容易注意到的是，根据本发明实施例提供的方法，基于文本离散表示方式(如词袋表示方式)对应的分割粒度，对音频数据的语音识别结果进行语义分割，达到了基于目标分割粒度对音频进行准确高效的音轨语义分割的目的，从而实现了提高对音频进行音轨语义分割的效率和准确度的技术效果，进而解决了相关技术中基于词粒度或音频帧粒度进行音轨语义分割的方法其计算难度大、效率低和分割准确度低的技术问题。
113.需要说明的是，本实施例的优选实施方式可以参见实施例1中的相关描述，此处不再赘述。
114.实施例4
115.本发明的实施例可以提供一种计算机终端，该计算机终端可以是计算机终端中的任意一个计算机终端设备。可选地，在本实施例中，上述计算机终端也可以替换为移动终端等终端设备。
116.可选地，在本实施例中，上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。
117.在本实施例中，上述计算机终端可以执行音频处理方法中以下步骤的程序代码：获取待识别的原始音频数据；对原始音频数据进行语音识别，得到识别结果；按照目标分割粒度对识别结果进行语义分割，得到分割结果，其中，目标分割粒度用于按照文本离散表示方式确定语义分割对应的分割位置；将分割结果映射至原始音频数据对应的音轨，得到目标音频数据；输出目标音频数据。
118.可选地，图9是根据本发明实施例的另一种计算机终端的结构框图，如图9所示，该计算机终端可以包括：一个或多个(图中仅示出一个)处理器122、存储器124、以及外设接口126。
119.其中，存储器可用于存储软件程序以及模块，如本发明实施例中的音频处理方法和装置对应的程序指令/模块，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的音频处理方法。存储器可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
120.处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：获取待识别的原始音频数据；对原始音频数据进行语音识别，得到识别结果；按照目标分割粒度对识别结果进行语义分割，得到分割结果，其中，目标分割粒度用于按照文本离散表示方式确定语义分割对应的分割位置；将分割结果映射至原始音频数据对应的音轨，得到目标音频数据；输出目标音频数据。
121.可选地，上述处理器还可以执行如下步骤的程序代码：对识别结果进行词袋聚合，得到多个词袋；按照词袋粒度对多个词袋中是否存在分割位置进行预测，得到预测结果；基于预测结果对识别结果进行语义分割，得到分割结果。
122.可选地，上述处理器还可以执行如下步骤的程序代码：基于原始音频数据的应用场景，确定识别结果对应的聚合粒度；按照聚合粒度对识别结果进行词袋聚合，得到多个词袋。
123.可选地，上述处理器还可以执行如下步骤的程序代码：按照词袋粒度对多个词袋进行特征提取，得到提取结果；基于提取结果对多个词袋中每个词袋是否存在分割位置进行预测，得到预测结果。
124.可选地，上述处理器还可以执行如下步骤的程序代码：采用预训练词袋模型对多个词袋进行特征提取，得到提取结果，其中，预训练词袋模型采用多组数据通过机器学习训练得到，多组数据中的每组数据包括：由样本音频数据确定的样本词袋和样本词袋对应的样本向量表征。
125.可选地，上述处理器还可以执行如下步骤的程序代码：采用预训练词袋模型对多个词袋中每个词袋的词袋表征进行特征提取，得到每个词袋对应的目标向量表征；将每个词袋对应的目标向量表征确定为提取结果。
126.处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：接收来自于客户端的待识别的原始音频数据；对原始音频数据进行语音识别以得到识别结果，按照目标分割粒度对识别结果进行语义分割以得到分割结果，以及将分割结果映射至原始音频数据对应的音轨以得到目标音频数据，其中，目标分割粒度用于按照文本离散表示方式确定语义分割对应的分割位置；向客户端反馈目标音频数据。
127.在本发明实施例中，首先获取待识别的原始音频数据，采用对原始音频数据进行语音识别的方式得到识别结果，然后按照目标分割粒度对识别结果进行语义分割，得到分割结果，其中，目标分割粒度用于按照文本离散表示方式确定语义分割对应的分割位置，通过将分割结果映射至原始音频数据对应的音轨，得到目标音频数据，进而输出目标音频数据。
128.容易注意到的是，根据本发明实施例提供的方法，基于文本离散表示方式(如词袋表示方式)对应的分割粒度，对音频数据的语音识别结果进行语义分割，达到了基于目标分割粒度对音频进行准确高效的音轨语义分割的目的，从而实现了提高对音频进行音轨语义分割的效率和准确度的技术效果，进而解决了相关技术中基于词粒度或音频帧粒度进行音轨语义分割的方法其计算难度大、效率低和分割准确度低的技术问题。
129.本领域普通技术人员可以理解，图9所示的结构仅为示意，计算机终端也可以是智能手机(如android手机、ios手机等)、平板电脑、掌上电脑以及移动互联网设备(mobile internet devices，mid)、pad等终端设备。图9并不对上述电子装置的结构造成限定。例如，计算机终端还可包括比图9中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图9所示不同的配置。
130.本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(read-only memory，rom)、随机存取器(random access memory，ram)、磁盘或光盘等。
131.根据本发明实施例，还提供了一种存储介质的实施例。可选地，在本实施例中，上述存储介质可以用于保存上述实施例1所提供的音频处理方法所执行的程序代码。
132.可选地，在本实施例中，上述存储介质可以位于计算机网络中计算机终端中的任意一个计算机终端中，或者位于移动终端中的任意一个移动终端中。
133.可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：获取待识别的原始音频数据；对原始音频数据进行语音识别，得到识别结果；按照目标分割粒度对识别结果进行语义分割，得到分割结果，其中，目标分割粒度用于按照文本离散表示方式确定语义分割对应的分割位置；将分割结果映射至原始音频数据对应的音轨，得到目标音频数据；输出目标音频数据。
134.可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：对识别结果进行词袋聚合，得到多个词袋；按照词袋粒度对多个词袋中是否存在分割位置进行预测，得到预测结果；基于预测结果对识别结果进行语义分割，得到分割结果。
135.可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：基于原始音频数据的应用场景，确定识别结果对应的聚合粒度；按照聚合粒度对识别结果进行词袋聚合，得到多个词袋。
136.可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：按照词袋粒度对多个词袋进行特征提取，得到提取结果；基于提取结果对多个词袋中每个词袋是否存在分割位置进行预测，得到预测结果。
137.可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：采用预训练词袋模型对多个词袋进行特征提取，得到提取结果，其中，预训练词袋模型采用多组数据通过机器学习训练得到，多组数据中的每组数据包括：由样本音频数据确定的样本词袋和样本词袋对应的样本向量表征。
138.可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：采用预训练词袋模型对多个词袋中每个词袋的词袋表征进行特征提取，得到每个词袋对应的目标向量表征；将每个词袋对应的目标向量表征确定为提取结果。
139.可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：接收来自于客户端的待识别的原始音频数据；对原始音频数据进行语音识别以得到识别结果，按照目标分割粒度对识别结果进行语义分割以得到分割结果，以及将分割结果映射至原始音频数据对应的音轨以得到目标音频数据，其中，目标分割粒度用于按照文本离散表示方式确定语义分割对应的分割位置；向客户端反馈目标音频数据。
140.上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。
141.在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。
142.在本发明所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。
143.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
144.另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
145.所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或
部分步骤。而前述的存储介质包括：u盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
146.以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

技术特征：

1.一种音频处理方法，其特征在于，包括：获取待识别的原始音频数据；对所述原始音频数据进行语音识别，得到识别结果；按照目标分割粒度对所述识别结果进行语义分割，得到分割结果，其中，所述目标分割粒度用于按照文本离散表示方式确定语义分割对应的分割位置；将所述分割结果映射至所述原始音频数据对应的音轨，得到目标音频数据；输出所述目标音频数据。2.根据权利要求1所述的音频处理方法，其特征在于，所述目标分割粒度为词袋粒度，按照所述目标分割粒度对所述识别结果进行语义分割，得到所述分割结果包括：对所述识别结果进行词袋聚合，得到多个词袋；按照所述词袋粒度对所述多个词袋中是否存在所述分割位置进行预测，得到预测结果；基于所述预测结果对所述识别结果进行语义分割，得到所述分割结果。3.根据权利要求2所述的音频处理方法，其特征在于，对所述识别结果进行词袋聚合，得到所述多个词袋包括：基于所述原始音频数据的应用场景，确定所述识别结果对应的聚合粒度；按照所述聚合粒度对所述识别结果进行词袋聚合，得到所述多个词袋。4.根据权利要求2所述的音频处理方法，其特征在于，按照所述词袋粒度对所述多个词袋中是否存在所述分割位置进行预测，得到所述预测结果包括：按照所述词袋粒度对所述多个词袋进行特征提取，得到提取结果；基于所述提取结果对所述多个词袋中每个词袋是否存在所述分割位置进行预测，得到所述预测结果。5.根据权利要求4所述的音频处理方法，其特征在于，按照所述词袋粒度对所述多个词袋进行特征提取，得到所述提取结果包括：采用预训练词袋模型对所述多个词袋进行特征提取，得到所述提取结果，其中，所述预训练词袋模型采用多组数据通过机器学习训练得到，所述多组数据中的每组数据包括：由样本音频数据确定的样本词袋和所述样本词袋对应的样本向量表征。6.根据权利要求5所述的音频处理方法，其特征在于，采用所述预训练词袋模型对所述多个词袋进行特征提取，得到所述提取结果包括：采用所述预训练词袋模型对所述多个词袋中每个词袋的词袋表征进行特征提取，得到每个词袋对应的目标向量表征；将每个词袋对应的目标向量表征确定为所述提取结果。7.一种音频处理方法，其特征在于，包括：接收来自于客户端的待识别的原始音频数据；对所述原始音频数据进行语音识别以得到识别结果，按照目标分割粒度对所述识别结果进行语义分割以得到分割结果，以及将所述分割结果映射至所述原始音频数据对应的音轨以得到目标音频数据，其中，所述目标分割粒度用于按照文本离散表示方式确定语义分割对应的分割位置；向所述客户端反馈所述目标音频数据。
8.一种音频处理装置，其特征在于，包括：获取模块，用于获取待识别的原始音频数据；识别模块，用于对所述原始音频数据进行语音识别，得到识别结果；分割模块，用于按照目标分割粒度对所述识别结果进行语义分割，得到分割结果，其中，所述目标分割粒度用于按照文本离散表示方式确定语义分割对应的分割位置；处理模块，用于将所述分割结果映射至所述原始音频数据对应的音轨，得到目标音频数据；输出模块，用于输出所述目标音频数据。9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的程序，其中，在所述程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至7中任意一项所述的音频处理方法。10.一种电子设备，其特征在于，包括：处理器；以及存储器，与所述处理器连接，用于为所述处理器提供处理以下处理步骤的指令：获取待识别的原始音频数据；对所述原始音频数据进行语音识别，得到识别结果；按照目标分割粒度对所述识别结果进行语义分割，得到分割结果，其中，所述目标分割粒度用于按照文本离散表示方式确定语义分割对应的分割位置；将所述分割结果映射至所述原始音频数据对应的音轨，得到目标音频数据；输出所述目标音频数据。

技术总结

本发明公开了一种音频处理方法、装置、存储介质及电子设备。其中，该方法包括：获取待识别的原始音频数据；对原始音频数据进行语音识别，得到识别结果；按照目标分割粒度对识别结果进行语义分割，得到分割结果，其中，目标分割粒度用于按照文本离散表示方式确定语义分割对应的分割位置；将分割结果映射至原始音频数据对应的音轨，得到目标音频数据；输出目标音频数据。本发明解决了相关技术中基于词粒度或音频帧粒度进行音轨语义分割的方法其计算难度大、效率低和分割准确度低的技术问题。效率低和分割准确度低的技术问题。效率低和分割准确度低的技术问题。