音频的分离方法、分离装置、处理器与电子设备与流程

1.本技术涉及音频分离领域，具体而言，涉及一种音频的分离方法、分离装置、计算机可读存储介质、处理器与电子设备。

背景技术：

2.现有技术中通常基于摄像头和麦克风阵列的配置来分别采集视频和音频，这样得到的一段视频中便会只有一条音频。在采用上述摄像头和麦克风阵列的配置进行会议记录时，由于多个发言人的音频均在同一条音频中，后续在进行会议记录自动回放时，无法较为快速地定位到一个发言人从会议开始到会议结束过程中的所有音频。
3.因此，亟需一种能够对音频数据进行自动分离的方法，使得每一位发言人均对应一条音频，以便于在进行会议记录回放时，可以较为快速地定位到某一个发言人从会议开始到会议结束过程中的所有音频。
4.在背景技术部分中公开的以上信息只是用来加强对本文所描述技术的背景技术的理解，因此，背景技术中可能包含某些信息，这些信息对于本领域技术人员来说并未形成在本国已知的现有技术。

技术实现要素：

5.本技术的主要目的在于提供一种音频的分离方法、分离装置、计算机可读存储介质、处理器与电子设备，以解决现有技术中难以对音频数据进行自动分离的问题。
6.根据本发明实施例的一个方面，提供了一种音频的分离方法，摄像机包括相机和麦克风阵列，所述相机用于采集原始视频，所述麦克风阵列用于采集多个原始音频，所述分离方法包括：至少根据多个第一角度，计算多个第二角度，其中，所述第一角度为第一直线与第二直线之间的夹角，所述第一直线为所述相机的中心的位置点与目标对象的位置点的连线，所述第二直线为所述相机的坐标系的任意一个坐标轴所在的直线，所述第二角度为第三直线和第四直线之间的夹角，所述第三直线为所述麦克风阵列的中心的位置点与所述目标对象的位置点的连线，所述第四直线为麦克风坐标系的任意一个坐标轴所在的直线，所述麦克风阵列位于所述麦克风坐标系构建的空间内；基于多个所述原始音频和多个所述第二角度，得到多个音轨，一个所述音轨对应于一个所述第二角度；对属于同一个所述目标对象的多个所述音轨进行拼接，得到所述目标对象对应的目标音轨，并采用语音活性检测算法对所述目标音轨进行检测，得到所述目标对象的目标音频。
7.可选地，至少根据多个第一角度，计算多个第二角度，包括：确定所述相机的坐标系与所述麦克风坐标系之间位姿相互转换的关系矩阵；将多个所述第一角度与所述关系矩阵相乘，得到多个所述第二角度。
8.可选地，所述原始视频包括多帧连续的待检测图像，确定多个所述第一角度的过程包括：对各所述待检测图像进行检测，得到多个所述目标对象的多个位置信息组，其中，每个所述目标对象对应于一个所述位置信息组，每个所述待检测图像对应至少一个所述位
置信息组，所述位置信息组包括表征最小矩形区域的位置的信息；确定各所述最小矩形区域的中心点以及所述待检测图像的中心点；将各所述最小矩形区域的中心点和所述待检测图像的中心点输入至相机成像模型，得到多个所述第一角度。
9.可选地，所述分离方法还包括：至少将目标图像和所述目标音轨发送至终端设备，以使得所述终端设备的显示屏显示所述目标图像和目标滚动条，所述目标滚动条位于对应的所述目标图像的一侧，所述目标滚动条为所述目标音轨的图标，所述终端设备响应于作用在所述目标滚动条上的第一预定操作的情况下，播放对应部分的所述目标音轨；将所述原始视频发送至所述终端设备，以使得所述终端设备的显示屏显示所述原始视频的视频图标，所述终端设备响应于作用在所述原始视频的视频图标上的第二预定操作的情况下，播放所述原始视频。
10.可选地，确定所述目标图像的过程包括：确定各待检测图像中与多个所述目标对象的多个位置信息组对应的多个预定区域，并对多个所述预定区域进行裁剪，得到多个预定图像，其中，一个所述位置信息组对应于一个所述预定区域；采用图像质量评估算法对属于同一个所述目标对象的多个所述预定图像进行质量评估，得到所述目标图像，所述目标图像为多个所述预定图像中的图像质量最优的一张图像。
11.可选地，至少将目标图像和所述目标音轨发送至终端设备，还包括：将所述目标音频在所述目标音轨上的时间信息发送至所述终端设备，以使得所述终端设备在所述目标滚动条上显示目标标记，所述目标标记为根据所述时间信息生成的。
12.根据本发明实施例的另一方面，还提供了一种音频的分离装置，包括：摄像机包括相机和麦克风阵列，所述相机用于采集原始视频，所述麦克风阵列用于采集多个原始音频，所述分离装置包括：第一计算单元，用于至少根据多个第一角度，计算多个第二角度，其中，所述第一角度为第一直线与第二直线之间的夹角，所述第一直线为所述相机的中心的位置点与目标对象的位置点的连线，所述第二直线为所述相机的坐标系的任意一个坐标轴所在的直线，所述第二角度为第三直线和第四直线之间的夹角，所述第三直线为所述麦克风阵列的中心的位置点与所述目标对象的位置点的连线，所述第四直线为麦克风坐标系的任意一个坐标轴所在的直线，所述麦克风阵列位于所述麦克风坐标系构建的空间内；第二计算单元，用于基于多个所述原始音频和多个所述第二角度，得到多个音轨，一个所述音轨对应于一个所述第二角度；第一检测单元，用于对属于同一个所述目标对象的多个所述音轨进行拼接，得到所述目标对象对应的目标音轨，并采用语音活性检测算法对所述目标音轨进行检测，得到所述目标对象的目标音频。
13.根据本发明实施例的又一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的程序，其中，所述程序执行任意一种所述的方法。
14.根据本发明实施例的再一方面，还提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行任意一种所述的方法。
15.根据本发明实施例的一方面，还提供了一种电子设备，包括：一个或多个处理器，存储器以及一个或多个程序，其中，所述一个或多个程序被存储在所述存储器中，并且被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行任意一种所述的方法。
16.在本发明实施例中，所述音频的分离方法中，首先，至少根据多个第一角度，计算
多个第二角度，然后，基于多个所述原始音频和多个所述第二角度，得到多个音频，最后，对同一个所述目标对象的多个所述音轨进行拼接，得到与所述目标对象对应的目标音轨，并采用语音活性检测算法对所述目标音轨进行检测，得到所述目标对象的目标音频。在该分离方法中，基于多个原始音频和计算得到的多个第二角度，得到多个音频，再对同一个目标对象对应的多个音频进行拼接，得到目标对象的目标音轨，最后通过语音活性检测算法对目标对象的目标音轨进行检测，得到目标对象在目标音轨上的目标音频，即本方案实现了将目标对象在整个原始视频中的音频进行自动分离，形成一个目标对象对应一个目标音轨，并通过语音活性检测方法将目标对象在目标音轨上有声音的音频检测出来，得到目标音频，本方案能够较为准确地将目标对象在整个原始视频中的音频自动分离出来，保证了得到的目标音轨和目标音频较为准确，解决了现有技术中难以对音频数据进行自动分离的问题。
附图说明
17.构成本技术的一部分的说明书附图用来提供对本技术的进一步理解，本技术的示意性实施例及其说明用于解释本技术，并不构成对本技术的不当限定。在附图中：
18.图1示出了根据本技术的一种实施例的音频的分离方法的流程图；
19.图2示出了根据本技术的一种实施例的终端设备显示的示意图；
20.图3示出了根据本技术的一种实施例的音频的分离装置的结构示意图。
21.其中，上述附图包括以下附图标记：
22.100、视频图标；200、目标图像；300、目标滚动条；400、目标标记。
具体实施方式
23.需要说明的是，在不冲突的情况下，本技术中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本技术。
24.为了使本技术领域的人员更好地理解本技术方案，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分的实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本技术保护的范围。
25.需要说明的是，本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本技术的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
26.正如背景技术中所说的，现有技术中难以对音频数据进行自动分离，为了解决上述问题，本技术的一种典型的实施方式中，提供了一种音频的分离方法、分离装置、计算机可读存储介质、处理器与电子设备。
27.根据本技术的实施例，提供了一种音频的分离方法。
28.图1是根据本技术实施例的音频的分离方法的流程图。摄像机包括相机和麦克风阵列，上述相机用于采集原始视频，上述麦克风阵列用于采集多个原始音频，如图1所示，该分离方法包括以下步骤：
29.步骤s101，至少根据多个第一角度，计算多个第二角度，其中，上述第一角度为第一直线与第二直线之间的夹角，上述第一直线为上述相机的中心的位置点与目标对象的位置点的连线，上述第二直线为上述相机的坐标系的任意一个坐标轴所在的直线，上述第二角度为第三直线和第四直线之间的夹角，上述第三直线为上述麦克风阵列的中心的位置点与上述目标对象的位置点的连线，上述第四直线为麦克风坐标系的任意一个坐标轴所在的直线，上述麦克风阵列位于上述麦克风坐标系构建的空间内；
30.步骤s102，基于多个上述原始音频和多个上述第二角度，得到多个音轨，一个上述音轨对应于一个上述第二角度；
31.步骤s103，对属于同一个上述目标对象的多个上述音轨进行拼接，得到上述目标对象对应的目标音轨，并采用语音活性检测算法对上述目标音轨进行检测，得到上述目标对象的目标音频。
32.上述音频的分离方法中，首先，至少根据多个第一角度，计算多个第二角度，然后，基于多个上述原始音频和多个上述第二角度进行计算，得到多个音频，最后，对同一个上述目标对象的多个上述音轨进行拼接，得到与上述目标对象对应的目标音轨，并采用语音活性检测算法对上述目标音轨进行检测，得到上述目标对象的目标音频。在该分离方法中，基于多个原始音频和计算得到的多个第二角度，得到多个音频，再对同一个目标对象对应的多个音频进行拼接，得到目标对象的目标音轨，最后通过语音活性检测算法对目标对象的目标音轨进行检测，得到目标对象在目标音轨上的目标音频，即本方案实现了将目标对象在整个原始视频中的音频进行自动分离，形成一个目标对象对应一个目标音轨，并通过语音活性检测方法将目标对象在目标音轨上有声音的音频检测出来，得到目标音频，本方案能够较为准确地将目标对象在整个原始视频中的音频自动分离出来，保证了得到的目标音轨和目标音频较为准确，解决了现有技术中难以对音频数据进行自动分离的问题。
33.具体地，对属于同一个目标对象的音轨进行拼接，得到目标对象对应的目标音轨，该目标音轨为目标对象在整个原始视频中的音轨，即该目标音轨包括有声音和无声音的音频，采用语音活性检测算法对目标对象的目标音轨进行检测，得到目标对象的目标音频，该目标音频为目标对象在整个目标音轨上有声音的一段音频。
34.在实际的应用过程中，在检测出目标对象的目标音频后，用户可以根据实际的需求，直接播放目标音频，这样能够便于用户进行回放，如在会议的场景下，本方案可以自动进行会议记录。
35.具体地，在上述目标对象在原始视频中有运动的情况下，还可以采用追踪算法来追踪目标对象。
36.本技术的一种具体的实施例中，采用波束形成算法对多个原始音频和多个第二角度进行计算，得到多个音轨。
37.为了较为准确地确定出上述第二角度，本技术的一种实施例中，至少根据多个第一角度，计算多个第二角度，包括：确定上述相机的坐标系与上述麦克风坐标系之间位姿相互转换的关系矩阵；将多个上述第一角度与上述关系矩阵相乘，得到多个上述第二角度。
38.本技术的又一种实施例中，上述原始视频包括多帧连续的待检测图像，确定多个上述第一角度的过程包括：对各上述待检测图像进行检测，得到多个上述目标对象的多个位置信息组，其中，每个上述目标对象对应于一个上述位置信息组，每个上述待检测图像对应至少一个上述位置信息组，上述位置信息组包括表征最小矩形区域的位置的信息；确定各上述最小矩形区域的中心点以及上述待检测图像的中心点；将各上述最小矩形区域的中心点和上述待检测图像的中心点输入至相机成像模型，得到多个上述第一角度。在该实施例中，对各个待检测图像进行检测，得到目标对象的多个位置信息组，而位置信息组为表征最小矩形区域的位置的信息，即对各个待检测图像进行检测，得到各目标对象对应的最小矩形区域，再将最小矩形区域对应的中心点和待检测图像的中心点输入至相机成像模型中，得到多个第一角度，这样保证了能够较为准确地得到第一角度，进一步地保证了得到的第二角度较为准确。
39.具体地，上述位置信息组包括第一目标点的位置信息和第二目标点的位置信息，上述第一目标点和上述第二目标点在目标对角线上，上述目标对角线为检测到的待检测图像的包括目标对象的最小矩形区域的一个对角线。
40.在实际的应用过程中，上述目标对象可以为人，在上述目标对象为人的情况下，待检测图像中包括至少一个人，故可以对上述各待检测图像进行人脸检测，得到目标对象的人脸在整个待检测图像中的一个位置信息组，通过上述位置信息组可以确定出包括目标对象的最小矩形区域。当然，上述目标对象并不限于人，上述目标对象还可以为任何可以发出声音的物体，在上述目标对象为可以发出声音的物体的情况下，待检测图像中包括至少一个可以发出声音的物体，故可以对上述待检测图像进行物体检测，得到目标对象在整个待检测图像中的一个位置信息组，通过上述位置信息组可以确定出包括目标对象的最小矩形区域。
41.具体地，在本技术中，无论是对各待检测图像进行人脸检测，还是对各待检测图像进行物体检测，均可以通过现有技术中的检测算法来实现。例如，在进行人脸检测的情况下，可以采用retinaface、mtcnn(multi-task convolutional neural network，多任务卷积神经网络)等算法来实现；在进行物体检测的情况下，可以采用yolo算法、faster r-cnn算法等来实现。
42.为了进一步地保证了用户能够较为方便地进行回放，本技术的另一种实施例中，如图2所示，上述分离方法还包括：至少将目标图像200和上述目标音轨发送至终端设备，以使得上述终端设备的显示屏显示上述目标图像200和目标滚动条300，上述目标滚动条300位于对应的上述目标图像200的一侧，上述目标滚动条300为上述目标音轨的图标，上述终端设备响应于作用在上述目标滚动条300上的第一预定操作的情况下，播放对应部分的上述目标音轨；将上述原始视频发送至上述终端设备，以使得上述终端设备的显示屏显示上述原始视频的视频图标100，上述终端设备响应于作用在上述原始视频的视频图标100上的第二预定操作的情况下，播放上述原始视频。
43.在实际的应用过程中，如图2所示，目标滚动条300可以位于目标图像200的一侧，当然，并不限于将目标滚动条300设置在目标图像200的一侧，还可以将目标滚动条300设置在目标图像200的上方，或者将目标滚动条300设置在目标图像200的下方。具体地，在目标滚动条300位于目标图像200的一侧的情况下，原始视频的视频图标100可以位于整个目标
滚动条300和目标图像200的上方，还可以位于整个目标滚动条300和目标图像200的下方，即在本方案中，并不对上述原始视频的视频图标100、目标图像200和目标滚动条300进行的设置方式限制。
44.具体地，在上述终端设备响应于作用在上述目标滚动条上的第一预定操作的情况下，播放对应部分的上述目标音轨，即播放目标音频，在此情况下，上述原始视频还可以自动跳转到与目标音频对应的位置进行播放。当然，在上述终端设备响应于作用在上述原始视频的视频图标上的第二预定操作的情况下，播放上述原始视频的情况下，还可以根据原始视频的播放位置自动跳转到对应的目标音轨上的目标音频，即这样保证了用户可以为方便地进行回放。
45.本技术的再一种实施例中，确定上述目标图像的过程包括：确定各待检测图像中与多个上述目标对象的多个位置信息组对应的多个预定区域，并对多个上述预定区域进行裁剪，得到多个预定图像，其中，一个上述位置信息组对应于一个上述预定区域；采用图像质量评估算法对属于同一个上述目标对象的多个上述预定图像进行质量评估，得到上述目标图像，上述目标图像为多个上述预定图像中的图像质量最优的一张图像。在该实施例中，根据多个目标对象对应的多个位置信息组，在各待检测图像中确定多个预定区域，并对多个预定区域进行裁剪，得到多个预定图像，再采用图像质量评估算法对同一个目标对象的多个预定图像进行评估，确定出目标图像，后续将确定出的目标图像发送至终端设备，以使得目标图像被显示，进一步保证了显示效果较好，进一步地便于用户对各目标对象进行区分。
46.为了便于用户能够较为直观地在终端设备上观察出目标音频，本技术的一种实施例中，如图2所示，至少将目标图像和上述目标音轨发送至终端设备，还包括：将上述目标音频在上述目标音轨上的时间信息发送至上述终端设备，以使得上述终端设备在上述目标滚动条300上显示目标标记400，上述目标标记400为根据上述时间信息生成的。
47.在实际的应用过程中，上述目标标记为任何将目标音频在目标滚动条上显示出来的标记，例如，上述目标标记可以为颜，还可以为其他的图形形状。例如，在上述目标标记为颜的情况下，上述目标标记可以为黄，绿等等。
48.需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。
49.本技术实施例还提供了一种音频的分离装置，需要说明的是，本技术实施例的音频的分离装置可以用于执行本技术实施例所提供的用于音频的分离方法。以下对本技术实施例提供的音频的分离装置进行介绍。
50.图3是根据本技术实施例的音频的分离装置的结构示意图。摄像机包括相机和麦克风阵列，上述相机用于采集原始视频，上述麦克风阵列用于采集多个原始音频，如图3所示，该分离装置包括：
51.第一计算单元10，用于至少根据多个第一角度，计算多个第二角度，其中，上述第一角度为第一直线与第二直线之间的夹角，上述第一直线为上述相机的中心的位置点与目标对象的位置点的连线，上述第二直线为上述相机的坐标系的任意一个坐标轴所在的直线，上述第二角度为第三直线和第四直线之间的夹角，上述第三直线为上述麦克风阵列的
中心的位置点与上述目标对象的位置点的连线，上述第四直线为麦克风坐标系的任意一个坐标轴所在的直线，上述麦克风阵列位于上述麦克风坐标系构建的空间内；
52.第二计算单元20，用于基于多个上述原始音频和多个上述第二角度，得到多个音轨，一个上述音轨对应于一个上述第二角度；
53.第一检测单元30，用于对属于同一个上述目标对象的多个上述音轨进行拼接，得到上述目标对象对应的目标音轨，并采用语音活性检测算法对上述目标音轨进行检测，得到上述目标对象的目标音频。
54.上述的音频的分离装置中，第一计算单元用于至少根据多个第一角度，计算多个第二角度，其中，上述第一角度为第一直线与第二直线之间的夹角，上述第一直线为上述相机的中心的位置点与目标对象的位置点的连线，上述第二直线为上述相机的坐标系的任意一个坐标轴所在的直线，上述第二角度为第三直线和第四直线之间的夹角，上述第三直线为上述麦克风阵列的中心的位置点与上述目标对象的位置点的连线，上述第四直线为麦克风坐标系的任意一个坐标轴所在的直线，上述麦克风阵列位于上述麦克风坐标系构建的空间内；第二计算单元用于基于多个上述原始音频和多个上述第二角度，得到多个音轨，一个上述音轨对应于一个上述第二角度；第一检测单元用于对属于同一个上述目标对象的多个上述音轨进行拼接，得到上述目标对象对应的目标音轨，并采用语音活性检测算法对上述目标音轨进行检测，得到上述目标对象的目标音频。在该分离装置中，基于多个原始音频和计算得到的多个第二角度，得到多个音频，再对同一个目标对象对应的多个音频进行拼接，得到目标对象的目标音轨，最后通过语音活性检测算法对目标对象的目标音轨进行检测，得到目标对象在目标音轨上的目标音频，即本方案实现了将目标对象在整个原始视频中的音频进行自动分离，形成一个目标对象对应一个目标音轨，并通过语音活性检测方法将目标对象在目标音轨上有声音的音频检测出来，得到目标音频，本方案能够较为准确地将目标对象在整个原始视频中的音频自动分离出来，保证了得到的目标音轨和目标音频较为准确，解决了现有技术中难以对音频数据进行自动分离的问题。
55.具体地，对属于同一个目标对象的音轨进行拼接，得到目标对象对应的目标音轨，该目标音轨为目标对象在整个原始视频中的音轨，即该目标音轨包括有声音和无声音的音频，采用语音活性检测算法对目标对象的目标音轨进行检测，得到目标对象的目标音频，该目标音频为目标对象在整个目标音轨上有声音的一段音频。
56.在实际的应用过程中，在检测出目标对象的目标音频后，用户可以根据实际的需求，直接播放目标音频，这样能够便于用户进行回放，如在会议的场景下，本方案可以自动进行会议记录。
57.具体地，在上述目标对象在原始视频中有运动的情况下，还可以采用追踪算法来追踪目标对象。
58.本技术的一种具体的实施例中，采用波束形成算法对多个原始音频和多个第二角度进行计算，得到多个音轨。
59.为了较为准确地确定出上述第二角度，本技术的一种实施例中，上述第一计算单元包括第一确定模块和相乘模块，其中，上述第一确定模块用于确定上述相机的坐标系与上述麦克风坐标系之间位姿相互转换的关系矩阵；上述相乘模块用于将多个上述第一角度与上述关系矩阵相乘，得到多个上述第二角度。
60.本技术的又一种实施例中，上述原始视频包括多帧连续的待检测图像，上述分离装置还包括第二检测单元、确定单元和输入单元，其中，上述第二检测单元用于对各上述待检测图像进行检测，得到多个上述目标对象的多个位置信息组，其中，每个上述目标对象对应于一个上述位置信息组，每个上述待检测图像对应至少一个上述位置信息组，上述位置信息组包括表征最小矩形区域的位置的信息；上述确定单元用于确定各上述最小矩形区域的中心点以及上述待检测图像的中心点；上述输入单元用于将各上述最小矩形区域的中心点和上述待检测图像的中心点输入至相机成像模型，得到多个上述第一角度。在该实施例中，对各个待检测图像进行检测，得到目标对象的多个位置信息组，而位置信息组为表征最小矩形区域的位置的信息，即对各个待检测图像进行检测，得到各目标对象对应的最小矩形区域，再将最小矩形区域对应的中心点和待检测图像的中心点输入至相机成像模型中，得到多个第一角度，这样保证了能够较为准确地得到第一角度，进一步地保证了得到的第二角度较为准确。
61.具体地，上述位置信息组包括第一目标点的位置信息和第二目标点的位置信息，上述第一目标点和上述第二目标点在目标对角线上，上述目标对角线为检测到的待检测图像的包括目标对象的最小矩形区域的一个对角线。
62.在实际的应用过程中，上述目标对象可以为人，在上述目标对象为人的情况下，待检测图像中包括至少一个人，故可以对上述各待检测图像进行人脸检测，得到目标对象的人脸在整个待检测图像中的一个位置信息组，通过上述位置信息组可以确定出包括目标对象的最小矩形区域。当然，上述目标对象并不限于人，上述目标对象还可以为任何可以发出声音的物体，在上述目标对象为可以发出声音的物体的情况下，待检测图像中包括至少一个可以发出声音的物体，故可以对上述待检测图像进行物体检测，得到目标对象在整个待检测图像中的一个位置信息组，通过上述位置信息组可以确定出包括目标对象的最小矩形区域。
63.具体地，在本技术中，无论是对各待检测图像进行人脸检测，还是对各待检测图像进行物体检测，均可以通过现有技术中的检测算法来实现。例如，在进行人脸检测的情况下，可以采用retinaface、mtcnn(multi-task convolutional neural network，多任务卷积神经网络)等算法来实现；在进行物体检测的情况下，可以采用yolo算法、faster r-cnn算法等来实现。
64.为了进一步地保证了用户能够较为方便地进行回放，本技术的另一种实施例中，如图2所示，上述分离装置还包括第一发送单元和第二发送单元，上述第一发送单元用于至少将目标图像200和上述目标音轨发送至终端设备，以使得上述终端设备的显示屏显示上述目标图像200和目标滚动条300，上述目标滚动条300位于对应的上述目标图像200的一侧，上述目标滚动条300为上述目标音轨的图标，上述终端设备响应于作用在上述目标滚动条300上的第一预定操作的情况下，播放对应部分的上述目标音轨；上述第二发送单元用于将上述原始视频发送至上述终端设备，以使得上述终端设备的显示屏显示上述原始视频的视频图标100，上述终端设备响应于作用在上述原始视频的视频图标100上的第二预定操作的情况下，播放上述原始视频。
65.在实际的应用过程中，如图2所示，目标滚动条300可以位于目标图像200的一侧，当然，并不限于将目标滚动条300设置在目标图像200的一侧，还可以将目标滚动条300设置
在目标图像200的上方，或者将目标滚动条300设置在目标图像200的下方。具体地，在目标滚动条300位于目标图像200的一侧的情况下，原始视频的视频图标100可以位于整个目标滚动条300和目标图像200的上方，还可以位于整个目标滚动条300和目标图像200的下方，即在本方案中，并不对上述原始视频的视频图标100、目标图像200和目标滚动条300进行的设置方式限制。
66.具体地，在上述终端设备响应于作用在上述目标滚动条上的第一预定操作的情况下，播放对应部分的上述目标音轨，即播放目标音频，在此情况下，上述原始视频还可以自动跳转到与目标音频对应的位置进行播放。当然，在上述终端设备响应于作用在上述原始视频的视频图标上的第二预定操作的情况下，播放上述原始视频的情况下，还可以根据原始视频的播放位置自动跳转到对应的目标音轨上的目标音频，即这样保证了用户可以为方便地进行回放。
67.本技术的再一种实施例中，上述第一发送单元包括第二确定模块和评估模块，其中，上述第二确定模块用于确定各待检测图像中与多个上述目标对象的多个位置信息组对应的多个预定区域，并对多个上述预定区域进行裁剪，得到多个预定图像，其中，一个上述位置信息组对应于一个上述预定区域；上述评估模块用于采用图像质量评估算法对属于同一个上述目标对象的多个上述预定图像进行质量评估，得到上述目标图像，上述目标图像为多个上述预定图像中的图像质量最优的一张图像。在该实施例中，根据多个目标对象对应的多个位置信息组，在各待检测图像中确定多个预定区域，并对多个预定区域进行裁剪，得到多个预定图像，再采用图像质量评估算法对同一个目标对象的多个预定图像进行评估，确定出目标图像，后续将确定出的目标图像发送至终端设备，以使得目标图像被显示，进一步保证了显示效果较好，进一步地便于用户对各目标对象进行区分。
68.为了便于用户能够较为直观地在终端设备上观察出目标音频，本技术的一种实施例中，如图2所示，上述第一发送单元还包括发送模块，用于将上述目标音频在上述目标音轨上的时间信息发送至上述终端设备，以使得上述终端设备在上述目标滚动条300上显示目标标记400，上述目标标记400为根据上述时间信息生成的。
69.在实际的应用过程中，上述目标标记为任何将目标音频在目标滚动条上显示出来的标记，例如，上述目标标记可以为颜，还可以为其他的图形形状。例如，在上述目标标记为颜的情况下，上述目标标记可以为黄，绿等等。
70.上述音频的分离装置包括处理器和存储器，上述第一计算单元、第二计算单元和第一检测单元等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
71.处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来解决现有技术中难以对音频数据进行自动分离的问题。
72.存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(ram)和/或非易失性内存等形式，如只读存储器(rom)或闪存(flash ram)，存储器包括至少一个存储芯片。
73.本发明实施例提供了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现上述音频的分离方法。
74.本发明实施例提供了一种处理器，上述处理器用于运行程序，其中，上述程序运行
时执行上述音频的分离方法。
75.本发明实施例提供了一种电子设备，该电子设备包括一个或多个处理器，存储器以及一个或多个程序，其中，上述一个或多个程序被存储在上述存储器中，并且被配置为由上述一个或多个处理器执行，上述一个或多个程序包括用于执行任意一种上述的方法。
76.本发明实施例提供了一种设备，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现至少以下步骤：
77.步骤s101，至少根据多个第一角度，计算多个第二角度，其中，上述第一角度为第一直线与第二直线之间的夹角，上述第一直线为上述相机的中心的位置点与目标对象的位置点的连线，上述第二直线为上述相机的坐标系的任意一个坐标轴所在的直线，上述第二角度为第三直线和第四直线之间的夹角，上述第三直线为上述麦克风阵列的中心的位置点与上述目标对象的位置点的连线，上述第四直线为麦克风坐标系的任意一个坐标轴所在的直线，上述麦克风阵列位于上述麦克风坐标系构建的空间内；
78.步骤s102，基于多个上述原始音频和多个上述第二角度，得到多个音轨，一个上述音轨对应于一个上述第二角度；
79.步骤s103，对属于同一个上述目标对象的多个上述音轨进行拼接，得到上述目标对象对应的目标音轨，并采用语音活性检测算法对上述目标音轨进行检测，得到上述目标对象的目标音频。
80.本文中的设备可以是服务器、pc、pad、手机等。
81.本技术还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有至少如下方法步骤的程序：
82.步骤s101，至少根据多个第一角度，计算多个第二角度，其中，上述第一角度为第一直线与第二直线之间的夹角，上述第一直线为上述相机的中心的位置点与目标对象的位置点的连线，上述第二直线为上述相机的坐标系的任意一个坐标轴所在的直线，上述第二角度为第三直线和第四直线之间的夹角，上述第三直线为上述麦克风阵列的中心的位置点与上述目标对象的位置点的连线，上述第四直线为麦克风坐标系的任意一个坐标轴所在的直线，上述麦克风阵列位于上述麦克风坐标系构建的空间内；
83.步骤s102，基于多个上述原始音频和多个上述第二角度，得到多个音轨，一个上述音轨对应于一个上述第二角度；
84.步骤s103，对属于同一个上述目标对象的多个上述音轨进行拼接，得到上述目标对象对应的目标音轨，并采用语音活性检测算法对上述目标音轨进行检测，得到上述目标对象的目标音频。
85.在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。
86.在本技术所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如上述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。
87.上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
88.另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
89.上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例上述方法的全部或部分步骤。而前述的存储介质包括：u盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
90.从以上的描述中，可以看出，本技术上述的实施例实现了如下技术效果：
91.1)、本技术的音频的分离方法中，首先，至少根据多个第一角度，计算多个第二角度，然后，基于多个上述原始音频和多个上述第二角度，得到多个音频，最后，对同一个上述目标对象的多个上述音轨进行拼接，得到与上述目标对象对应的目标音轨，并采用语音活性检测算法对上述目标音轨进行检测，得到上述目标对象的目标音频。在该分离方法中，基于多个原始音频和计算得到的多个第二角度，得到多个音频，再对同一个目标对象对应的多个音频进行拼接，得到目标对象的目标音轨，最后通过语音活性检测算法对目标对象的目标音轨进行检测，得到目标对象在目标音轨上的目标音频，即本方案实现了将目标对象在整个原始视频中的音频进行自动分离，形成一个目标对象对应一个目标音轨，并通过语音活性检测方法将目标对象在目标音轨上有声音的音频检测出来，得到目标音频，本方案能够较为准确地将目标对象在整个原始视频中的音频自动分离出来，保证了得到的目标音轨和目标音频较为准确，解决了现有技术中难以对音频数据进行自动分离的问题。
92.2)、本技术的音频的分离装置中，第一计算单元用于至少根据多个第一角度，计算多个第二角度，其中，上述第一角度为第一直线与第二直线之间的夹角，上述第一直线为上述相机的中心的位置点与目标对象的位置点的连线，上述第二直线为上述相机的坐标系的任意一个坐标轴所在的直线，上述第二角度为第三直线和第四直线之间的夹角，上述第三直线为上述麦克风阵列的中心的位置点与上述目标对象的位置点的连线，上述第四直线为麦克风坐标系的任意一个坐标轴所在的直线，上述麦克风阵列位于上述麦克风坐标系构建的空间内；第二计算单元用于基于多个上述原始音频和多个上述第二角度，得到多个音轨，一个上述音轨对应于一个上述第二角度；第一检测单元用于对属于同一个上述目标对象的多个上述音轨进行拼接，得到上述目标对象对应的目标音轨，并采用语音活性检测算法对上述目标音轨进行检测，得到上述目标对象的目标音频。在该分离装置中，基于多个原始音频和计算得到的多个第二角度进行计算，得到多个音频，再对同一个目标对象对应的多个音频进行拼接，得到目标对象的目标音轨，最后通过语音活性检测算法对目标对象的目标音轨进行检测，得到目标对象在目标音轨上的目标音频，即本方案实现了将目标对象在整
个原始视频中的音频进行自动分离，形成一个目标对象对应一个目标音轨，并通过语音活性检测方法将目标对象在目标音轨上有声音的音频检测出来，得到目标音频，本方案能够较为准确地将目标对象在整个原始视频中的音频自动分离出来，保证了得到的目标音轨和目标音频较为准确，解决了现有技术中难以对音频数据进行自动分离的问题。
93.以上所述仅为本技术的优选实施例而已，并不用于限制本技术，对于本领域的技术人员来说，本技术可以有各种更改和变化。凡在本技术的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本技术的保护范围之内。

技术特征：

1.一种音频的分离方法，其特征在于，摄像机包括相机和麦克风阵列，所述相机用于采集原始视频，所述麦克风阵列用于采集多个原始音频，所述分离方法包括：至少根据多个第一角度，计算多个第二角度，其中，所述第一角度为第一直线与第二直线之间的夹角，所述第一直线为所述相机的中心的位置点与目标对象的位置点的连线，所述第二直线为所述相机的坐标系的任意一个坐标轴所在的直线，所述第二角度为第三直线和第四直线之间的夹角，所述第三直线为所述麦克风阵列的中心的位置点与所述目标对象的位置点的连线，所述第四直线为麦克风坐标系的任意一个坐标轴所在的直线，所述麦克风阵列位于所述麦克风坐标系构建的空间内；基于多个所述原始音频和多个所述第二角度，得到多个音轨，一个所述音轨对应于一个所述第二角度；对属于同一个所述目标对象的多个所述音轨进行拼接，得到所述目标对象对应的目标音轨，并采用语音活性检测算法对所述目标音轨进行检测，得到所述目标对象的目标音频。2.根据权利要求1所述的分离方法，其特征在于，至少根据多个第一角度，计算多个第二角度，包括：确定所述相机的坐标系与所述麦克风坐标系之间位姿相互转换的关系矩阵；将多个所述第一角度与所述关系矩阵相乘，得到多个所述第二角度。3.根据权利要求1所述的分离方法，其特征在于，所述原始视频包括多帧连续的待检测图像，确定多个所述第一角度的过程包括：对各所述待检测图像进行检测，得到多个所述目标对象的多个位置信息组，其中，每个所述目标对象对应于一个所述位置信息组，每个所述待检测图像对应至少一个所述位置信息组，所述位置信息组包括表征最小矩形区域的位置的信息；确定各所述最小矩形区域的中心点以及所述待检测图像的中心点；将各所述最小矩形区域的中心点和所述待检测图像的中心点输入至相机成像模型，得到多个所述第一角度。4.根据权利要求1至3中任意一项所述的分离方法，其特征在于，所述分离方法还包括：至少将目标图像和所述目标音轨发送至终端设备，以使得所述终端设备的显示屏显示所述目标图像和目标滚动条，所述目标滚动条位于对应的所述目标图像的一侧，所述目标滚动条为所述目标音轨的图标，所述终端设备响应于作用在所述目标滚动条上的第一预定操作的情况下，播放对应部分的所述目标音轨；将所述原始视频发送至所述终端设备，以使得所述终端设备的显示屏显示所述原始视频的视频图标，所述终端设备响应于作用在所述原始视频的视频图标上的第二预定操作的情况下，播放所述原始视频。5.根据权利要求4所述的分离方法，其特征在于，确定所述目标图像的过程包括：确定各待检测图像中与多个所述目标对象的多个位置信息组对应的多个预定区域，并对多个所述预定区域进行裁剪，得到多个预定图像，其中，一个所述位置信息组对应于一个所述预定区域；采用图像质量评估算法对属于同一个所述目标对象的多个所述预定图像进行质量评估，得到所述目标图像，所述目标图像为多个所述预定图像中的图像质量最优的一张图像。6.根据权利要求4所述的分离方法，其特征在于，至少将目标图像和所述目标音轨发送
至终端设备，还包括：将所述目标音频在所述目标音轨上的时间信息发送至所述终端设备，以使得所述终端设备在所述目标滚动条上显示目标标记，所述目标标记为根据所述时间信息生成的。7.一种音频的分离装置，其特征在于，摄像机包括相机和麦克风阵列，所述相机用于采集原始视频，所述麦克风阵列用于采集多个原始音频，所述分离装置包括：第一计算单元，用于至少根据多个第一角度，计算多个第二角度，其中，所述第一角度为第一直线与第二直线之间的夹角，所述第一直线为所述相机的中心的位置点与目标对象的位置点的连线，所述第二直线为所述相机的坐标系的任意一个坐标轴所在的直线，所述第二角度为第三直线和第四直线之间的夹角，所述第三直线为所述麦克风阵列的中心的位置点与所述目标对象的位置点的连线，所述第四直线为麦克风坐标系的任意一个坐标轴所在的直线，所述麦克风阵列位于所述麦克风坐标系构建的空间内；第二计算单元，用于基于多个所述原始音频和多个所述第二角度，得到多个音轨，一个所述音轨对应于一个所述第二角度；第一检测单元，用于对属于同一个所述目标对象的多个所述音轨进行拼接，得到所述目标对象对应的目标音轨，并采用语音活性检测算法对所述目标音轨进行检测，得到所述目标对象的目标音频。8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的程序，其中，所述程序执行权利要求1至6中任意一项所述的分离方法。9.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至6中任意一项所述的分离方法。10.一种电子设备，其特征在于，包括：一个或多个处理器，存储器以及一个或多个程序，其中，所述一个或多个程序被存储在所述存储器中，并且被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行权利要求1至6中任意一项所述的分离方法。

技术总结

本申请提供了一种音频的分离方法、分离装置、处理器与电子设备，该分离方法包括：至少根据多个第一角度，计算多个第二角度，其中，第一角度为第一直线与第二直线之间的夹角，第二角度为第三直线和第四直线之间的夹角，第三直线为麦克风阵列的中心的位置点与目标对象的位置点的连线；基于多个原始音频和多个第二角度，得到多个音轨，一个音轨对应于一个第二角度；对属于同一个目标对象的多个音轨进行拼接，得到目标对象对应的目标音轨，并采用语音活性检测算法对目标音轨进行检测，得到目标对象的目标音频，从而解决了现有技术中难以对音频数据进行自动分离的问题。频数据进行自动分离的问题。频数据进行自动分离的问题。