音频切分方法、装置、电子设备和存储介质与流程

1.本发明涉及信息处理技术领域，尤其涉及一种音频切分方法、装置、电子设备和存储介质。

背景技术：

2.为了能够对营业厅工作人员的服务进行质检和评价，通常需对营业厅音频进行切分，而考虑到不同客户所办理的业务可能不同，且不同业务对接的工作人员也不同，因此需将营业厅音频按照客户办理业务的顺序进行切分，以实现不同业务对应工作人员的服务质检和评价。
3.目前，针对于营业厅音频的切分方案，多是使用拾音硬件进行定时切分和音频上传，而无法按照办理客户进行音频切分，难以区分客户，成效不高，无法实现不同业务对应工作人员的服务质检和评价。

技术实现要素：

4.本发明提供一种音频切分方法、装置、电子设备和存储介质，用以解决现有技术中仅能进行定时切分，而无法区分音频对应的客户，以致切分方法的成效不高的缺陷，实现了以客户为单位的音频切分。
5.本发明提供一种音频切分方法，包括：
6.确定待切分的双声道音频；
7.分别对所述双声道音频中的第一声道音频和第二声道音频进行静音段标注，得到所述第一声道音频中的静音段和所述第二声道音频中的静音段；
8.基于所述第一声道音频中的静音段和所述第二声道音频中的静音段，确定所述双声道音频中的共性静音分隔点，并基于所述共性静音分隔点，对所述第一声道音频进行切分，得到多个第一切分音频段；
9.对各第一切分音频段进行静音段切除，得到各第二切分音频段，基于各第二切分音频段的声纹特征进行客户音频组合，得到以客户为单位的客户音频。
10.根据本发明提供的一种音频切分方法，所述基于各第二切分音频段的声纹特征进行客户音频组合，得到以客户为单位的客户音频，包括：
11.按照各第二切分音频段在所述第一声道音频中的顺序进行组合，得到客户组合音频；
12.基于所述客户组合音频中相邻的第二切分音频段的声纹特征之间的相似度，确定所述客户组合音频中的疑似音频端点；
13.基于所述客户组合音频中相邻的疑似音频端点之间的音频时长，以及预设噪音时长，对所述疑似音频端点进行过滤，得到客户音频端点，并基于所述客户音频端点确定以客户为单位的客户音频。
14.根据本发明提供的一种音频切分方法，所述基于所述客户组合音频中相邻的第二
切分音频段的声纹特征之间的相似度，确定所述客户组合音频中的疑似音频端点，包括：
15.若所述客户组合音频中两个相邻的第二切分音频段的声纹特征之间的相似度小于预设相似度，则将两个相邻的第二切分音频段的音频组合点作为所述客户组合音频的候选音频端点；
16.否则，将两个相邻的第二切分音频段的音频组合点作为所述客户组合音频的非候选音频端点；
17.基于所述客户组合音频中相邻的非候选音频端点对应的第二切分音频段的声纹特征之间的相似度，以及预设相似度，对所述候选音频端点进行过滤，得到所述疑似音频端点。
18.根据本发明提供的一种音频切分方法，所述分别对所述双声道音频中的第一声道音频和第二声道音频进行静音段标注，得到所述第一声道音频中的静音段和所述第二声道音频中的静音段，包括：
19.确定所述第一声道音频和所述第二声道音频中各音频帧的帧能量，基于所述各音频帧的帧能量，以及能量门限值，确定所述各音频帧的静音检测状态，所述能量门限值基于对应声道音频确定；
20.基于所述第一声道音频和所述第二声道音频中音频窗包含的音频帧数，以及所述各音频帧的静音检测状态，确定所述第一声道音频中的静音段和所述第二声道音频中的静音段。
21.根据本发明提供的一种音频切分方法，所述基于所述第一声道音频中的静音段和所述第二声道音频中的静音段，确定所述双声道音频中的共性静音分隔点，包括：
22.确定所述第一声道音频中静音段的静音端点，以及所述第二声道音频中静音段的静音端点；
23.从所述第一声道音频中静音段的静音端点，以及所述第二声道音频中静音段的静音端点中，选取共性静音端点，所述共性静音端点在所述第一声道音频和所述第二声道音频中对应的音频帧均处于静音段内；
24.基于所述共性静音端点在对应声道音频中静音段的静音时长，以及预设静音时长，对所述共性静音端点进行过滤，得到共性静音分隔点。
25.根据本发明提供的一种音频切分方法，所述对各第一切分音频段进行静音段切除，得到各第二切分音频段，包括：
26.对各第一切分音频段进行静音段切除，得到各静音切除音频段；
27.基于所述各静音切除音频段的音频时长，以及预设音频时长进行音频过滤，得到各第二切分音频段。
28.根据本发明提供的一种音频切分方法，所述基于各第二切分音频段的声纹特征进行客户音频组合，得到以客户为单位的客户音频，之后还包括：
29.基于所述第二声道音频，确定标准音频端点；
30.基于所述标准音频端点和所述客户音频，确定音频切分正确率；
31.基于所述音频切分正确率，调整客户音频端点。
32.本发明还提供一种音频切分装置，包括：
33.音频确定单元，用于确定待切分的双声道音频；
34.静音标注单元，用于分别对所述双声道音频中的第一声道音频和第二声道音频进行静音段标注，得到所述第一声道音频中的静音段和所述第二声道音频中的静音段；
35.音频切分单元，用于基于所述第一声道音频中的静音段和所述第二声道音频中的静音段，确定所述双声道音频中的共性静音分隔点，并基于所述共性静音分隔点，对所述第一声道音频进行切分，得到多个第一切分音频段；
36.客户音频确定单元，用于对各第一切分音频段进行静音段切除，得到各第二切分音频段，基于各第二切分音频段的声纹特征进行客户音频组合，得到以客户为单位的客户音频。
37.本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述的音频切分方法。
38.本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述的音频切分方法。
39.本发明提供的音频切分方法、装置、电子设备和存储介质，通过静音段标注所得的第一声道音频中的静音段和第二声道音频中的静音段，确定双声道音频中的共性静音分隔点，并利用共性静音分隔点，对第一声道音频进行切分，切除切分所得的多个第一切分音频段中的静音段，得到各第二切分音频段，基于各第二切分音频段的声纹特征进行客户音频组合，得到以客户为单位的客户音频，克服了传统方案中仅能进行定时切分，而无法区分音频对应的客户，以致切分方法的成效不高的缺陷，实现了以客户为单位的音频切分，为不同的服务质检和服务评价提供了助力。
附图说明
40.为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
41.图1是本发明提供的音频切分方法的流程示意图；
42.图2是本发明提供的双声道音频的示例图；
43.图3是本发明提供的客户音频的确定过程的示意图；
44.图4是本发明提供的疑似音频端点的确定过程的示意图；
45.图5是本发明提供的疑似音频端点的示例图；
46.图6是本发明提供的音频切分方法中步骤120的流程示意图；
47.图7是本发明提供的静音段的示例图；
48.图8是本发明提供的各音频帧的静音检测状态的示例图；
49.图9是本发明提供的共性静音分隔点的确定过程的示意图；
50.图10是本发明提供的第二切分音频段的确定过程的示意图；
51.图11是本发明提供的第二切分音频段的示例图；
52.图12是本发明提供的客户音频端点的调整过程的示意图；
53.图13是本发明提供的标准音频端点和客户音频端点的对比图；
54.图14是本发明提供的音频切分方法的总体框架图；
55.图15是本发明提供的音频切分装置的结构示意图；
56.图16是本发明提供的电子设备的结构示意图。
具体实施方式
57.为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
58.目前，在对营业厅音频进行切分时，通常使用的是拾音硬件，但拾音硬件仅能进行定时切分和音频上传，而无法区分音频对应的客户，因而此种切分方法的成效不高；并且由于未知客户单次办理业务的开始时间和结束时间，因而无法按照客户单次办理业务的顺序进行音频切分，无法实现不同业务对应工作人员的服务质检和评价。
59.对此，本发明提供一种音频切分方法，旨在通过静音段标注确定双声道音频中的静音段，并利用双声道音频中的共性静音分隔点进行音频切分，以及切除切分所得的音频段中的静音段，在此基础上借助声纹特征进行客户音频组合，以得到客户音频，实现了以客户为单位的音频切分，为不同的服务质检和服务评价提供了助力，图1是本发明提供的音频切分方法的流程示意图，如图1所示，该方法包括：
60.步骤110，确定待切分的双声道音频；
61.具体地，在进行音频切分之前，首先需要确定待切分的营业厅音频，此处的营业厅音频为双声道音频，图2是本发明提供的双声道音频的示例图，如图2所示，双声道音频中包含两条单声道音频，具体而言，营业厅提供的双声道音频中可以包含客户侧音频和客服侧音频，图2中上方为第一声道音频(客户侧音频)，下方为第二声道音频(客服侧音频)。
62.其中，待切分的双声道音频可以是从实时录制的音频中截取的一段音频，也可以从预先录制的音频中选取的一段音频，例如，可以预先设定双声道音频的时长、录制时间等，然后从实时录制的音频中截取一段设定时长的音频，作为双声道音频，或者从预先录制的音频中选取设定录制时间下满足设定时长的音频，作为双声道音频。
63.而在得到待切分的双声道音频之后，还需对其进行声道分离，以将其中包含的两个不同声道的音频分离开，从而得到两条单声道音频，即第一声道音频和第二声道音频；需要说明的是，此处的第一声道音频和第二声道音频可以是客户侧音频和客服侧音频，即客户声道音频和客服声道音频，也可以是其他双方在进行对话时，从采集到的双声道音频中分离出的两个不同声道的音频，本发明实施例对此不做具体限定。
64.另外，待切分的双声道音频可以是一条，也可以是多条，在双声道音频为多条的情况下，需针对每一双声道音频进行音频切分，以得到每一双声道音频中以客户为单位的客户音频。
65.步骤120，分别对双声道音频中的第一声道音频和第二声道音频进行静音段标注，得到第一声道音频中的静音段和第二声道音频中的静音段；
66.具体地，在得到待切分的双声道音频后，即可对双声道音频中的第一声道音频和第二声道音频分别进行静音段标注，以标注出第一声道音频和第二声道音频中的静音段，
静音段标注的过程可以理解为确定对应声道音频中的静音段和非静音段的过程，其中，静音段即无人说话的音频段，非静音段反之，表示有人说话的音频段。
67.而静音段和非静音段的确定依赖于对应声道音频中各音频帧的静音检测状态，此处的静音检测状态用于表示对应音频帧的静音与否，其可以通过语音端点检测(voice activity detection，vad)技术检测得到，换而言之，可以使用vad分别对第一声道音频和第二声道音频进行静音检测，以检测出第一声道音频和第二声道音频中的静音点，结合各静音点和非静音点，确定第一声道音频和第二声道音频中的静音段并进行标注，从而得到第一声道音频中的静音段，以及第二声道音频中的静音段。
68.需要说明的是，此处的vad可以是能量vad，也可以是模型vad，其中，能量vad可以基于对应声道音频中各音频帧的帧能量进行静音检测，模型vad则可以基于从各音频帧中提取得到的dnn(deep neural network，深度神经网络)特征进行静音检测。
69.而作为优选，为保证针对于第一声道音频和第二声道音频的静音段标注过程的准确性，本发明实施例中选用的vad既包含能量vad还包含模型vad，即首先可以通过能量vad和模型vad分别进行静音检测，然后结合能量vad检测得到的各音频帧的静音检测状态，以及模型vad检测得到的各音频帧的静音检测状态，确定对应声道音频中的静音段，如此即完成了针对于两条单声道音频的静音段标注。
70.本发明实施例中，对双声道音频中的第一声道音频和第二声道音频分别进行静音段标注，可以为后续的静音段切除奠定基础，同时，还可为共性静音分隔点的确定提供数据支撑，助力了音频切分过程；此外，使用不同层面、不同角度的语音端点检测技术进行静音段标注，保证了静音段标注过程的准确性，提升了静音检测过程的精确度。
71.步骤130，基于第一声道音频中的静音段和第二声道音频中的静音段，确定双声道音频中的共性静音分隔点，并基于共性静音分隔点，对第一声道音频进行切分，得到多个第一切分音频段；
72.具体地，在步骤120中，确定第一声道音频中的静音段，以及第二声道音频中的静音段之后，即可执行步骤130，据此静音段确定共性静音分隔点，并依据此共性静音分隔点对双声道音频中的第一声道音频进行切分，这一过程具体包括如下步骤：
73.首先，可以在第一声道音频中的静音段和第二声道音频中的静音段的基础上，确定共性静音分隔点，即可以以第一声道音频中的静音段和第二声道音频中的静音段为基准，确定双声道音频内同时处于静音段的共性静音分隔点，具体可以是，确定各静音段在对应声道音频中的静音端点，然后依据各静音端点在另一声道音频中的静音情况，从各静音端点中筛选出共性静音分隔点，此处的静音情况表示静音端点对应的音频帧是否处于静音段内，换而言之，是从各静音端点中选取出对应的音频帧同时处于静音段内的静音端点，此部分静音端点即共性静音端点，此处可直接将共性静音端点作为共性静音分隔点；
74.也可对其进行进一步筛选，以得到最终的共性静音分隔点，即可以利用预设静音时长，对共性静音端点进行过滤，滤除其中对应的静音段的静音时长不满足预设静音时长的共性静音端点，从而得到过滤后的共性静音端点，此共性静音端点即为所求的双声道音频中的共性静音分隔点；此处，预设静音时长为预先设定的静音段的时长，其可以根据实际情况相应设定，例如，可以是8秒、10秒、15秒等。
75.随即，可以利用双声道音频中的共性静音分隔点，进行音频切分，即可以以双声道
音频中的共性静音分隔点为依据，对第一声道音频进行切分，得到多个切分后的音频段，由于此次切分为针对于第一声道音频的第一次切分，因而可将切分所得的多个音频段称为多个第一切分音频段，也就是说，根据双声道音频中的共性静音分隔点进行音频切分后，即可得到多个第一切分音频段。
76.本发明实施例中，基于预设静音时长的进一步筛选能够在最大程度上保证共性静音分隔点选取过程的准确性，提升了其选取精度，精进了基于共性静音分隔点的音频切分过程，为以客户为单位的音频切分过程提供了关键性的助力。
77.步骤140，对各第一切分音频段进行静音段切除，得到各第二切分音频段，基于各第二切分音频段的声纹特征进行客户音频组合，得到以客户为单位的客户音频。
78.具体地，在步骤130中，对第一声道音频进行切分，得到多个第一切分音频段的基础上，可以执行步骤140，对各第一切分音频段进行静音段切除，并基于静音段切除后的各第二切分音频段进行客户音频组合，以得到以客户为单位的客户音频，具体过程包括如下步骤：
79.首先，需要确定各第一切分音频段中的静音段，而静音段可以通过针对于各第一切分音频段的静音段标注确定，即可以使用vad对对各第一切分音频段进行静音检测，并根据检测所得的各音频帧的静音检测状态，确定各第一切分音频段中的静音段；
80.随后，可以对各第一切分音频段进行静音段切除，即切除各第一切分音频段中的静音段，由于此处的切分为针对于第一声道音频的第二次切分，因而可将切除所得的各音频段称之为各第二切分音频段；
81.此后，即可在各第二切分音频段的声纹特征的基础上，进行客户音频组合，以得到以客户为单位的客户音频，具体过程可以是，可以为各第二切分音频段生成声纹特征，然后依据声纹特征之间的相似度，对各第二切分音频段进行组合，从而得到以客户为单位的客户音频，这一过程实际上是，借助声纹特征之间的相似度进行邻段对比和跨段对比，以从各第二切分音频段中出为短噪声的音频段，通过音频段的重新组合，得到以客户为单位的客户音频。
82.本发明提供的音频切分方法，通过静音段标注所得的第一声道音频中的静音段和第二声道音频中的静音段，确定双声道音频中的共性静音分隔点，并利用共性静音分隔点，对第一声道音频进行切分，切除切分所得的多个第一切分音频段中的静音段，得到各第二切分音频段，基于各第二切分音频段的声纹特征进行客户音频组合，得到以客户为单位的客户音频，克服了传统方案中仅能进行定时切分，而无法区分音频对应的客户，以致切分方法的成效不高的缺陷，实现了以客户为单位的音频切分，为不同的服务质检和服务评价提供了助力。
83.基于上述实施例，图3是本发明提供的客户音频的确定过程的示意图，如图3所示，基于各第二切分音频段的声纹特征进行客户音频组合，得到以客户为单位的客户音频，包括：
84.步骤310，按照各第二切分音频段在第一声道音频中的顺序进行组合，得到客户组合音频；
85.步骤320，基于客户组合音频中相邻的第二切分音频段的声纹特征之间的相似度，确定客户组合音频中的疑似音频端点；
86.步骤330，基于客户组合音频中相邻的疑似音频端点之间的音频时长，以及预设噪音时长，对疑似音频端点进行过滤，得到客户音频端点，并基于客户音频端点确定以客户为单位的客户音频。
87.具体地，步骤140中，根据各第二切分音频的声纹特征进行客户音频组合，以得到以客户为单位的客户音频的过程，具体可以包括：
88.步骤310，首先可以将各第二切分音频段按照其在第一声道音频中的顺序进行组合，以得到客户组合音频，即可以以各第二切分音频段在第一声道音频中的顺序为参考，对各第二切分音频段进行音频组合，从而得到客户组合音频，换而言之，是按照各第二切分音频段在第一声道音频中的顺序进行音频拼接，以得到多个客户的客户组合音频；
89.其中，各第二切分音频段在第一声道音频中的顺序可以通过各第二切分音频段的录制时间确定，也可以通过各第二切分音频段的排列序号确定，还可以通过切分过程中得到各第二切分音频段的先后顺序确定，本发明实施例对此不做具体限定。
90.步骤320，随即可以确定客户组合音频中各第二切分音频段的声纹特征，即可以为各第二切分音频段生成声纹特征，然后，可以借助声纹特征进行邻段对比，以从各第二切分音频段的音频组合点中确定疑似音频端点，即可以确定客户音频中所有两两相邻的第二切分音频段的声纹特征之间的相似度，并据此声纹特征之间的相似度确定疑似音频端点，此处的音频组合点即客户组合音频中各第二切分音频段的衔接点(拼接点)，而疑似音频端点可以理解为初步确定的不同客户的客户音频之间的音频端点；
91.由于声纹具有唯一性，因此通过声纹特征之间的相似度可以反映出邻近第二切分音频段对应的客户的异同，亦可以理解为，在声纹特征之间的相似度达到预设相似度的情况下，可以判定此两者对应的第二切分音频段为同一客户的音频，反之，在声纹特征之间的相似度未达到预设相似度的情况下，则判定两者对应的第二切分音频段所属客户不同，即对应于不同客户。
92.具体在本发明实施例中，可以使用云端识别引擎为切分完成的各第二切分音频段生成声纹特征，该识别引擎使用filter bank特征，可以对生成的各第二切分音频段的声纹特征进行对比，即可以对输入的各第二切分音频段进行声纹提取，并对声纹提取所得的各第二切分音频段的声纹特征进行对比，以确定两者之间的相似度。
93.步骤330，此后即可利用预设噪声时长，对客户组合音频中的疑似音频端点进行过滤，以得到各个客户的客户音频端点，然后依据此客户音频端点，确定以客户为单位的客户音频，具体可以是，以客户组合音频中相邻的疑似音频端点(当前疑似音频端点和下一疑似音频端点)之间的音频时长为基准，利用预设噪音时长进行疑似音频端点过滤，即滤除音频时长小于预设噪声时长的第二切分音频段对应的疑似音频端点中的当前疑似音频端点，从而得到各个客户的客户音频端点；而后即可据此客户音频端点，从客户组合音频中确定各个客户的客户音频，即以客户为单位的客户音频。
94.对应地，若客户组合音频中所有两两相邻的疑似音频端点之间的音频时长均大于等于预设噪声时长，则无需滤除任一疑似音频端点，将所有疑似音频端点作为客户音频端点。
95.其中，预设噪声时长为预先设定的噪声段的时长，其可以根据实际情况相应设定，例如，可以是6秒、8秒、10秒等。而作为优选，本发明实施例中，将预设噪声时长确定为10秒，
即确定相邻的疑似音频端点之间的音频时长小于10秒的第二切分音频段，然后滤除该第二切分音频段对应的两个相邻的疑似音频端点中靠前的疑似音频端点，最终得到各个客户的客户音频端点。
96.例如，当客户组合音频中存在疑似音频端点t+1和t+2，且t+1和t+2之间的音频时长为8秒，预设噪声时长为10秒时，可以确定t+1和t+2之间的音频时长小于预设噪声时长，因此可以将相邻的疑似音频端点中靠前的疑似音频端点t+1滤除，得到客户音频端点t+2。
97.基于上述实施例，图4是本发明提供的疑似音频端点的确定过程的示意图，如图4所示，步骤320包括：
98.步骤321，若客户组合音频中两个相邻的第二切分音频段的声纹特征之间的相似度小于预设相似度，则将两个相邻的第二切分音频段的音频组合点作为客户组合音频的候选音频端点；
99.步骤322，否则，将两个相邻的第二切分音频段的音频组合点作为客户组合音频的非候选音频端点；
100.步骤323，基于客户组合音频中相邻的非候选音频端点对应的第二切分音频段的声纹特征之间的相似度，以及预设相似度，对候选音频端点进行过滤，得到疑似音频端点。
101.具体地，步骤320中，根据客户组合音频中相邻的第二切分音频段的声纹特征之间的相似度，确定客户组合音频中的疑似音频端点的过程，具体可以包括如下步骤：
102.首先，执行步骤321，在客户组合音频中两个相邻的第二切分音频段的声纹特征之间的相似度小于预设相似度的情况下，即此两个相邻的第二切分音频段的声纹特征之间的差距较大的情况下，换而言之，此两个相邻的第二切分音频段对应的客户不同的情况下，可以将此两个相邻的第二切分音频段的音频组合点作为“疑似音频端点”，而考虑到此时得到的“疑似音频端点”还未排除短噪声的干扰，即还存在因为短噪声导致的多切而误将短噪声和客户音频的音频组合点作为疑似音频端点的情况，为避免这一影响还需对其进行过滤筛选，因而可以将此时得到的“疑似音频端点”称之为候选音频端点；
103.同时，执行步骤322，在客户组合音频中两个相邻的第二切分音频段的声纹特征之间的相似度大于等于预设相似度的情况下，即此两个相邻的第二切分音频段的声纹特征之间的极为相近的情况下，换而言之，此两个相邻的第二切分音频段对应同一客户的情况下，可以确定此两个相邻的第二切分音频之间不存在疑似音频端点，换而言之，此两个相邻的第二切分音频段的音频组合点未纳入疑似音频端点的候选范畴，即为客户组合音频的非候选音频端点；
104.此处，预设相似度为预先设定的，用于判定声纹特征所能表示两个第二切分音频段对应同一人员的相似度值，其可以根据实际需求相应设定，例如，可以是60％、75％、85％等，本发明实施例对此不做具体限定。而作为优选，本发明实施例中，将预设相似度确定为60％。
105.随即，执行步骤323，可以进行跨段对比，以对候选音频端点进行过滤，从而得到疑似音频端点，具体可以是，确定客户组合音频中各非候选音频端点对应的两个第二切分音频段中靠后的第二切分音频段，然后确定相邻的非候选音频端点对应的靠后的第二切分音频段的声纹特征之间的相似度，在此基础上利用预设相似度进行候选音频端点过滤，以得到疑似音频端点，即滤除声纹特征之间的相似度大于等于预设相似度的两个第二切分音频
段对应的两个非候选静音端点之间的候选静音端点，从而得到疑似静音端点。
106.对应地，若客户组合音频中相邻的非候选音频端点对应的第二切分音频段的声纹特征之间的相似度均大于等于预设相似度，则无需滤除任一候选音频端点，将所有候选音频端点作为疑似音频端点。
107.下面以具体实例为基准，对疑似音频端点的确定过程进行说明：
108.图5是本发明提供的疑似音频端点的示例图，如图5所示，客户组合音频中包含六个第二切分音频段，分别为一至六号音频段，相邻的音频段的音频组合点依次为t-1、t、t+1、t+2和t+3，且一号音频段和二号音频段、三号音频段和四号音频段，以及四号音频段和五号音频段的声纹特征之间的相似度均小于预设相似度0.6，二号音频段和三号音频段，以及五号音频段和六号音频段的声纹特征之间的相似度则大于预设相似度0.6，因此可以确定一号音频段和二号音频段的音频组合点t-1，三号音频段和四号音频段的音频组合点t+1，以及四号音频段和五号音频段的音频组合点t+2为客户组合音频的候选音频端点，将其他音频组合点t和t+3，以及音频端点t-2确定为非候选音频端点。
109.进一步地，相邻的非候选音频端点t和t+3对应的第二切分音频段(三号音频段和六号音频段)的声纹特征之间的相似度小于预设相似度，因此保留非候选音频端点t和t+3之间的候选音频端点t+1和t+2；而相邻的非候选音频端点t-2和t对应的第二切分音频段(一号音频段和三号音频段)的声纹特征之间的相似度大于预设相似度，因此滤除非候选音频端点t-2和t之间的候选音频端点t-1，最终得到疑似音频端点t+1和t+2。
110.基于上述实施例，图6是本发明提供的音频切分方法中步骤120的流程示意图，如图6所示，步骤120包括：
111.步骤121，确定第一声道音频和第二声道音频中各音频帧的帧能量，基于各音频帧的帧能量，以及能量门限值，确定各音频帧的静音检测状态，能量门限值基于对应声道音频确定；
112.步骤122，基于第一声道音频和第二声道音频中音频窗包含的音频帧数，以及各音频帧的静音检测状态，确定第一声道音频中的静音段和第二声道音频中的静音段。
113.具体地，步骤120中，分别对双声道音频中的第一声道音频和第二声道音频进行静音段标注，以得到第一声道音频中的静音段和第二声道音频中的静音段的过程，具体可以包括如下步骤：
114.步骤121，首先可以使用能量vad进行静音检测，即可以确定第一声道音频和第二声道音频中各音频帧的帧能量，然后即可依据各音频帧的帧能量进行静音段和非静音段的划分，具体可以是，以各音频帧的帧能量为基准，结合能量门限值，通过状态机和平滑过程完成静音检测，从而得到各音频帧的静音检测状态，即判断各音频帧的静音与否；其中，能量门限值可以基于对应声道音频确定，即可以在对应声道音频的基础上，使用能量四门限算法，确定对应声道音频的四个能量门限值；
115.值得注意的是，本发明实施例中，除上述使用能量vad确定第一声道音频和第二声道音频中各音频帧的静音检测状态外，还可以基于模型vad判定各音频帧的静音检测状态，即可以通过mlp(multilayer perceptron，多层感知机)对第一声道音频和第二声道音频中的各音频帧分别进行特征提取，以得到特定维度(75*11维)的dnn特征，然后将提取得到的特定维度的dnn特征输入至vad模型，vad模型根据各音频帧的dnn特征，判定其静音检测状
态，是0还是1，此处的0表示speech，1则表示no speech。
116.其中，vad模型可以通过经过科学配比的静音段语料和非静音段语料训练得到，而训练完成的vad模型还可以综合考量对应声道音频中各音频帧的静音检测状态，从而直接确定对应声道音频中的静音段。
117.步骤122，可以确定对应声道音频中音频窗的窗长，此处的窗长可以理解为音频窗中包含的音频帧数，然后可以第一声道音频和第二声道音频中音频窗包含的音频帧数，以及基于能量vad和模型vad确定的各音频帧的静音检测状态，判定第一声道音频中的静音段，以及第二声道音频中的静音段，图7是本发明提供的静音段的示例图。
118.下面以具体实例为基准，对静音段标注过程进行说明：
119.图8是本发明提供的各音频帧的静音检测状态的示例图，如图8所示，第一声道音频或第二声道音频中音频窗包含的音频帧数为21帧，此种情况下，静音段的判定规则可以为音频窗中包含的静音检测状态为0的音频帧数大于等于预设帧数，此处的预设帧数可以是13、15、17等，而作为优选，本发明实施例中将预设帧数确定为15，即在音频窗中包含的静音检测状态为1的音频帧数大于等于15帧的情况下，判定为speech start，对应地，在音频窗中包含的静音检测状态为0的音频帧数大于等于15帧的情况下，判定为speech end。
120.需要说明的是，在静音段标注的过程中，音频窗的窗长(窗大小)需保持不变，并且其窗长可以根据实际需求相应设定。
121.基于上述实施例，音频帧的帧能量可以通过如下公式计算得到：
[0122][0123]
式中，xj表示采样点的振幅，ei表示帧能量，n表示帧长度，j表示第j音频帧，c为最低门限值，多为常数，c的设置能够避免帧能量低于0的情况的出现。
[0124]
而四个能量门限值的计算，可以分为以下四种情况：
[0125]
其一，对应声道音频中大部分为背景噪声，此时通过第一种聚类方式可以得到背景噪声的能量值e
noise
，四个能量门限值的计算公式为：ki＝e
noise
+ai，(i＝1，2，3，4)，选取c1centroid作为e
noise
；
[0126]
k1＝c1centroid+2.0
[0127]
k2＝c1centroid+5.0
[0128]
k3＝c1centroid+3.0
[0129]
k4＝c1centroid+8.0
[0130]
式中，c1centroid表示第一种聚类方式的质心，k1、k2、k3和k4为四个能量门限值。
[0131]
其二，对应声道音频中人声较为显著，且人声段的能量明显高于噪声段的能量，此时通过第二种聚类方式可以得到背景噪声的能量值e
noise
，以及人声段的能量值e
voice
，四个能量门限值的计算公式为：ki＝e
noise
+(e
voice-e
noise
)*ai，(i＝1，2，3，4)，选取c2centroid[0]作为e
noise
：
[0132]
k1＝c2centroid[0]+value*0.1
[0133]
k2＝c2centroid[0]+value*0.3
[0134]
k3＝c2centroid[0]+value*0.2
[0135]
k4＝c2centroid[0]+value*0.6
[0136]
式中，c2centroid[0]表示第二种聚类方式的质心，value表示质心的损失函数，value＝c2centroid[1]-c2centroid[0]，其中，c2centroid[1]表示期望值，c2centroid[0]表示实际值。
[0137]
其三，对应声道音频中人声段和噪声段的能量差值不明显，此时，c1centroid-c2centroid[0]＞value*0.2，四个能量门限值的计算公式为：ki＝e
noise
+ai，(i＝1，2，3，4)，选取c2centroid[0]作为e
noise
：
[0138]
k1＝c2centroid[0]+1.0
[0139]
k2＝c2centroid[0]+4.0
[0140]
k3＝c2centroid[0]+2.0
[0141]
k4＝c2centroid[0]+8.0
[0142]
其四，不满足上述三种情况时，四个能量门限值的计算公式为：ki＝e
noise
+ai，(i＝1，2，3，4)，选取c1centroid作为e
noise
：
[0143]
k1＝c1centroid+1.0
[0144]
k2＝c1centroid+4.0
[0145]
k3＝c1centroid+2.0
[0146]
k4＝c1centroid+8.0
[0147]
基于上述实施例，图9是本发明提供的共性静音分隔点的确定过程的示意图，如图9所示，基于第一声道音频中的静音段和第二声道音频中的静音段，确定双声道音频中的共性静音分隔点，包括：
[0148]
步骤910，确定第一声道音频中静音段的静音端点，以及第二声道音频中静音段的静音端点；
[0149]
步骤920，从第一声道音频中静音段的静音端点，以及第二声道音频中静音段的静音端点中，选取共性静音端点，共性静音端点在第一声道音频和第二声道音频中对应的音频帧均处于静音段内；
[0150]
步骤930，基于共性静音端点在对应声道音频中静音段的静音时长，以及预设静音时长，对共性静音端点进行过滤，得到共性静音分隔点。
[0151]
具体地，上述根据第一声道音频中的静音段和第二声道音频中的静音段，确定双声道音频中的共性静音分隔点的过程，具体可以包括：
[0152]
首先，执行步骤910，可以根据第一声道音频中的静音段，以及第二声道音频中的静音段，确定第一声道音频中的静音端点，以及第二声道音频中的静音端点，即确定第一声道音频和第二声道音频中各静音段的音频端点；
[0153]
随即，执行步骤920，从第一声道音频中静音段的静音端点，以及第二声道音频中静音段的静音端点中，选取对应的音频帧在第一声道音频和第二声道音频中同时处于静音段的静音端点，此部分静音端点即为共性静音端点，亦可以理解为，共性静音端点在第一声道音频和第二声道音频中对应的音频帧均处于静音段内；
[0154]
随后，执行步骤930，即可在共性静音端点的基础上，利用预设静音时长过滤得到共性静音分隔点，即可以依据共性静音端点在对应声道音频中对应的静音段的静音时长，以及预设静音时长，对共性静音端点进行过滤，从而得到共性静音分隔点，具体可以是，滤
除在对应声道音频中对应的静音段的静音时长不满足预设静音时长的共性静音端点，从而得到过滤后的共性静音端点，此共性静音端点即为所求的双声道音频中的共性静音分隔点。
[0155]
此处，预设静音时长为预先设定的静音段的时长，其可以根据实际情况相应设定，例如，可以是8秒、10秒、15秒等。而作为优选，本发明实施例中将预设静音时长确定为10秒，即可以从共性静音端点中选取出对应的静音段的静音时长大于等于10秒的共性静音端点，作为共性静音分隔点。
[0156]
基于上述实施例，图10是本发明提供的第二切分音频段的确定过程的示意图，如图10所示，对各第一切分音频段进行静音段切除，得到各第二切分音频段，包括：
[0157]
步骤1010，对各第一切分音频段进行静音段切除，得到各静音切除音频段；
[0158]
步骤1020，基于各静音切除音频段的音频时长，以及预设音频时长进行音频过滤，得到各第二切分音频段。
[0159]
具体地，上述过程中，对各第一切分音频段进行静音段切除，从而得到各第二切分音频段的过程，具体可以包括如下步骤：
[0160]
步骤1010，首先，可以对利用共性静音分隔点进行音频切分得到的多个第一切分音频段进行静音段切除，即可以切除各第一切分音频段中的静音段，以得到静音切除后的音频段，即各静音切除音频段；其中，各第一切分音频段中的静音段可以通过静音段标注确定，静音段标注的过程上文已详细说明，此处不再赘述；
[0161]
步骤1020，随即，可以利用预设音频时长，对各静音切分音频段进行过滤，以得到各第二切分音频段，具体可以是，以各静音切除音频段的音频时长为基准，利用预设音频时长进行音频过滤，滤除各静音切除音频段中音频时长未达到预设音频时长的静音切除音频段，从而得到过滤后的各第二切分音频段。
[0162]
图11是本发明提供的第二切分音频段的示例图，如图11所示，第1段、第2段、第3段、第5段、第7段、第9段以及第11段为经过静音段切除后得到的各静音切除音频段，其中，第1段、第2段和第7段因其音频时长小于预设音频时长，因而在音频过滤的过程中被滤除了，而未被滤除的第3段、第5段、第9段和第11段为各第二切分音频段。
[0163]
此处的预设音频时长可以根据实际情况相应设定，例如，可以是2秒、3秒、5秒等，而作为优选，本发明实施例中将预设音频时长确定为2秒，即从各静音切除音频段中选取音频时长大于等于2秒的静音切除音频，作为第二切分音频，换而言之，滤除音频时长小于2秒的静音切除音频段。
[0164]
基于上述实施例，图12是本发明提供的客户音频端点的调整过程的示意图，如图12所示，基于各第二切分音频段的声纹特征进行客户音频组合，得到以客户为单位的客户音频，之后还包括：
[0165]
步骤1210，基于第二声道音频，确定标准音频端点；
[0166]
步骤1220，基于标准音频端点和客户音频，确定音频切分正确率；
[0167]
步骤1230，基于音频切分正确率，调整客户音频端点。
[0168]
具体地，在经过上述步骤，得到以客户为单位的客户音频之后，为保证客户音频的准确性，还可以对第一声道音频的音频切分过程进行校验，验证其音频切分过程的准确率，以得到音频切分正确率，并可基于此音频切分正确率校正音频切分过程中的客户音频端
点，这一过程具体可以包括如下步骤：
[0169]
首先，执行步骤1210，可以依据双声道音频中的第二声道音频，确定标准音频切分点，即可以利用第二声道音频中所蕴含的信息，判断音频切分过程中的标准音频切分点，具体可以是，由于工作人员在为客户办理业务的过程中，在业务办理的开始时刻和结束时刻通常会使用常用语进行询问，或使用标志性语言以表示开始或结束本次业务办理，例如，“请问您需要办理什么业务呢？”、“您的业务已办理完成”、“请给我的服务评分”、“不客气”、“欢迎下次光临”、“慢走”等，因此，可以打开第二声道音频，利用其中蕴含的信息来判断各客户的办理业务的开始时间和结束时间，即确定以客户为单位的各个客户的客户音频的开始时刻和结束时刻，并对其进行人工标注，以形成客户音频的标准音频端点；
[0170]
需要说明的是，开始时刻和结束时刻的标注，应遵照“0:00:00”的格式进行，换而言之，需按照“0:00:00”的格式标注出各个客户的客户音频的开始时刻和结束时刻，下表为人工标注的标准音频端点：
[0171][0172][0173]
人工标注时，除了标注出开始时刻和结束时刻外，还可对音频的大致情况进行备注，例如，音频中背景噪声的情况、音频中的噪声段等，从而得到音频备注。
[0174]
对应于人工标注的标准音频端点，本发明实施例中通过上述步骤确定的各个客户的客户音频端点可以表示为下表所示形式：
[0175][0176]
随即，执行步骤1220，可以依据标准音频端点和客户音频，确定音频切分正确率，即可以对比人工标注的标准音频端点，以及音频切分过程中确定的各个客户的客户音频端点，以得到音频切分过程的音频切分正确率，该音频切分正确率能够反映出音频切分过程的准确率；
[0177]
图13是本发明提供的标准音频端点和客户音频端点的对比图，如图13所示，若标准音频端点和客户音频端点之间的时间差在10秒内，则表示该客户音频端点确定的较为准
确，因此可以标记为绿以表示两者一致；而若标准音频端点和客户音频端点之间的时间差超过2分钟，则确认该客户音频端点确定错误，换而言之，对应该客户音频端点的音频切分为错切，因此可以将其标记为红，表示错切警示；若存在标准音频端点，而未存在与之对应的客户音频端点，则可以确定缺少对应的客户音频端点，即音频切分过程中存在漏切，此时可以将其标记为黄，表示漏切提示；对应地，若存在客户音频端点，而未存在与之对应的标准音频端点，则可以确定客户音频端点多出，即音频切分过程中存在多切，此时可以将其标记为紫，表示多切提示。
[0178]
而音频切分正确率可以基于对比过程所标记的颜确定，即音频切分正确率＝绿/(绿+红+黄+紫)
×
100％。
[0179]
此后，即可执行步骤1230，根据音频切分正确率，调整音频切分过程，以使音频切分过程的各个客户的客户音频端点能够与人工标注的标准音频端点对应，且两者间的时间差尽可能小，即使客户音频端点无限趋近于人工标注的标准音频端点，如此即完成了针对于音频切分过程的校验，验证了其音频切分正确率，并且实现了基于音频切分正确率反馈调节，保证了音频切分过程的准确性。
[0180]
基于上述实施例，图14是本发明提供的音频切分方法的总体框架图，如图14所示，音频切分的总体过程包括如下步骤：
[0181]
首先，确定待切分的双声道音频；
[0182]
随即，可以分别对双声道音频中的第一声道音频和第二声道音频进行静音段标注，以得到第一声道音频中的静音段和第二声道音频中的静音段，具体可以是，确定第一声道音频和第二声道音频中各音频帧的帧能量，基于各音频帧的帧能量，以及能量门限值，确定各音频帧的静音检测状态，能量门限值基于对应声道音频确定；基于第一声道音频和第二声道音频中音频窗包含的音频帧数，以及各音频帧的静音检测状态，确定第一声道音频中的静音段和第二声道音频中的静音段；
[0183]
随后，基于第一声道音频中的静音段和第二声道音频中的静音段，确定双声道音频中的共性静音分隔点，具体可以是，确定第一声道音频中静音段的静音端点，以及第二声道音频中静音段的静音端点；从第一声道音频中静音段的静音端点，以及第二声道音频中静音段的静音端点中，选取共性静音端点，共性静音端点在第一声道音频和第二声道音频中对应的音频帧均处于静音段内；基于共性静音端点在对应声道音频中静音段的静音时长，以及预设静音时长，对共性静音端点进行过滤，得到共性静音分隔点；
[0184]
此后，即可基于共性静音分隔点，对第一声道音频进行切分，得到多个第一切分音频段，并对各第一切分音频段进行静音段切除，得到各第二切分音频段，这一过程具体可以是，对各第一切分音频段进行静音段切除，得到各静音切除音频段；基于各静音切除音频段的音频时长，以及预设音频时长进行音频过滤，得到各第二切分音频段；
[0185]
最后，可以基于各第二切分音频段的声纹特征进行客户音频组合，得到以客户为单位的客户音频，具体可以是，按照各第二切分音频段在第一声道音频中的顺序进行组合，得到客户组合音频；基于客户组合音频中相邻的第二切分音频段的声纹特征之间的相似度，确定客户组合音频中的疑似音频端点；基于客户组合音频中相邻的疑似音频端点之间的音频时长，以及预设噪音时长，对疑似音频端点进行过滤，得到客户音频端点，基于客户音频端点确定以客户为单位的客户音频；
[0186]
其中，基于客户组合音频中相邻的第二切分音频段的声纹特征之间的相似度，确定客户组合音频中的疑似音频端点的过程，可以包括如下步骤：若客户组合音频中两个相邻的第二切分音频段的声纹特征之间的相似度小于预设相似度，则将两个相邻的第二切分音频段的音频组合点作为客户组合音频的候选音频端点；否则，将两个相邻的第二切分音频段的音频组合点作为客户组合音频的非候选音频端点；基于客户组合音频中相邻的非候选音频端点对应的第二切分音频段的声纹特征之间的相似度，以及预设相似度，对候选音频端点进行过滤，得到疑似音频端点。
[0187]
而在这之后，还可以基于第二声道音频，确定标准音频端点；基于标准音频端点和客户音频，确定音频切分正确率；基于音频切分正确率，调整客户音频端点。
[0188]
值得注意的是，上述基于客户组合音频中相邻的第二切分音频段的声纹特征之间的相似度，确定客户组合音频中的疑似音频端点的过程中，声纹对比可以是1:1场景，也可以是1:n场景，本发明适合送礼对此不做具体限定。
[0189]
其中，1:1场景用于确认目标，即对比两段音频中的某条声纹，确认是否是同一人员的声纹，对比结果通过得分的形式体现，换而言之，若得分高于阈值，则确定为真，即为同一人原的声纹，反之为假。
[0190]
1:1场景中还存在漏警率和虚警率。
[0191]
其中，漏警率也称为错误拒绝率(false rejection rate，frr)，即正确目标被拒绝的情况，其计算公式如下式所示：
[0192][0193]
虚警率也称为错误接受率(false acceptance rate，far)，即非目标被通过的情况，换而言之，冒充目标被通过的情况，其计算公式为：
[0194][0195]
漏警率和虚警率均与阈值有关，阈值越高，漏警率越高，但虚警率越低；反之，阈值越低，漏警率越低，虚警率越高。
[0196]
1:n场景则用于大批量数据检索召回，即以某一音频段为基准，将其声纹特征与其他音频段的声纹特征进行对比，返回最接近的n条结果，即top n，此时，若top n中包含实际目标，则确定召回成功，否则，召回失败，召回率的计算公式如下式所示：
[0197][0198]
本发明实施例提供的方法，通过静音段标注所得的第一声道音频中的静音段和第二声道音频中的静音段，确定双声道音频中的共性静音分隔点，并利用共性静音分隔点，对第一声道音频进行切分，切除切分所得的多个第一切分音频段中的静音段，得到各第二切分音频段，基于各第二切分音频段的声纹特征进行客户音频组合，得到以客户为单位的客户音频，克服了传统方案中仅能进行定时切分，而无法区分音频对应的客户，以致切分方法的成效不高的缺陷，实现了以客户为单位的音频切分，为不同的服务质检和服务评价提供
了助力。
[0199]
下面对本发明提供的音频切分装置进行描述，下文描述的音频切分装置与上文描述的音频切分方法可相互对应参照。
[0200]
图15是本发明提供的音频切分装置的结构示意图，如图15所示，该装置包括：
[0201]
音频确定单元1510，用于确定待切分的双声道音频；
[0202]
静音标注单元1520，用于分别对所述双声道音频中的第一声道音频和第二声道音频进行静音段标注，得到所述第一声道音频中的静音段和所述第二声道音频中的静音段；
[0203]
音频切分单元1530，用于基于所述第一声道音频中的静音段和所述第二声道音频中的静音段，确定所述双声道音频中的共性静音分隔点，并基于所述共性静音分隔点，对所述第一声道音频进行切分，得到多个第一切分音频段；
[0204]
客户音频确定单元1540，用于对各第一切分音频段进行静音段切除，得到各第二切分音频段，基于各第二切分音频段的声纹特征进行客户音频组合，得到以客户为单位的客户音频。
[0205]
本发明提供的音频切分装置，通过静音段标注所得的第一声道音频中的静音段和第二声道音频中的静音段，确定双声道音频中的共性静音分隔点，并利用共性静音分隔点，对第一声道音频进行切分，切除切分所得的多个第一切分音频段中的静音段，得到各第二切分音频段，基于各第二切分音频段的声纹特征进行客户音频组合，得到以客户为单位的客户音频，克服了传统方案中仅能进行定时切分，而无法区分音频对应的客户，以致切分方法的成效不高的缺陷，实现了以客户为单位的音频切分，为不同的服务质检和服务评价提供了助力。
[0206]
基于上述实施例，客户音频确定单元1540用于：
[0207]
按照各第二切分音频段在所述第一声道音频中的顺序进行组合，得到客户组合音频；
[0208]
基于所述客户组合音频中相邻的第二切分音频段的声纹特征之间的相似度，确定所述客户组合音频中的疑似音频端点；
[0209]
基于所述客户组合音频中相邻的疑似音频端点之间的音频时长，以及预设噪音时长，对所述疑似音频端点进行过滤，得到客户音频端点，并基于所述客户音频端点确定以客户为单位的客户音频。
[0210]
基于上述实施例，客户音频确定单元1540用于：
[0211]
若所述客户组合音频中两个相邻的第二切分音频段的声纹特征之间的相似度小于预设相似度，则将两个相邻的第二切分音频段的音频组合点作为所述客户组合音频的候选音频端点；
[0212]
否则，将两个相邻的第二切分音频段的音频组合点作为所述客户组合音频的非候选音频端点；
[0213]
基于所述客户组合音频中相邻的非候选音频端点对应的第二切分音频段的声纹特征之间的相似度，以及预设相似度，对所述候选音频端点进行过滤，得到所述疑似音频端点。
[0214]
基于上述实施例，静音标注单元1520用于：
[0215]
确定所述第一声道音频和所述第二声道音频中各音频帧的帧能量，基于所述各音
频帧的帧能量，以及能量门限值，确定所述各音频帧的静音检测状态，所述能量门限值基于对应声道音频确定；
[0216]
基于所述第一声道音频和所述第二声道音频中音频窗包含的音频帧数，以及所述各音频帧的静音检测状态，确定所述第一声道音频中的静音段和所述第二声道音频中的静音段。
[0217]
基于上述实施例，音频切分单元1530用于：
[0218]
确定所述第一声道音频中静音段的静音端点，以及所述第二声道音频中静音段的静音端点；
[0219]
从所述第一声道音频中静音段的静音端点，以及所述第二声道音频中静音段的静音端点中，选取共性静音端点，所述共性静音端点在所述第一声道音频和所述第二声道音频中对应的音频帧均处于静音段内；
[0220]
基于所述共性静音端点在对应声道音频中静音段的静音时长，以及预设静音时长，对所述共性静音端点进行过滤，得到共性静音分隔点。
[0221]
基于上述实施例，客户音频确定单元1540用于：
[0222]
对各第一切分音频段进行静音段切除，得到各静音切除音频段；
[0223]
基于所述各静音切除音频段的音频时长，以及预设音频时长进行音频过滤，得到各第二切分音频段。
[0224]
基于上述实施例，所述装置还包括客户音频端点调整单元，用于：
[0225]
基于所述第二声道音频，确定标准音频端点；
[0226]
基于所述标准音频端点和所述客户音频，确定音频切分正确率；
[0227]
基于所述音频切分正确率，调整客户音频端点。
[0228]
图16示例了一种电子设备的实体结构示意图，如图16所示，该电子设备可以包括：处理器(processor)1610、通信接口(communications interface)1620、存储器(memory)1630和通信总线1640，其中，处理器1610，通信接口1620，存储器1630通过通信总线1640完成相互间的通信。处理器1610可以调用存储器1630中的逻辑指令，以执行音频切分方法，该方法包括：确定待切分的双声道音频；分别对所述双声道音频中的第一声道音频和第二声道音频进行静音段标注，得到所述第一声道音频中的静音段和所述第二声道音频中的静音段；基于所述第一声道音频中的静音段和所述第二声道音频中的静音段，确定所述双声道音频中的共性静音分隔点，并基于所述共性静音分隔点，对所述第一声道音频进行切分，得到多个第一切分音频段；对各第一切分音频段进行静音段切除，得到各第二切分音频段，基于各第二切分音频段的声纹特征进行客户音频组合，得到以客户为单位的客户音频。
[0229]
此外，上述的存储器1630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0230]
另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的音频切分方法，该方法包括：确定待切分的双声道音频；分别对所述双声道音频中的第一声道音频和第二声道音频进行静音段标注，得到所述第一声道音频中的静音段和所述第二声道音频中的静音段；基于所述第一声道音频中的静音段和所述第二声道音频中的静音段，确定所述双声道音频中的共性静音分隔点，并基于所述共性静音分隔点，对所述第一声道音频进行切分，得到多个第一切分音频段；对各第一切分音频段进行静音段切除，得到各第二切分音频段，基于各第二切分音频段的声纹特征进行客户音频组合，得到以客户为单位的客户音频。
[0231]
又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法所提供的音频切分方法，该方法包括：确定待切分的双声道音频；分别对所述双声道音频中的第一声道音频和第二声道音频进行静音段标注，得到所述第一声道音频中的静音段和所述第二声道音频中的静音段；基于所述第一声道音频中的静音段和所述第二声道音频中的静音段，确定所述双声道音频中的共性静音分隔点，并基于所述共性静音分隔点，对所述第一声道音频进行切分，得到多个第一切分音频段；对各第一切分音频段进行静音段切除，得到各第二切分音频段，基于各第二切分音频段的声纹特征进行客户音频组合，得到以客户为单位的客户音频。
[0232]
以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。
[0233]
通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0234]
最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

技术特征：

1.一种音频切分方法，其特征在于，包括：确定待切分的双声道音频；分别对所述双声道音频中的第一声道音频和第二声道音频进行静音段标注，得到所述第一声道音频中的静音段和所述第二声道音频中的静音段；基于所述第一声道音频中的静音段和所述第二声道音频中的静音段，确定所述双声道音频中的共性静音分隔点，并基于所述共性静音分隔点，对所述第一声道音频进行切分，得到多个第一切分音频段；对各第一切分音频段进行静音段切除，得到各第二切分音频段，基于各第二切分音频段的声纹特征进行客户音频组合，得到以客户为单位的客户音频。2.根据权利要求1所述的音频切分方法，其特征在于，所述基于各第二切分音频段的声纹特征进行客户音频组合，得到以客户为单位的客户音频，包括：按照各第二切分音频段在所述第一声道音频中的顺序进行组合，得到客户组合音频；基于所述客户组合音频中相邻的第二切分音频段的声纹特征之间的相似度，确定所述客户组合音频中的疑似音频端点；基于所述客户组合音频中相邻的疑似音频端点之间的音频时长，以及预设噪音时长，对所述疑似音频端点进行过滤，得到客户音频端点，并基于所述客户音频端点确定以客户为单位的客户音频。3.根据权利要求2所述的音频切分方法，其特征在于，所述基于所述客户组合音频中相邻的第二切分音频段的声纹特征之间的相似度，确定所述客户组合音频中的疑似音频端点，包括：若所述客户组合音频中两个相邻的第二切分音频段的声纹特征之间的相似度小于预设相似度，则将两个相邻的第二切分音频段的音频组合点作为所述客户组合音频的候选音频端点；否则，将两个相邻的第二切分音频段的音频组合点作为所述客户组合音频的非候选音频端点；基于所述客户组合音频中相邻的非候选音频端点对应的第二切分音频段的声纹特征之间的相似度，以及预设相似度，对所述候选音频端点进行过滤，得到所述疑似音频端点。4.根据权利要求1至3中任一项所述的音频切分方法，其特征在于，所述分别对所述双声道音频中的第一声道音频和第二声道音频进行静音段标注，得到所述第一声道音频中的静音段和所述第二声道音频中的静音段，包括：确定所述第一声道音频和所述第二声道音频中各音频帧的帧能量，基于所述各音频帧的帧能量，以及能量门限值，确定所述各音频帧的静音检测状态，所述能量门限值基于对应声道音频确定；基于所述第一声道音频和所述第二声道音频中音频窗包含的音频帧数，以及所述各音频帧的静音检测状态，确定所述第一声道音频中的静音段和所述第二声道音频中的静音段。5.根据权利要求1至3中任一项所述的音频切分方法，其特征在于，所述基于所述第一声道音频中的静音段和所述第二声道音频中的静音段，确定所述双声道音频中的共性静音分隔点，包括：
确定所述第一声道音频中静音段的静音端点，以及所述第二声道音频中静音段的静音端点；从所述第一声道音频中静音段的静音端点，以及所述第二声道音频中静音段的静音端点中，选取共性静音端点，所述共性静音端点在所述第一声道音频和所述第二声道音频中对应的音频帧均处于静音段内；基于所述共性静音端点在对应声道音频中静音段的静音时长，以及预设静音时长，对所述共性静音端点进行过滤，得到共性静音分隔点。6.根据权利要求1至3中任一项所述的音频切分方法，其特征在于，所述对各第一切分音频段进行静音段切除，得到各第二切分音频段，包括：对各第一切分音频段进行静音段切除，得到各静音切除音频段；基于所述各静音切除音频段的音频时长，以及预设音频时长进行音频过滤，得到各第二切分音频段。7.根据权利要求1至3中任一项所述的音频切分方法，其特征在于，所述基于各第二切分音频段的声纹特征进行客户音频组合，得到以客户为单位的客户音频，之后还包括：基于所述第二声道音频，确定标准音频端点；基于所述标准音频端点和所述客户音频，确定音频切分正确率；基于所述音频切分正确率，调整客户音频端点。8.一种音频切分装置，其特征在于，包括：音频确定单元，用于确定待切分的双声道音频；静音标注单元，用于分别对所述双声道音频中的第一声道音频和第二声道音频进行静音段标注，得到所述第一声道音频中的静音段和所述第二声道音频中的静音段；音频切分单元，用于基于所述第一声道音频中的静音段和所述第二声道音频中的静音段，确定所述双声道音频中的共性静音分隔点，并基于所述共性静音分隔点，对所述第一声道音频进行切分，得到多个第一切分音频段；客户音频确定单元，用于对各第一切分音频段进行静音段切除，得到各第二切分音频段，基于各第二切分音频段的声纹特征进行客户音频组合，得到以客户为单位的客户音频。9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述的音频切分方法。10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的音频切分方法。

技术总结

本发明提供一种音频切分方法、装置、电子设备和存储介质，其中方法包括：确定待切分的双声道音频；分别对双声道音频中的第一声道音频和第二声道音频进行静音段标注，得到第一声道音频中的静音段和第二声道音频中的静音段；基于第一声道音频中的静音段和第二声道音频中的静音段，确定双声道音频中的共性静音分隔点，并基于共性静音分隔点，对第一声道音频进行切分，得到多个第一切分音频段；对各第一切分音频段进行静音段切除，得到各第二切分音频段，基于各第二切分音频段的声纹特征进行客户音频组合，得到以客户为单位的客户音频，克服了定时切分无法区分客户的缺陷，实现了以客户为单位的音频切分，为不同的服务质检和服务评价提供了助力。价提供了助力。价提供了助力。