教师声音和非教师声音的区分方法、装置、设备以及介质与流程

1.本技术涉及声音分类的技术领域，尤其是涉及一种教师声音和非教师声音的区分方法、装置、设备以及介质。

背景技术：

2.在课堂中，经常能听到教师的声音和非教师的声音，在课堂分析过程中，往往需要区分出课堂中这些不同的声音，以便分析课堂中不同的教学行为，例如教师讲授等。
3.目前，通常采用人工、简单的k-means算法或gmm-kmeans算法区分出课堂中的声音是教师声音还是非教师声音，其中，人工区分工作量大，成本高，k-means算法或gmm-kmeans算法的区分精度不高，准确性较差。

技术实现要素：

4.为了精准地区分出课堂中的声音是教师声音还是非教师声音，本技术提供一种教师声音和非教师声音的区分方法、装置、设备以及介质。
5.第一方面，本技术提供一种教师声音和非教师声音的区分方法，采用如下的技术方案：
6.一种教师声音和非教师声音的区分方法，包括：
7.采集课堂声音，根据所述课堂声音得到多段声音片段的声纹向量；
8.采用birtch聚类算法和calinski-harabaz指数结合的方法，基于所述声纹向量进行声纹聚类，区分与所述声纹向量对应的声音片段为非教师声音还是教师声音。
9.通过采用上述技术方案，利用birtch聚类算法对声纹向量进行声纹聚类，利用calinski-harabaz指数评价聚类效果好坏的特性来提高聚类的精准度，使得聚类结果更加准确，进而能够精准地区分出课堂中的声音是教师声音还是非教师声音。
10.优选的，所述采集课堂声音，根据所述课堂声音得到多段声音片段的声纹向量，包括：
11.将所述课堂声音输入至训练好的声纹模型中，得到多段声音片段的声纹向量。
12.优选的，将所述课堂声音输入至训练好的声纹模型中，得到多段声音片段的声纹向量，包括：
13.将所述课堂声音分割为多段声音片段；
14.对所述多段声音片段分别进行声纹提取，得到所述声纹向量。
15.优选的，所述将所述课堂声音分割为多段声音片段，包括：
16.将所述课堂声音划分为多个片段，相邻片段之间具有共有部分和非共有部分；
17.分别计算共有部分与相邻片段的非共有部分的声纹特征匹配度；
18.基于所述声纹特征匹配度，获取切换点；
19.按照所述切换点将所述课堂声音分割为多段声音片段。
20.通过采用上述技术方案，基于声纹特征匹配度检测出切换点，将课堂声音分割为
多段声音片段，每段声音片段均是同一类声音，例如，其中一段声音片段为教师声音，一段声音片段为噪音；由此，便于后期对每段声音片段进行分类。
21.优选的，所述声纹模型的训练方法，包括：
22.获取开源的声音数据集，将预先采集的课堂声音制作为课堂声音数据集，将开源的声音数据集和课堂声音数据集共同作为样本集；
23.将所述样本集中的样本输入至所述声纹模型中，利用深度学习算法对所述声纹模型进行训练。
24.通过采用上述技术方案，声纹模型目前是仅使用开源的声音数据集训练得到的，开源的声音数据集大多采集自近场录音、视频网站上的视频声音，而课堂环境中的声音大多采集自天花板上的吊麦，属于远场声音，因此存在采集环境和使用环境跨域的问题，传统的声纹模型应用到教室环境中时表现略差，而且声音数据集的采集成本高，采集标准不好统一；本技术中的样本集在开源的声音数据集基础上增加了由大量课堂声音制作成的课堂声音数据集，使用的声纹模型基于这样的样本集训练，使得声纹模型适用于在课堂环境中使用，提高声纹模型输出声纹向量的精准度。
25.优选的，所述采用birtch聚类算法和calinski-harabaz指数结合的方法，基于所述声纹向量进行声纹聚类，区分与所述声纹向量对应的声音片段为非教师声音还是教师声音，包括：
26.采用birtch聚类算法，对所有的声纹向量进行聚类，将所有的声纹向量划分为第一类和第二类；
27.采用birtch聚类算法，分别对第一类中所有的声纹向量和第二类中所有的声纹向量进行二次聚类；
28.分别获取第一指数和第二指数；其中，所述第一指数为对第一类中所有的声纹向量进行二次聚类后的calinski-harabaz指数，所述第二指数为对第二类中所有的声纹向量进行二次聚类后的calinski-harabaz指数；
29.判断所述第一指数是否大于所述第二指数；
30.若是，则判定第一类中的声纹向量对应的声音片段为非教师声音；
31.若否，则判定第二类中的声纹向量对应的声音片段为非教师声音。
32.通过采用上述技术方案，在课堂环境下，教师声音和非教师声音具有一定差别，因此利用birtch聚类算法对所有的声纹向量进行第一次聚类，能够通过教师声音和非教师声音之间的差别将所有的声纹向量聚为两类，但是第一次聚类完毕之后，还不清楚哪一类中的声纹向量对应的声音片段为非教师声音，哪一类中的声纹向量对应的声音片段为教师声音；分别对第一类中所有的声纹向量和第二类中所有的声纹向量进行二次聚类，获取第一指数和第二指数，calinski-harabaz指数能够评价聚类效果的好坏，通过这一特性，区分教师声音和非教师声音：课堂中教师为少数，因此教师声音单一，若哪一类中的声纹向量对应的声音片段为教师声音，则聚类效果差，因此calinski-harabaz指数小，将calinski-harabaz指数小的那一类中的声纹向量对应的声音片段判定为教师声音；课堂中学生为少数，因此非教师声音多式多样，若哪一类中的声纹向量对应的声音片段为非教师声音，则聚类效果好，因此calinski-harabaz指数大，将calinski-harabaz指数大的那一类中的声纹向量对应的声音片段判定为非教师声音。
33.优选的，所述采用birtch聚类算法和calinski-harabaz指数结合的方法，基于所述声纹向量进行声纹聚类，区分与所述声纹向量对应的声音片段为非教师声音还是教师声音，包括：
34.设置多个声纹特征相似度，基于calinski-harabaz指数对多个声纹特征相似度进行筛选，得到最优的声纹特征相似度；
35.将最优聚类结果中的两类分别作为第一类和第二类；其中，所述最优聚类结果为使用最优的声纹特征相似度对所有的声纹向量进行聚类的结果；
36.采用birtch聚类算法，分别对第一类中所有的声纹向量和第二类中所有的声纹向量进行二次聚类；
37.分别获取第一指数和第二指数；其中，所述第一指数为对第一类中所有的声纹向量进行二次聚类后的calinski-harabaz指数，所述第二指数为对第二类中所有的声纹向量进行二次聚类后的calinski-harabaz指数；
38.判断所述第一指数是否大于所述第二指数；
39.若是，则判定第一类中的声纹向量对应的声音片段为非教师声音；
40.若否，则判定第二类中的声纹向量对应的声音片段为非教师声音。
41.通过采用上述技术方案，利用calinski-harabaz指数，对多个声纹特征相似度进行筛选，进而确定最优聚类结果即准确度最高的聚类结果，选择最优聚类结果中的两类作为第一类和第二类，然后再区分哪一类中的声纹向量对应的声音片段为非教师声音，哪一类中的声纹向量对应的声音片段为教师声音，使得区分结果更加精准。
42.第二方面，本技术提供一种教师声音和非教师声音的区分装置，采用如下的技术方案：
43.一种教师声音和非教师声音的区分装置，包括，
44.采集模块，用于采集课堂声音，根据所述课堂声音得到多段声音片段的声纹向量；以及，
45.区分模块，用于采用birtch聚类算法和calinski-harabaz指数结合的方法，基于所述声纹向量进行声纹聚类，区分与所述声纹向量对应的声音片段为非教师声音还是教师声音。
46.第三方面，本技术提供一种计算机设备，采用如下的技术方案：
47.一种计算机设备，包括存储器和处理器，所述存储器上存储有能够被处理器加载并执行第一方面任一项所述的教师声音和非教师声音的区分方法的计算机程序。
48.第四方面，本技术提供一种计算机可读存储介质，采用如下的技术方案：
49.一种计算机可读存储介质，存储有能够被处理器加载并执行第一方面任一项所述的教师声音和非教师声音的区分方法的计算机程序。
附图说明
50.图1是本技术实施例提供的教师声音和非教师声音的区分方法的流程示意图。
51.图2是本技术实施例提供的课堂声音的示意图。
52.图3是本技术实施例提供的另一种教师声音和非教师声音的区分方法的流程示意图。
53.图4是本技术实施例提供的教师声音和非教师声音的区分装置的结构框图。
54.图5是本技术实施例提供的计算机设备的结构示意图。
具体实施方式
55.为使本技术实施例的目的、技术方案和优点更加清楚，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述。
56.本实施例提供一种教师声音和非教师声音的区分方法，如图1所示，该方法的主要流程描述如下(步骤s101～s102)：
57.步骤s101：采集课堂声音，根据课堂声音得到多段声音片段的声纹向量。
58.本实施例中，将课堂声音输入至训练好的声纹模型中，得到多段声音片段的声纹向量。
59.其中，声纹模型的训练方法具体如下：
60.在网络上获取开源的声音数据，网络上的声音数据通常采集自近场录音和视频网站上的视频声音，将获取的声音数据整理合并为声音数据集。通过教室中安装的音频采集设备实时采集课堂中的声音数据，将采集的课堂中的声音数据整理合并为课堂声音数据集。将开源的声音数据集和课堂声音数据集共同作为样本集。
61.将样本集中的样本输入至声纹模型中，利用深度学习算法对声纹模型进行训练。其中，音频采集设备可以为教室中的吊麦。
62.本实施例中，在开始上课时，通过音频采集设备采集课堂声音，将课堂声音输入至训练好的声纹模型中，利用声纹模型将课堂声音分割为多段声音片段，对多段声音片段分别进行声纹提取，得到每段声音片段的声纹向量。
63.其中，将课堂声音分割为多段声音片段的一种可实施方案具体如下：将课堂声音划分为多个片段，相邻片段之间具有共有部分和非共有部分；分别计算共有部分与相邻片段的非共有部分的声纹特征匹配度；基于声纹特征匹配度，获取切换点；按照切换点将课堂声音分割为多段声音片段。
64.其中，获取切换点的具体方法为：将共有部分与两个相邻片段的非共有部分的声纹特征匹配度进行比较，将与共有部分的声纹特征匹配度较高的片段判定为是同一人说话的声音片段，因此切换点为另一片段的非共有部分与共有部分的重合点。
65.对上述内容进行举例说明：参照图2，坐标轴为时间轴，在课堂开始时，开始采集课堂声音，在坐标轴上将此时记作0秒。将每2秒的课堂声音作为一个片段，相邻片段中有1秒的声音是重复的，将重复的声音作为相邻片段之间的共有部分。
66.图2中展示有4个片段，分别为片段a[0s，2s]、片段b[1s，3s]、片段c[2s，4s]和片段d[3s，5s]。其中，片段b到片段c为1s到4s，片段b和片段c的共有部分为[2s，3s]，片段b的非共有部分为[1s，2s]，片段c的非共有部分为[3s，4s]。
[0067]
分别对[1s，2s]、[2s，3s]和[3s，4s]的部分进行声纹提取，得到3个声纹特征向量。计算[2s，3s]部分的声纹特征向量和[1s，2s]部分的声纹特征向量的声纹特征匹配度，将该声纹特征匹配度作为第一匹配度；计算[2s，3s]部分的声纹特征向量和[3s，4s]部分的声纹特征向量的声纹特征匹配度，将该声纹特征匹配度作为第二匹配度。
[0068]
判断第一匹配度是否大于第二匹配度；若是，则将第3秒作为一个切换点；若否，则
将第2秒作为一个切换点。
[0069]
值得注意的是，若第一匹配度等于第二匹配度，则判定片段b和片段c为同一人说话的片段，从判定片段b到片段c没有切换点。但是第一匹配度等于第二匹配度的这种情况极少，所以大概率下都会认为有切换点，将课堂声音切成很多声音片段。
[0070]
判断课堂是否结束；若是，则转入下述步骤s102。
[0071]
其中，判断课堂结束的具体方法为：判断是否有课堂声音；若否，则进行计时；判断计时时间是否大于预设时间；若是，则判定课堂结束。
[0072]
本技术还提供将课堂声音分割为多段声音片段的另外一种可实施方案，具体如下：
[0073]
将课堂声音划分为多个片段，相邻片段之间具有共有部分和非共有部分；确定发生声音变换的相邻片段；对于发生声音变换的相邻片段，分别计算共有部分与相邻片段的非共有部分的声纹特征匹配度；基于声纹特征匹配度，获取切换点；按照切换点将课堂声音分割为多段声音片段。
[0074]
其中，确定发生声音变换的相邻片段的具体方法为：对于4个连续的片段，依次有3组相邻片段，分别计算每组相邻片段之间的声纹特征匹配度，将第一组相邻片段之间的声纹特征匹配度定义为第一声纹特征匹配度，将第二组相邻片段之间的声纹特征匹配度定义为第二声纹特征匹配度，第三组相邻片段之间的声纹特征匹配度定义为第三声纹特征匹配度。判断是否第二声纹特征匹配度减去第一声纹特征匹配度的差值小于第一预设值，并且第三声纹特征匹配度减去第二声纹特征匹配度的差值大于第二预设值；若是，则判定第二组相邻片段为发生声音变换的相邻片段。后续在发生声音变换的相邻片段中获取切换点的方法和上述将课堂声音分割为多段声音片段的第一种可实施方案的原理一致，在此不在赘述。
[0075]
例如，参照图2，片段a和片段b为第一组相邻片段，片段b和片段c为第二组相邻片段，片段c和片段d为第三组相邻片段。基于片段a和片段b的声纹特征向量计算得到第一声纹特征匹配度，基于片段b和片段c的声纹特征向量计算得到第二声纹特征匹配度，基于片段c和片段d的声纹特征向量计算得到第三声纹特征匹配度，经过对第一声纹特征匹配度、第二声纹特征匹配度和第三声纹特征匹配度的比较，判定片段b和片段c为发生声音变换的相邻片段。
[0076]
值得注意的是，可以在课堂进行中，实时获取课堂声音，并将获取的课堂声音输入至声纹模型中进行处理，也可以在课堂结束后，将整堂课的课堂声音输入至声纹模型中进行处理。
[0077]
步骤s102：采用birtch聚类算法和calinski-harabaz指数结合的方法，基于声纹向量进行声纹聚类，区分与声纹向量对应的声音片段为非教师声音还是教师声音。
[0078]
其中，calinski-harabaz指数的作用为衡量声纹聚类效果的好坏，calinski-harabaz指数越大，代表每类自身越紧密，类与类之间越分散，聚类结果更优。
[0079]
具体的，采用birtch聚类算法，对所有的声纹向量进行聚类，将所有的声纹向量划分为第一类和第二类；采用birtch聚类算法，分别对第一类中所有的声纹向量和第二类中所有的声纹向量进行二次聚类；分别获取第一指数和第二指数；其中，第一指数为对第一类中所有的声纹向量进行二次聚类后的calinski-harabaz指数，第二指数为对第二类中所有
的声纹向量进行二次聚类后的calinski-harabaz指数。
[0080]
判断第一指数是否大于第二指数；若是，则判定第一类中的声纹向量对应的声音片段为非教师声音，第二类中的声纹向量对应的声音片段为教师声音；若否，则判定第一类中的声纹向量对应的声音片段为教师声音，第二类中的声纹向量对应的声音片段为非教师声音。
[0081]
值得注意的是，由于教师声音和非教师声音之间具有较明显的差别，因此，基本没有第一指数等于第二指数的情况。
[0082]
birtch聚类算法的原理为基于参数创建树状结构，其中，判断两个声纹向量是否为同一类用到的样本间隔阈值参数为声纹特征相似度。
[0083]
预设声纹特征相似度，通过声纹特征相似度将所有的声纹向量聚类为两类，分别为第一类和第二类，此时还不清楚哪一类中的声纹向量对应的声音片段为非教师声音。因此，分别对第一类中所有的声纹向量和第二类中所有的声纹向量进行二次聚类，获取第一指数和第二指数，指数较大那一类中的声纹向量对应的声音片段为非教师声音，指数较小的那一类中的声纹向量对应的声音片段为教师声音。
[0084]
其中，第一指数和第二指数的计算公式通用，其具体如下：
[0085][0086]
其中，s表示calinski-harabaz指数；k代表聚类类别数(本技术需要将所有的声纹向量聚为2类，因此聚类类别数为2)；n代表全部样本数目(样本为声纹向量，全部样本数目指的是声纹向量的数目)；ssb代表类内紧密度；ssw代表类间分离度。
[0087]
其中，类内紧密度的表达式如下：
[0088][0089]
类间分离度的表达式如下：
[0090][0091]
其中，ck表示第k类的样本数，x
kc
表示第k类第c个样本的特征值，x
kmean
表示第k类的平均特征值，x
mean
表示所有样本的平均特征值。
[0092]
本技术还提供另一种可实施方案，具体如下：
[0093]
预先设置多个声纹特征相似度，分别采用多个声纹特征相似度对所有的声纹向量进行多次聚类，得到多个聚类结果。计算每次聚类的calinski-harabaz指数。选取最大的calinski-harabaz指数对应的聚类结果作为最优聚类结果，其对应的声纹特征相似度为最优的声纹特征相似度，将最优聚类结果中的两类分别作为第一类和第二类。
[0094]
例如，参照图3，通过人工经验预先设置0.35、0.5、0.65和0.8共四个声纹特征相似度，采用四个声纹特征相似度对所有的声纹向量进行四次聚类。其中，采用0.35的声纹特征相似度将所有的声纹向量聚类为2类，分别为a类和b类，此次聚类的calinski-harabaz指数为第一聚类指数；采用0.5的声纹特征相似度将所有的声纹向量聚类为2类，分别为c类和d类，此次聚类的calinski-harabaz指数为第二聚类指数；采用0.65的声纹特征相似度将所有的声纹向量聚类为2类，分别为e类和f类，此次聚类的calinski-harabaz指数为第三聚类指数；采用0.8的声纹特征相似度将所有的声纹向量聚类为2类，分别为g类和h类，此次聚类
的calinski-harabaz指数为第四聚类指数。经比较，第二聚类指数最大，因此，0.5的声纹特征相似度是0.35、0.5、0.65和0.8这四个声纹特征相似度中最优的，将c类作为第一类，d类作为第二类。
[0095]
值得注意的是，图3展示的仅为一种判定非教师声音和教师声音方法中的一种情况，其中的数值和计算结果仅做举例说明用，并不限制本技术的保护范围。
[0096]
通过上述内容对声纹特征相似度进行第一轮选取，进一步地，还可以对声纹特征相似度进行第二轮选取，甚至更多轮的选取，以选取更优的声纹特征相似度。例如，在上述第一轮选取中选取了0.5的声纹特征相似度，则设置0.44、0.47、0.5、0.53和0.56的声纹特征相似度进行第二轮选取，第二轮选取的方法原理和第一轮选取的方法原理相同，在此不再赘述；假设第二轮选取的结果为0.53的声纹特征相似度，相应的，将0.53的声纹特征相似度作为最优的声纹特征相似度，将通过0.53的声纹特征相似度进行声纹聚类得到的聚类结果作为最优聚类结果，最优聚类结果中的两类分别为第一类和第二类。
[0097]
分别对第一类中所有的声纹向量和第二类中所有的声纹向量进行二次聚类，区分出哪一类是为非教师声音，哪一类是为教师声音，其区分方法和上述中通过第一指数和第二指数区分非教师声音和教师声音的方法原理相同，在此不再赘述。
[0098]
进一步地，对为非教师声音的声音片段进行特征提取,得到第一频谱图，将第一频谱图输入至训练好的声音分类模型中，根据声纹向量，对与声纹向量对应的声音片段进行分类；其中，第一频谱图为二维的梅尔频谱图。
[0099]
其中，声音分类模型的训练方法具体如下：
[0100]
将训练样本集中每一个训练样本转化为第二频谱图，第二频谱图为二维的梅尔频谱图；将第二频谱图输入至声音分类模型中，利用vgg11网络结构对声音分类模型进行训练。
[0101]
其中，获取训练样本集的方法为：通过教室中安装的音频采集设备采集课堂中的声音，将课堂中的声音提取为多段声音，每段声音均作为一个训练样本。对每个训练样本进行人工标注，每个训练样本相应的标注为单个学生的声音、多个学生齐读的声音、讨论的声音和噪音等。本实施例中最终标注的样本数为69000，其中，单个学生的声音为35000个、多个学生齐读的声音为9000、讨论的声音为12000、噪音为13000。
[0102]
本实施例中，对为非教师声音的声音片段进行特征提取,得到第一频谱图，将第一频谱图输入至训练好的声音分类模型中，声音分类模型根据第一频谱图进行声音分类，输出分类结果；其中分类结果包括单个学生的声音、多个学生齐读的声音、讨论的声音和噪音。
[0103]
综上所述，本技术利用整堂课的声音数据，结合使用声纹模型和声音分类模型，自动零交互的区分出课堂中不同的声音，进而能更高效、更准确的进行课堂教学分析。
[0104]
为了更好地实施以上方法，本技术实施例还提供了一种教师声音和非教师声音的区分装置，该装置具体可以集成在计算机设备中，例如终端或服务器等设备中，该终端可以包括但不限于手机、平板电脑或台式电脑等设备。
[0105]
图4为本技术实施例提供的一种教师声音和非教师声音的区分装置的结构框图，如图4所示，该装置主要包括：
[0106]
采集模块201，用于采集课堂声音，根据课堂声音得到多段声音片段的声纹向量；
以及，
[0107]
区分模块202，用于采用birtch聚类算法和calinski-harabaz指数结合的方法，基于声纹向量进行声纹聚类，区分与声纹向量对应的声音片段为非教师声音还是教师声音。
[0108]
上述实施例提供的方法中的各种变化方式和具体实例同样适用于本实施例的教师声音和非教师声音的区分装置，通过前述对教师声音和非教师声音的区分方法的详细描述，本领域技术人员可以清楚的知道本实施例中的教师声音和非教师声音的区分装置的实施方法，为了说明书的简洁，在此不再详述。
[0109]
为了更好地执行上述方法的程序，本技术实施例还提供一种计算机设备，如图5所示，计算机设备300包括存储器301和处理器302。
[0110]
计算机设备300可以以各种形式来实施，包括手机、平板电脑、掌上电脑、笔记本电脑和台式计算机等设备。
[0111]
其中，存储器301可用于存储指令、程序、代码、代码集或指令集。存储器301可以包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如根据课堂声音得到多段声音片段的声纹向量等)以及用于实现上述实施例提供的教师声音和非教师声音的区分方法的指令等；存储数据区可存储上述实施例提供的教师声音和非教师声音的区分方法中涉及到的数据等。
[0112]
处理器302可以包括一个或者多个处理核心。处理器302通过运行或执行存储在存储器301内的指令、程序、代码集或指令集，调用存储在存储器301内的数据，执行本技术的各种功能和处理数据。处理器302可以为特定用途集成电路(application specific integrated circuit，asic)、数字信号处理器(digital signal processor，dsp)、数字信号处理装置(digital signal processing device，dspd)、可编程逻辑装置(programmable logic device，pld)、现场可编程门阵列(field programmable gate array，fpga)、中央处理器(central processing unit，cpu)、控制器、微控制器和微处理器中的至少一种。可以理解地，对于不同的设备，用于实现上述处理器302功能的电子器件还可以为其它，本技术实施例不作具体限定。
[0113]
本技术实施例提供一种计算机可读存储介质，例如包括：u盘、移动硬盘、只读存储器(read only memory，rom)、随机存取存储器(random access memory，ram)、磁碟或者光盘等各种可以存储程序代码的介质。该计算机可读存储介质存储有能够被处理器加载并执行上述实施例的教师声音和非教师声音的区分方法的计算机程序。
[0114]
本技术具体实施例仅仅是对本技术的解释，其并不是对本技术的限制，本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改，但只要在本技术的权利要求范围内都受到专利法的保护。

技术特征：

1.一种教师声音和非教师声音的区分方法，其特征在于，包括：采集课堂声音，根据所述课堂声音得到多段声音片段的声纹向量；采用birtch聚类算法和calinski-harabaz指数结合的方法，基于所述声纹向量进行声纹聚类，区分与所述声纹向量对应的声音片段为非教师声音还是教师声音。2.根据权利要求1所述的方法，其特征在于，所述采集课堂声音，根据所述课堂声音得到多段声音片段的声纹向量，包括：将所述课堂声音输入至训练好的声纹模型中，得到多段声音片段的声纹向量。3.根据权利要求2所述的方法，其特征在于，将所述课堂声音输入至训练好的声纹模型中，得到多段声音片段的声纹向量，包括：将所述课堂声音分割为多段声音片段；对所述多段声音片段分别进行声纹提取，得到所述声纹向量。4.根据权利要求3所述的方法，其特征在于，所述将所述课堂声音分割为多段声音片段，包括：将所述课堂声音划分为多个片段，相邻片段之间具有共有部分和非共有部分；分别计算共有部分与相邻片段的非共有部分的声纹特征匹配度；基于所述声纹特征匹配度，获取切换点；按照所述切换点将所述课堂声音分割为多段声音片段。5.根据权利要求2所述的方法，其特征在于，所述声纹模型的训练方法，包括：获取开源的声音数据集，将预先采集的课堂声音制作为课堂声音数据集，将开源的声音数据集和课堂声音数据集共同作为样本集；将所述样本集中的样本输入至所述声纹模型中，利用深度学习算法对所述声纹模型进行训练。6.根据权利要求1所述的方法，其特征在于，所述采用birtch聚类算法和calinski-harabaz指数结合的方法，基于所述声纹向量进行声纹聚类，区分与所述声纹向量对应的声音片段为非教师声音还是教师声音，包括：采用birtch聚类算法，对所有的声纹向量进行聚类，将所有的声纹向量划分为第一类和第二类；采用birtch聚类算法，分别对第一类中所有的声纹向量和第二类中所有的声纹向量进行二次聚类；分别获取第一指数和第二指数；其中，所述第一指数为对第一类中所有的声纹向量进行二次聚类后的calinski-harabaz指数，所述第二指数为对第二类中所有的声纹向量进行二次聚类后的calinski-harabaz指数；判断所述第一指数是否大于所述第二指数；若是，则判定第一类中的声纹向量对应的声音片段为非教师声音；若否，则判定第二类中的声纹向量对应的声音片段为非教师声音。7.根据权利要求1所述的方法，其特征在于，所述采用birtch聚类算法和calinski-harabaz指数结合的方法，基于所述声纹向量进行声纹聚类，区分与所述声纹向量对应的声音片段为非教师声音还是教师声音，包括：设置多个声纹特征相似度，基于calinski-harabaz指数对多个声纹特征相似度进行筛
选，得到最优的声纹特征相似度；将最优聚类结果中的两类分别作为第一类和第二类；其中，所述最优聚类结果为使用最优的声纹特征相似度对所有的声纹向量进行聚类的结果；采用birtch聚类算法，分别对第一类中所有的声纹向量和第二类中所有的声纹向量进行二次聚类；分别获取第一指数和第二指数；其中，所述第一指数为对第一类中所有的声纹向量进行二次聚类后的calinski-harabaz指数，所述第二指数为对第二类中所有的声纹向量进行二次聚类后的calinski-harabaz指数；判断所述第一指数是否大于所述第二指数；若是，则判定第一类中的声纹向量对应的声音片段为非教师声音；若否，则判定第二类中的声纹向量对应的声音片段为非教师声音。8.一种教师声音和非教师声音的区分装置，其特征在于，包括，采集模块，用于采集课堂声音，根据所述课堂声音得到多段声音片段的声纹向量；以及，区分模块，用于采用birtch聚类算法和calinski-harabaz指数结合的方法，基于所述声纹向量进行声纹聚类，区分与所述声纹向量对应的声音片段为非教师声音还是教师声音。9.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器上存储有能够被所述处理器加载并执行如权利要求1至7中任一种方法的计算机程序。10.一种计算机可读存储介质，其特征在于，存储有能够被处理器加载并执行如权利要求1至7中任一种方法的计算机程序。

技术总结

本申请涉及一种教师声音和非教师声音的区分方法、装置、设备以及介质，涉及声音分类的技术领域，其方法包括采集课堂声音，根据所述课堂声音得到多段声音片段的声纹向量；采用BIRTCH聚类算法和Calinski-Harabaz指数结合的方法，基于所述声纹向量进行声纹聚类，区分与所述声纹向量对应的声音片段为非教师声音还是教师声音。本申请具有精准地区分出课堂中的声音是教师声音还是非教师声音的效果。的声音是教师声音还是非教师声音的效果。的声音是教师声音还是非教师声音的效果。