基于孪生声纹对的声纹识别方法、装置、设备及存储介质与流程

1.本发明涉及语音识别技术领域，尤其涉及一种基于孪生声纹对的声纹识别方法、装置、设备及存储介质。

背景技术：

2.声纹识别(也称作说话人识别)能够让机器从语音中自动识别出说话者的身份。每个人都有独一无二的声纹，这一方面是由于每个人的声学器官在形状、大小上都各不相同，从而声音在音高、音等方面会存在差异；另一方面每个人都有自己独特的说话习惯，说话过程中用词、韵律、发音模式等也会存在不同。声纹的这种唯一性表明通过语音来识别说话人的身份是可行的。
3.声纹技术在司法和侦察领域中得到了广泛的应用，并且在很多、恐怖威胁等重大案件中，录音是非常关键并且唯一的证据。通过声纹识别技术对采集到的语音和犯罪嫌疑人语音进行比对能够获得一个相对客观的身份判定结果，以作为司法判决的辅助依据之一。
4.随着我国电信网技术的发展，许多犯罪团伙借助于手机、固定电话、网络等通信工具和现代的技术等实施的非接触式的近些年来迅速地发展蔓延，给人民众造成了很大的损失。目前电信呈现团伙作案的趋势，很多犯罪分子分工明确，各负其责，按照编排好的“剧本”进行协同作案，这个运营商和监管部门带来了很大的困难。
5.现有技术仅针对单一的说话人进行设计和发展，如果应用于犯罪团伙的情况，只能逐个进行识别，这样处理费时费力，效率低下，准确率不高。
6.上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

技术实现要素：

7.本发明的主要目的在于提供了一种基于孪生声纹对的声纹识别方法、装置、设备及存储介质，旨在解决现有的语音识别技术基本只针对个体进行识别和检测，耗时费力、效率低下的技术问题。
8.为实现上述目的，本发明提供了一种基于孪生声纹对的声纹识别方法，所述方法包括以下步骤:
9.提取待识别语音的待识别声纹特征集；
10.确定所述待识别语音对应的待匹配声纹目标，所述待匹配声纹目标中包含若干个声纹簇；
11.根据所述声纹簇对所述待识别声纹特征集进行孪生声纹对匹配，并根据匹配结果确定所述待匹配声纹目标对所述待识别声纹特征集的整体覆盖信息；
12.在所述整体覆盖信息满足预设条件时，判定所述待识别语音属于所述待匹配声纹目标。
13.优选地，所述根据所述声纹簇对所述待识别声纹特征集进行孪生声纹对匹配，并根据匹配结果确定所述待匹配声纹目标对所述待识别声纹特征集的整体覆盖信息的步骤，包括：
14.对所述若干个声纹簇进行遍历；
15.获取当前遍历到的声纹簇所包含的孪生声纹对，所述孪生声纹对中包含至少两个说话人且每个说话人预先配置有一个声纹识别模型；
16.根据所述孪生声纹对对应的声纹识别模型确定当前遍历到的声纹簇对所述待识别声纹特征集的声纹簇覆盖情况；
17.在遍历结束时，根据获得的各声纹簇对所述待识别声纹特征集的声纹簇覆盖情况，确定所述待匹配声纹目标对所述待识别声纹特征集的整体覆盖信息。
18.优选地，所述待识别声纹特征集中包含若干个待匹配声纹特征；
19.所述根据所述孪生声纹对对应的声纹识别模型确定当前遍历到的声纹簇对所述待识别声纹特征集的声纹簇覆盖情况的步骤，包括：
20.对所述待识别声纹特征集进行遍历，获得当前遍历到的待匹配声纹特征；
21.根据所述孪生声纹对对应的声纹识别模型获取当前遍历到的待匹配声纹特征的命中情况，所述命中情况包括命中或未命中；
22.在所述待识别声纹特征集的遍历结束时，统计所述待识别声纹特征集中被命中的待匹配声纹特征在所述待识别声纹特征集中的占比；
23.根据所述占比确定当前遍历到的声纹簇对所述待识别声纹特征集的声纹簇覆盖情况。
24.优选地，所述根据所述孪生声纹对对应的声纹识别模型获取当前遍历到的待匹配声纹特征的命中情况的步骤，包括：
25.根据所述孪生声纹对对应的不同声纹识别模型分别计算当前遍历到的待匹配声纹特征对应的模型匹配分值；
26.将计算出的模型匹配分值与初始门限值进行比较；
27.若计算出的模型匹配分值中存在小于所述初始门限值的模型匹配分值，则判定当前遍历到的声纹簇未命中当前遍历到的待匹配声纹特征；
28.若计算出的模型匹配分值中不存在小于所述初始门限值的模型匹配分值，则从所述计算出的模型匹配分值中选取最大模型匹配分值；
29.将所述最大模型匹配分值与预设判决门限值进行比较；
30.若所述最大模型匹配分值大于或等于所述预设判决门限值，则判定当前遍历到的声纹簇命中当前遍历到的待匹配声纹特征；
31.若所述最大模型匹配分值小于所述预设判决门限值，则判定当前遍历到的声纹簇未命中当前遍历到的待匹配声纹特征。
32.优选地，所述判定当前遍历到的声纹簇未命中当前遍历到的待匹配声纹特征的步骤之后，所述方法还包括：
33.对所述若干个声纹簇中剩余的声纹簇进行遍历，并返回获取当前遍历到的声纹簇所包含的孪生声纹对的步骤。
34.优选地，所述提取待识别语音的待识别声纹特征集的步骤之前，所述方法还包括：
35.获取说话人体中各说话人的语音样本；
36.对每个说话人进行建模，并根据所述语音样本对所构建的模型进行训练，获得声纹识别模型；
37.在所述说话人体中，逐一用每个说话人对应的声纹识别模型计算每个说话人的声纹特征对应的模型匹配分值；
38.根据计算出的模型匹配分值确定所述说话人体的孪生声纹对，并根据所述孪生声纹对构建所述说话人体的声纹目标。
39.优选地，所述根据计算出的模型匹配分值确定所述说话人体的孪生声纹对，并根据所述孪生声纹对构建所述说话人体的声纹目标的步骤，包括：
40.根据计算出的模型匹配分值构建每个声纹识别模型对应的模型匹配分值集合；
41.对所述说话人体进行遍历，并获取当前遍历到的说话人对应的目标声纹识别模型和目标声纹特征；
42.从所述模型匹配分值集合中查所述目标声纹识别模型对应的目标模型匹配分值集；
43.从所述目标模型匹配分值集读取所述目标声纹特征对应的目标模型匹配分值；
44.在所述目标模型匹配分值集中查除所述目标模型匹配分值之外最大模型匹配分值；
45.确定所述最大模型匹配分值所属的目标说话人，并根据当前遍历到的说话人和所述目标说话人构建孪生声纹对；
46.在对所述说话人体的遍历完成时，获取每个说话人对应的孪生声纹对；
47.构建各孪生声纹对所属的声纹簇，根据所有的声纹簇构建所述说话人体的声纹目标。
48.此外，为实现上述目的，本发明还提出一种基于孪生声纹对的声纹识别装置，所述装置包括：
49.特征提取模块，用于提取待识别语音的待识别声纹特征集；
50.声纹获取模块，用于确定所述待识别语音对应的待匹配声纹目标，所述待匹配声纹目标中包含若干个声纹簇；
51.声纹对匹配模块，用于根据所述声纹簇对所述待识别声纹特征集进行孪生声纹对匹配，并根据匹配结果确定所述待匹配声纹目标对所述待识别声纹特征集的整体覆盖信息；
52.结果判定模块，用于在所述整体覆盖信息满足预设条件时，判定所述待识别语音属于所述待匹配声纹目标。
53.此外，为实现上述目的，本发明还提出一种基于孪生声纹对的声纹识别设备，所述设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于孪生声纹对的声纹识别程序，所述基于孪生声纹对的声纹识别程序配置为实现如上文所述的基于孪生声纹对的声纹识别方法的步骤。
54.此外，为实现上述目的，本发明还提出一种存储介质，所述存储介质上存储有基于孪生声纹对的声纹识别程序，所述基于孪生声纹对的声纹识别程序被处理器执行时实现如上文所述的基于孪生声纹对的声纹识别方法的步骤。
55.本发明通过提取待识别语音的待识别声纹特征集，然后确定待识别语音对应的包含若干个声纹簇的待匹配声纹目标；再根据声纹簇对待识别声纹特征集进行孪生声纹对匹配，最后根据匹配结果确定待匹配声纹目标对待识别声纹特征集的整体覆盖信息，并在整体覆盖信息满足预设条件时，判定待识别语音属于待匹配声纹目标，由于是通过预先构建的声纹所包含声纹簇中的孪生声纹对来对说话人进行声纹识别，因而可以整体判断说话人是否属于声纹，无需根据说话人体中的说话人逐一对待识别语音进行识别，提高了识别效率，在语音体检测方面优势明显。
附图说明
56.图1是本发明实施例方案涉及的硬件运行环境的基于孪生声纹对的声纹识别设备的结构示意图；
57.图2为本发明基于孪生声纹对的声纹识别方法第一实施例的流程示意图；
58.图3为本发明基于孪生声纹对的声纹识别方法第一实施例中声纹簇的结构示意图；
59.图4为本发明基于孪生声纹对的声纹识别方法第二实施例的流程示意图；
60.图5为本发明基于孪生声纹对的声纹识别方法第三实施例的流程示意图；
61.图6为本发明基于孪生声纹对的声纹识别装置第一实施例的结构框图。
62.本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。
具体实施方式
63.应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。
64.参照图1，图1为本发明实施例方案涉及的硬件运行环境的基于孪生声纹对的声纹识别设备结构示意图。
65.如图1所示，该基于孪生声纹对的声纹识别设备可以包括：处理器1001，例如中央处理器(central processing unit，cpu)，通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(display)、输入单元比如键盘(keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(wireless-fidelity，wi-fi)接口)。存储器1005可以是高速的随机存取存储器(random access memory，ram)存储器，也可以是稳定的非易失性存储器(non-volatile memory，nvm)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
66.本领域技术人员可以理解，图1中示出的结构并不构成对基于孪生声纹对的声纹识别设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。
67.如图1所示，作为一种存储介质的存储器1005中可以包括操作系统、数据存储模块、网络通信模块、用户接口模块以及基于孪生声纹对的声纹识别程序。
68.在图1所示的基于孪生声纹对的声纹识别设备中，网络接口1004主要用于与网络服务器进行数据通信；用户接口1003主要用于与用户进行数据交互；本发明基于孪生声纹对的声纹识别设备中的处理器1001、存储器1005可以设置在基于孪生声纹对的声纹识别设
备中，所述基于孪生声纹对的声纹识别设备通过处理器1001调用存储器1005中存储的基于孪生声纹对的声纹识别程序，并执行本发明实施例提供的基于孪生声纹对的声纹识别方法。
69.本发明实施例提供了一种基于孪生声纹对的声纹识别方法，参照图2，图2为本发明基于孪生声纹对的声纹识别方法第一实施例的流程示意图。
70.本实施例中，所述基于孪生声纹对的声纹识别方法包括以下步骤：
71.步骤s10：提取待识别语音的待识别声纹特征集；
72.需要说明的是，本实施例方法的执行主体可以是，具有语音采集、数据处理、网络通信以及程序运行功能的计算服务设备，例如智能手机、平板电脑、个人电脑等，也可以是其他具有相同或相似功能的电子设备，本实施例对此不作限制。
73.应理解的是，所述待识别语音可以是采集的用户语音，例如用户在打电话的时候，可以对用户进行语音采集获得上述待识别语音。所述待识别声纹特征集可以是对待识别语音进行声纹特征提取后获得的声纹特征集合，该集合中可以包含若干个待匹配声纹特征，如[x1，x2，
……
xn]。
[0074]
步骤s20：确定所述待识别语音对应的待匹配声纹目标，所述待匹配声纹目标中包含若干个声纹簇；
[0075]
需要说明的是，在执行本实施例上述步骤s10之前，需要先构建所述待识别语音对应的声纹，即上述待匹配声纹目标，一般一个声纹内可能存在多个声纹簇，也可能只有一个声纹簇，声纹簇的个数根据实际情况的不同而不同。
[0076]
本实施例中，上述声纹的构建可以是先收集一个说话人体(例如一个电话团伙)中所有说话人的语音样本，然后对体中的说话人进行建模和识别，再根据识别结果确定(孪生)声纹簇，最后根据(孪生)声纹簇构建声纹。实际应用中可根据已查处的或疑似电话团伙的通话记录为不同区域的团伙构建上述声纹，以便后续对电话团伙中的个体进行声纹识别。
[0077]
需要强调的是，由于电话团伙的分布具有一定的分散性，且不同的电话团伙的声纹是不相同的，如不同区域的a团伙的声纹与b团伙的声纹基本上不可能相同，若当前采集的待识别语音源于a团伙，那么用b团伙的声纹对其进行识别显然是不准确的。因此本步骤中确定待识别语音对应的待匹配声纹目标的方式可以是：先确定待识别语音的语音源，然后查询该语音源对应的通话终端(例如手机、电脑、智能穿戴设备等)，再根据该通话终端的所在位置(可以是地理位置、ip地址等)或者日常活动区域确定与其距离最近的电话团伙，最后获取该距离最近的电话团伙的声纹作为待匹配声纹目标。
[0078]
步骤s30：根据所述声纹簇对所述待识别声纹特征集进行孪生声纹对匹配，并根据匹配结果确定所述待匹配声纹目标对所述待识别声纹特征集的整体覆盖信息；
[0079]
需要说明的是，声纹簇由孪生声纹对构成，孪生声纹对可以由说话人对应的(预先构建并训练好的)声纹识别模型来确定。具体的，可在说话人所在的体中，逐一用每个说话人的声纹识别模型对每一个说话人的声纹特征进行打分；然后对于每一个声纹识别模型，根据其打分结果在体中搜索除当前说话人m之外的声纹特征打分最高的其他说话人m'的声纹特征，此时就可以将说话人m'称为说话人m的孪生声纹对。参考图3，图3为本发明
基于孪生声纹对的声纹识别方法第一实施例中声纹簇的结构示意图，如图3所示，该声纹簇中包含三个声纹簇，其中一个声纹簇中说话人m是说话人m'的孪生声纹对。
[0080]
实际应用中，按照上述方式遍历说话人体，即可获得该说话人体中所有的孪生声纹对，然后对孪生声纹对进行分析，若孪生声纹对(m与m')中，说话人m仅仅与孪生声纹对中的说话人m'存在孪生声纹对关系，而与该孪生声纹对之外的其他说话人不存在孪生声纹对关系，则称m与m'构成声纹簇。
[0081]
应理解的是，本实施例中为说话人构建的声纹识别模型可以选择gmm均值超矢量模型、基于身份认证矢量(i-vector)的模型、x-vector模型(一种被训练用于区分说话人的深度神经网络，把可变长的话语映射为固定维度的embedding)中的任意一种，具体模型的选用本实施例及下述各实施例不作限定。
[0082]
在具体实现中，当获取到待识别声纹特征集后，即可通过声纹簇中包含的孪生声纹对对待识别声纹特征集进行匹配。可以是先获取孪生声纹对中各说话人对应的(预先构建并训练好的)声纹识别模型，然后根据声纹识别模型对待识别声纹特征集中的待匹配声纹特征[x1，x2，
……
xn]分别进行打分，再将打分结果与预先设定的门限值进行比较，然后根据比较结果来判断声纹簇是否命中了该待匹配声纹特征，若待识别声纹特征集[x1，x2，
……
xn]所包含的声纹特征被一个声纹簇的孪生声纹对中所有说话人的命中率超过设定阈值(如80％)，则判定该声纹簇对待识别声纹特征集覆盖性达标。
[0083]
例如，声纹簇c中包含一个孪生声纹对(m与m')，待识别声纹特征集[x1，x2，
……
x10]的命中率为80％，即10个声纹特征中有8个声纹特征被声纹簇c命中，则判定声纹簇c对待识别声纹特征集[x1，x2，
……
x10]的覆盖性达标。
[0084]
可理解的是，在获取到声纹中每一个声纹簇对待识别声纹特征集的(声纹簇)覆盖情况后，即可确定待匹配声纹目标对待识别声纹特征集的整体覆盖信息。
[0085]
步骤s40：在所述整体覆盖信息满足预设条件时，判定所述待识别语音属于所述待匹配声纹目标。
[0086]
需要说明的是，本实施例中上所述预设条件可以根据实际情况设定，例如整个声纹中对待识别声纹特征集覆盖性达标的声纹簇数目超过整个声纹中声纹簇总数目的设定百分比(例如80％)时，判定整体覆盖信息满足预设条件，即待识别语音属于该待匹配声纹目标，从而实现对说话人是否属于特定目标的快速判断。
[0087]
本实施例通过提取待识别语音的待识别声纹特征集，然后确定待识别语音对应的包含若干个声纹簇的待匹配声纹目标；再根据声纹簇对待识别声纹特征集进行孪生声纹对匹配，最后根据匹配结果确定待匹配声纹目标对待识别声纹特征集的整体覆盖信息，并在整体覆盖信息满足预设条件时，判定待识别语音属于待匹配声纹目标，由于是通过预先构建的声纹所包含声纹簇中的孪生声纹对来对说话人进行声纹识别，因而可以整体判断说话人是否属于声纹，无需根据说话人体中的说话人逐一对待识别语音进行识别，提高了识别效率，在语音体检测方面优势明显。
[0088]
参考图4，图4为本发明基于孪生声纹对的声纹识别方法第二实施例的流程示意图。
[0089]
基于上述第一实施例，在本实施例中，所述步骤s30包括：
[0090]
步骤s301：对所述若干个声纹簇进行遍历；
[0091]
应理解的是，待匹配声纹目标可能存在若干个声纹簇，为了准确的获取每个声纹簇对待识别声纹特征集的覆盖情况，本实施例采用遍历的方式从若干个声纹簇中每次选取一个声纹簇来执行本实施例的下述操作。
[0092]
步骤s302：获取当前遍历到的声纹簇所包含的孪生声纹对，所述孪生声纹对中包含至少两个说话人且每个说话人预先配置有一个声纹识别模型；
[0093]
如第一实施例所述，声纹簇由孪生声纹对构成，因此每一个孪生声纹对中包含至少两个说话人，且每个说话人在声纹簇的构建阶段都预先配置并训练好有一个声纹识别模型。例如，孪生声纹对(m与m')中，说话人m有预先配置的声纹识别模型a1，说话人m'有预先配置的声纹识别模型a2等。
[0094]
步骤s303：根据所述孪生声纹对对应的声纹识别模型确定当前遍历到的声纹簇对所述待识别声纹特征集的声纹簇覆盖情况；
[0095]
需要说明的是，声纹簇覆盖情况，即声纹簇对待识别声纹特征集中的待匹配声纹特征的命中情况，若某个待匹配声纹特征经过某个声纹簇所有声纹孪生对中的声纹识别模型进行打分后，不存在小于初始门限值的得分，且最高的得分超过判决门限值，则可认定该声纹簇命中该待匹配声纹特征。同理，若某个声纹簇对待识别声纹特征集中所有待匹配声纹特征的命中率超过设定阈值(如80％)，则判定声纹簇对待识别声纹特征集覆盖性达标。
[0096]
步骤s304：在遍历结束时，根据获得的各声纹簇对所述待识别声纹特征集的声纹簇覆盖情况，确定所述待匹配声纹目标对所述待识别声纹特征集的整体覆盖信息。
[0097]
可理解的是，按照上述方式对待匹配声纹目标中所有的声纹簇遍历完时，即可得各声纹簇对待识别声纹特征集的声纹簇覆盖情况。例如待匹配声纹目标中包含5个声纹簇(m1、m2、m3、m4、m5)，若声纹簇m1、m2、m3、m5对待识别声纹特征集[x1，x2，
……
xn]的覆盖性达标，m4对待识别声纹特征集[x1，x2，
……
xn]的覆盖性不达标，则上述整体覆盖信息为待匹配声纹目标对待识别声纹特征集的整体覆盖度为80％，若该整体覆盖度超过了上述设定百分比，则可判定待识别语音属于该待匹配声纹目标。
[0098]
进一步地，为了保证声纹簇覆盖情况的准确获取，本实施例中，上述步骤s303可具体包括：
[0099]
步骤s3031：对所述待识别声纹特征集进行遍历，获得当前遍历到的待匹配声纹特征；
[0100]
步骤s3032：根据所述孪生声纹对对应的声纹识别模型获取当前遍历到的待匹配声纹特征的命中情况，所述命中情况包括命中或未命中；
[0101]
步骤s3033：在所述待识别声纹特征集的遍历结束时，统计所述待识别声纹特征集中被命中的待匹配声纹特征在所述待识别声纹特征集中的占比；
[0102]
步骤s3034：根据所述占比确定当前遍历到的声纹簇对所述待识别声纹特征集的声纹簇覆盖情况。
[0103]
需要说明的是，待识别声纹特征集中可能有很多待匹配的声纹特征[x1，x2，
……
xn]，为了保证识别结果的准确性，本实施例优选采用遍历的方式对待识别声纹特征集中待匹配的声纹特征逐一进行匹配。本实施例中所谓当前遍历到的待匹配声纹特征，即当前被输入到声纹识别模型中进行打分的声纹特征。
[0104]
应理解的是，对于一个声纹簇而言(假设只有一个孪生声纹对)，若待识别声纹特
征集[x1，x2，
……
x5]中，声纹特征[x1，x2，x4，x5]均被该声纹簇命中，则待识别声纹特征集[x1，x2，
……
x5]中被命中的待匹配声纹特征[x1，x2，x4，x5]在待识别声纹特征集中的占比为(4/5)*100％＝80％(≥80％)，即可判定当前遍历到的声纹簇对待识别声纹特征集[x1，x2，
……
x5]的声纹簇覆盖情况为覆盖性达标，反之若占比小于80％，则判定声纹簇覆盖情况为覆盖性不达标。
[0105]
进一步地，本实施例中上述步骤s3032的具体实现方式可包括如下步骤：
[0106]
步骤s1：根据所述孪生声纹对对应的不同声纹识别模型分别计算当前遍历到的待匹配声纹特征对应的模型匹配分值；
[0107]
应理解的是，对于当前遍历到的声纹簇而言，其孪生声纹对是确定的，相应的，其孪生声纹对中说话人对应的声纹识别模型也是确定的。例如声纹簇c中包含一个孪生声纹对(m与m')，说话人m对应的声纹识别模型a1，说话人m'对应的声纹识别模型a2，当前遍历到的待匹配声纹特征为x1，那么通过将待匹配声纹特征x1分别输入到声纹识别模型a1、a2中，则可计算出对应的模型匹配分值为a1(x1)、a2(x1)。
[0108]
步骤s2：将计算出的模型匹配分值与初始门限值进行比较；
[0109]
在具体实现中，在计算出模型匹配分值为a1(x1)、a2(x1)后即可将它们与与初始门限值(具体数据可根据实际情况设定)进行比较，然后根据比较结果判断模型匹配分值a1(x1)、a2(x1)中是否有小于初始门限值的模型匹配分值。
[0110]
当然，本实施例中对于不同孪生声纹对对应的声纹识别模型(若数量较多)也可以采用遍历的方式每次选一个模型来计算当前遍历到的待匹配声纹特征对应的模型匹配分值，然后将计算出的模型匹配分值与初始门限值进行比较，一旦小于该初始门限，则直接放弃对本声纹簇的特征匹配操作，并直接判定该声纹簇未命中当前遍历到的待匹配声纹特征，从而节省特征匹配的时间，提高声纹识别的效率。
[0111]
步骤s3：若计算出的模型匹配分值中存在小于所述初始门限值的模型匹配分值，则判定当前遍历到的声纹簇未命中当前遍历到的待匹配声纹特征；
[0112]
可理解的是，如上所述，如果计算出的模型匹配分值中存在小于初始门限值的模型匹配分值，比如a2(x1)，此时即可直接判定当前遍历到的声纹簇未命中当前遍历到的待匹配声纹特征，并放弃本声纹簇，跳至下一声纹簇继续进行声纹特征的匹配，也即返回上述步骤s301，重新对其他的声纹簇进行遍历。
[0113]
步骤s4：若计算出的模型匹配分值中不存在小于所述初始门限值的模型匹配分值，则从所述计算出的模型匹配分值中选取最大模型匹配分值；
[0114]
相应的，如果计算出的模型匹配分值中不存在小于初始门限值的模型匹配分值，即模型匹配分值a1(x1)、a2(x1)均大于初始门限值，则可以从模型匹配分值a1(x1)、a2(x1)中选取分值最大的模型匹配分值，即上述最大模型匹配分值，然后执行下述步骤s5。
[0115]
步骤s5：将所述最大模型匹配分值与预设判决门限值进行比较；
[0116]
步骤s6：若所述最大模型匹配分值大于或等于所述预设判决门限值，则判定当前遍历到的声纹簇命中当前遍历到的待匹配声纹特征；
[0117]
步骤s7：若所述最大模型匹配分值小于所述预设判决门限值，则判定当前遍历到的声纹簇未命中当前遍历到的待匹配声纹特征。
[0118]
需要说明的是，本实施例中预设判决门限值的数值可调，且预设判决门限值的绝
对值大于上述初始门限值的绝对值。实际应用中，如果计算出的模型匹配分值中不存在小于初始门限值的模型匹配分值，但是分值最大的模型匹配分值仍然低于预设判决门限值，则依旧判定当前遍历到的声纹簇未命中当前遍历到的待匹配声纹特征。
[0119]
此外，对于待识别声纹特征集[x1，x2，
……
x5]，若待匹配声纹特征x1被待匹配声纹目标中的某一个声纹簇c命中，则可采用遍历的方式直接从其余的声纹簇中选取一个声纹簇对下一个待匹配声纹特征x2进行特征匹配，直至遍历完待匹配声纹目标中所有的声纹簇。
[0120]
本实施例通过对待匹配声纹目标中所有的声纹簇进行遍历，然后根据预先构建的声纹识别模型来确定每个声纹簇对待识别声纹特征集中的声纹特征的命中情况，能够准确、全面的确认声纹簇对待识别声纹特征集的声纹簇覆盖情况，同时，本实施例通过声纹簇覆盖情况确定待匹配声纹目标对待识别声纹特征集的整体覆盖信息，也使得最终的识别结果的准确度和可靠度得到有效保证。
[0121]
参考图5，图5为本发明基于孪生声纹对的声纹识别方法第三实施例的流程示意图。
[0122]
基于上述各实施例，在本实施例中，所述步骤s10之前，所述方法还包括声纹目标的构建，具体包括以下步骤：
[0123]
步骤s01：获取说话人体中各说话人的语音样本；
[0124]
需要说明的是，本实施例中的说话人体可以是由具体的应用场景决定，例如一个电话团伙，体中各说话人的语音样本可以在说话人通话的过程中获取。
[0125]
步骤s02：对每个说话人进行建模，并根据所述语音样本对所构建的模型进行训练，获得声纹识别模型；
[0126]
需要说明的是，本步骤中对说话人进行建模可以是从gmm均值超矢量模型、i-vector模型、x-vector模型中任选一种作为初始声纹识别模型，然后根据其对应的语音样本对其进行模型训练，在模型收敛后获得声纹识别模型。
[0127]
步骤s03：在所述说话人体中，逐一用每个说话人对应的声纹识别模型计算每个说话人的声纹特征对应的模型匹配分值；
[0128]
需要说明的是，对于训练好的声纹识别模型，将任意一个声纹特征输入到其中后，都可以得到一个能够表征该声纹特征与该声纹识别模型的匹配度的模型匹配分值。
[0129]
对于分数越高越倾向于判断为目标人的(声纹识别)模型，模型匹配分值越高表明该声纹特征所属的说话人越可能为该模型对应的实际对应人。反之对于分数越低越倾向于判断为目标人的(声纹识别)模型，则可将模型输出的结果取相反数。
[0130]
步骤s04：根据计算出的模型匹配分值确定所述说话人体的孪生声纹对，并根据所述孪生声纹对构建所述说话人体的声纹目标。
[0131]
可理解的是，上述模型匹配分值能反映当前声纹特征与该声纹识别模型的匹配度，也即反映提供当前声纹特征的说话人与该声纹识别模型的实际对应人的匹配度，那么假如存在另一个声纹识别模型计算出的模型匹配分值是除该声纹识别模型计算出的模型匹配分值之外最高的，此时就可以将提供当前声纹特征的说话人和除该声纹识别模型之外模型匹配分值最高的声纹识别模型对应的说话人称为孪生声纹对。
[0132]
为了实现对孪生声纹对的准确获取，作为一种实施方式，本实施例中上述步骤s04
可具体包括：
[0133]
步骤s041：根据计算出的模型匹配分值构建每个声纹识别模型对应的模型匹配分值集合；
[0134]
步骤s042：对所述说话人体进行遍历，并获取当前遍历到的说话人对应的目标声纹识别模型和目标声纹特征；
[0135]
步骤s043：从所述模型匹配分值集合中查所述目标声纹识别模型对应的目标模型匹配分值集；
[0136]
步骤s044：从所述目标模型匹配分值集读取所述目标声纹特征对应的目标模型匹配分值；
[0137]
步骤s045：在所述目标模型匹配分值集中查除所述目标模型匹配分值之外最大模型匹配分值；
[0138]
步骤s046：确定所述最大模型匹配分值所属的目标说话人，并根据当前遍历到的说话人和所述目标说话人构建孪生声纹对；
[0139]
步骤s047：在对所述说话人体的遍历完成时，获取每个说话人对应的孪生声纹对；
[0140]
步骤s048：构建各孪生声纹对所属的声纹簇，根据所有的声纹簇构建所述说话人体的声纹目标。
[0141]
此处结合具体例子对上述步骤s041-s048进行说明，例如说话人体包含三个说话人(a、b、c)，说话人(a、b、c)对应的声纹识别模型分别为fa(
·
)、fb(
·
)、fc(
·
)，说话人(a、b、c)提供的声纹特征(集)分别为(xa、xb、xc)。
[0142]
经过上述步骤s01-s03进行计算后，即可获得各声纹识别模型对应的模型匹配分值集合{[fa(xa)，fa(xb)，fa(xc)]，[fb(xa)，fb(xb)，fb(xc)]，[fc(xa)，fc(xb)，fc(xc)]}。
[0143]
若当前时刻遍历到的说话人为a，则可确定其对应的目标声纹识别模型为fa(
·
)和目标声纹特征为xa，此时可从上述模型匹配分值集合中查目标声纹识别模型fa(
·
)对应的目标模型匹配分值集[fa(xa)，fa(xb)，fa(xc)]，然后从该目标模型匹配分值集读取目标声纹特征xa对应的目标模型匹配分值fa(xa)；接着在目标模型匹配分值集中查除目标模型匹配分值fa(xa)之外最大模型匹配分值，假设为fa(xc)，则可确定最大模型匹配分值fa(xc)所属的目标说话人为说话人c，然后即可根据当前遍历到的说话人a和目标说话人c构建孪生声纹对(a，c)。
[0144]
在具体实现中，按照上述方式在构建出说话人体对应的所有孪生声纹对后，即可对孪生声纹对进行分析，然后根据分析结果构成声纹簇，再基于声纹簇构建说话人体最终的声纹目标。
[0145]
需要说明的是，上述对孪生声纹对进行分析可以是：若孪生声纹对(m与m')中，说话人m仅仅与孪生声纹对中的说话人m'存在孪生声纹对关系，而与该孪生声纹对之外的其他说话人不存在孪生声纹对关系，则称m与m'构成声纹簇。此外，本实施例中孪生声纹对的构建并不局限于上述特定方式，其他任何可以确定说话人声纹特征相似度，然后根据相似度构建孪生声纹对的方式均可，本发明对此不作限制。
[0146]
本实施例通过获取说话人体中各说话人的语音样本，然后对每个说话人进行建模，并根据语音样本对所构建的模型进行训练，获得声纹识别模型；在说话人体中，逐一
用每个说话人对应的声纹识别模型计算每个说话人的声纹特征对应的模型匹配分值；最后根据计算出的模型匹配分值确定说话人体的孪生声纹对，再根据孪生声纹对构建所述说话人体的声纹目标。本实施例通过上述方式先对说话人体进行孪生声纹对分析，然后根据分析结果确定声纹目标内的声纹簇结构，能够保证最终构建的声纹与说话人体的契合度。
[0147]
此外，本发明实施例还提出一种存储介质，所述存储介质上存储有基于孪生声纹对的声纹识别程序，所述基于孪生声纹对的声纹识别程序被处理器执行时实现如上文所述的基于孪生声纹对的声纹识别方法的步骤。
[0148]
参照图6，图6为本发明基于孪生声纹对的声纹识别装置第一实施例的结构框图。
[0149]
如图6所示，本发明实施例提出的基于孪生声纹对的声纹识别装置包括：
[0150]
特征提取模块601，用于提取待识别语音的待识别声纹特征集；
[0151]
声纹获取模块602，用于确定所述待识别语音对应的待匹配声纹目标，所述待匹配声纹目标中包含若干个声纹簇；
[0152]
声纹对匹配模块603，用于根据所述声纹簇对所述待识别声纹特征集进行孪生声纹对匹配，并根据匹配结果确定所述待匹配声纹目标对所述待识别声纹特征集的整体覆盖信息；
[0153]
结果判定模块604，用于在所述整体覆盖信息满足预设条件时，判定所述待识别语音属于所述待匹配声纹目标。
[0154]
本实施例通过提取待识别语音的待识别声纹特征集，然后确定待识别语音对应的包含若干个声纹簇的待匹配声纹目标；再根据声纹簇对待识别声纹特征集进行孪生声纹对匹配，最后根据匹配结果确定待匹配声纹目标对待识别声纹特征集的整体覆盖信息，并在整体覆盖信息满足预设条件时，判定待识别语音属于待匹配声纹目标，由于是通过预先构建的声纹所包含声纹簇中的孪生声纹对来对说话人进行声纹识别，因而可以整体判断说话人是否属于声纹，无需根据说话人体中的说话人逐一对待识别语音进行识别，提高了识别效率，在语音体检测方面优势明显。
[0155]
基于本发明上述基于孪生声纹对的声纹识别装置第一实施例，提出本发明基于孪生声纹对的声纹识别装置的第二实施例。
[0156]
在本实施例中，所述声纹对匹配模块603，还用于对所述若干个声纹簇进行遍历；获取当前遍历到的声纹簇所包含的孪生声纹对，所述孪生声纹对中包含至少两个说话人且每个说话人预先配置有一个声纹识别模型；根据所述孪生声纹对对应的声纹识别模型确定当前遍历到的声纹簇对所述待识别声纹特征集的声纹簇覆盖情况；在遍历结束时，根据获得的各声纹簇对所述待识别声纹特征集的声纹簇覆盖情况，确定所述待匹配声纹目标对所述待识别声纹特征集的整体覆盖信息。
[0157]
进一步地，所述声纹对匹配模块603，还用于对所述待识别声纹特征集进行遍历，获得当前遍历到的待匹配声纹特征；根据所述孪生声纹对对应的声纹识别模型获取当前遍历到的待匹配声纹特征的命中情况，所述命中情况包括命中或未命中；在所述待识别声纹特征集的遍历结束时，统计所述待识别声纹特征集中被命中的待匹配声纹特征在所述待识别声纹特征集中的占比；根据所述占比确定当前遍历到的声纹簇对所述待识别声纹特征集的声纹簇覆盖情况。
[0158]
进一步地，所述声纹对匹配模块603，还用于根据所述孪生声纹对对应的不同声纹识别模型分别计算当前遍历到的待匹配声纹特征对应的模型匹配分值；将计算出的模型匹配分值与初始门限值进行比较；若计算出的模型匹配分值中存在小于所述初始门限值的模型匹配分值，则判定当前遍历到的声纹簇未命中当前遍历到的待匹配声纹特征；若计算出的模型匹配分值中不存在小于所述初始门限值的模型匹配分值，则从所述计算出的模型匹配分值中选取最大模型匹配分值；将所述最大模型匹配分值与预设判决门限值进行比较；若所述最大模型匹配分值大于或等于所述预设判决门限值，则判定当前遍历到的声纹簇命中当前遍历到的待匹配声纹特征；若所述最大模型匹配分值小于所述预设判决门限值，则判定当前遍历到的声纹簇未命中当前遍历到的待匹配声纹特征。
[0159]
进一步地，所述声纹对匹配模块603，还用于对所述若干个声纹簇中剩余的声纹簇进行遍历，并执行获取当前遍历到的声纹簇所包含的孪生声纹对的操作。
[0160]
进一步地，所述基于孪生声纹对的声纹识别装置还包括：声纹构建模块，用于获取说话人体中各说话人的语音样本；对每个说话人进行建模，并根据所述语音样本对所构建的模型进行训练，获得声纹识别模型；在所述说话人体中，逐一用每个说话人对应的声纹识别模型计算每个说话人的声纹特征对应的模型匹配分值；根据计算出的模型匹配分值确定所述说话人体的孪生声纹对，并根据所述孪生声纹对构建所述说话人体的声纹目标。
[0161]
进一步地，所述声纹构建模块，还用于根据计算出的模型匹配分值构建每个声纹识别模型对应的模型匹配分值集合；对所述说话人体进行遍历，并获取当前遍历到的说话人对应的目标声纹识别模型和目标声纹特征；从所述模型匹配分值集合中查所述目标声纹识别模型对应的目标模型匹配分值集；从所述目标模型匹配分值集读取所述目标声纹特征对应的目标模型匹配分值；在所述目标模型匹配分值集中查除所述目标模型匹配分值之外最大模型匹配分值；确定所述最大模型匹配分值所属的目标说话人，并根据当前遍历到的说话人和所述目标说话人构建孪生声纹对；在对所述说话人体的遍历完成时，获取每个说话人对应的孪生声纹对；构建各孪生声纹对所属的声纹簇，根据所有的声纹簇构建所述说话人体的声纹目标。
[0162]
本发明基于孪生声纹对的声纹识别装置的其他实施例或具体实现方式可参照上述各方法实施例，此处不再赘述。
[0163]
需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
[0164]
上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。
[0165]
通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如只读存储器/随机存取存储器、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可
以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。
[0166]
以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

技术特征：

1.一种基于孪生声纹对的声纹识别方法，其特征在于，所述方法包括：提取待识别语音的待识别声纹特征集；确定所述待识别语音对应的待匹配声纹目标，所述待匹配声纹目标中包含若干个声纹簇；根据所述声纹簇对所述待识别声纹特征集进行孪生声纹对匹配，并根据匹配结果确定所述待匹配声纹目标对所述待识别声纹特征集的整体覆盖信息；在所述整体覆盖信息满足预设条件时，判定所述待识别语音属于所述待匹配声纹目标。2.如权利要求1所述的基于孪生声纹对的声纹识别方法，其特征在于，所述根据所述声纹簇对所述待识别声纹特征集进行孪生声纹对匹配，并根据匹配结果确定所述待匹配声纹目标对所述待识别声纹特征集的整体覆盖信息的步骤，包括：对所述若干个声纹簇进行遍历；获取当前遍历到的声纹簇所包含的孪生声纹对，所述孪生声纹对中包含至少两个说话人且每个说话人预先配置有一个声纹识别模型；根据所述孪生声纹对对应的声纹识别模型确定当前遍历到的声纹簇对所述待识别声纹特征集的声纹簇覆盖情况；在遍历结束时，根据获得的各声纹簇对所述待识别声纹特征集的声纹簇覆盖情况，确定所述待匹配声纹目标对所述待识别声纹特征集的整体覆盖信息。3.如权利要求2所述的基于孪生声纹对的声纹识别方法，其特征在于，所述待识别声纹特征集中包含若干个待匹配声纹特征；所述根据所述孪生声纹对对应的声纹识别模型确定当前遍历到的声纹簇对所述待识别声纹特征集的声纹簇覆盖情况的步骤，包括：对所述待识别声纹特征集进行遍历，获得当前遍历到的待匹配声纹特征；根据所述孪生声纹对对应的声纹识别模型获取当前遍历到的待匹配声纹特征的命中情况，所述命中情况包括命中或未命中；在所述待识别声纹特征集的遍历结束时，统计所述待识别声纹特征集中被命中的待匹配声纹特征在所述待识别声纹特征集中的占比；根据所述占比确定当前遍历到的声纹簇对所述待识别声纹特征集的声纹簇覆盖情况。4.如权利要求3所述的基于孪生声纹对的声纹识别方法，其特征在于，所述根据所述孪生声纹对对应的声纹识别模型获取当前遍历到的待匹配声纹特征的命中情况的步骤，包括：根据所述孪生声纹对对应的不同声纹识别模型分别计算当前遍历到的待匹配声纹特征对应的模型匹配分值；将计算出的模型匹配分值与初始门限值进行比较；若计算出的模型匹配分值中存在小于所述初始门限值的模型匹配分值，则判定当前遍历到的声纹簇未命中当前遍历到的待匹配声纹特征；若计算出的模型匹配分值中不存在小于所述初始门限值的模型匹配分值，则从所述计算出的模型匹配分值中选取最大模型匹配分值；将所述最大模型匹配分值与预设判决门限值进行比较；
若所述最大模型匹配分值大于或等于所述预设判决门限值，则判定当前遍历到的声纹簇命中当前遍历到的待匹配声纹特征；若所述最大模型匹配分值小于所述预设判决门限值，则判定当前遍历到的声纹簇未命中当前遍历到的待匹配声纹特征。5.如权利要求4所述的基于孪生声纹对的声纹识别方法，其特征在于，所述判定当前遍历到的声纹簇未命中当前遍历到的待匹配声纹特征的步骤之后，所述方法还包括：对所述若干个声纹簇中剩余的声纹簇进行遍历，并返回获取当前遍历到的声纹簇所包含的孪生声纹对的步骤。6.如权利要求1至5任一项所述的基于孪生声纹对的声纹识别方法，其特征在于，所述提取待识别语音的待识别声纹特征集的步骤之前，所述方法还包括：获取说话人体中各说话人的语音样本；对每个说话人进行建模，并根据所述语音样本对所构建的模型进行训练，获得声纹识别模型；在所述说话人体中，逐一用每个说话人对应的声纹识别模型计算每个说话人的声纹特征对应的模型匹配分值；根据计算出的模型匹配分值确定所述说话人体的孪生声纹对，并根据所述孪生声纹对构建所述说话人体的声纹目标。7.如权利要求6所述的基于孪生声纹对的声纹识别方法，其特征在于，所述根据计算出的模型匹配分值确定所述说话人体的孪生声纹对，并根据所述孪生声纹对构建所述说话人体的声纹目标的步骤，包括：根据计算出的模型匹配分值构建每个声纹识别模型对应的模型匹配分值集合；对所述说话人体进行遍历，并获取当前遍历到的说话人对应的目标声纹识别模型和目标声纹特征；从所述模型匹配分值集合中查所述目标声纹识别模型对应的目标模型匹配分值集；从所述目标模型匹配分值集读取所述目标声纹特征对应的目标模型匹配分值；在所述目标模型匹配分值集中查除所述目标模型匹配分值之外最大模型匹配分值；确定所述最大模型匹配分值所属的目标说话人，并根据当前遍历到的说话人和所述目标说话人构建孪生声纹对；在对所述说话人体的遍历完成时，获取每个说话人对应的孪生声纹对；构建各孪生声纹对所属的声纹簇，根据所有的声纹簇构建所述说话人体的声纹目标。8.一种基于孪生声纹对的声纹识别装置，其特征在于，所述装置包括：特征提取模块，用于提取待识别语音的待识别声纹特征集；声纹获取模块，用于确定所述待识别语音对应的待匹配声纹目标，所述待匹配声纹目标中包含若干个声纹簇；声纹对匹配模块，用于根据所述声纹簇对所述待识别声纹特征集进行孪生声纹对匹配，并根据匹配结果确定所述待匹配声纹目标对所述待识别声纹特征集的整体覆盖信息；结果判定模块，用于在所述整体覆盖信息满足预设条件时，判定所述待识别语音属于
所述待匹配声纹目标。9.一种基于孪生声纹对的声纹识别设备，其特征在于，所述设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于孪生声纹对的声纹识别程序，所述基于孪生声纹对的声纹识别程序配置为实现如权利要求1至7中任一项所述的基于孪生声纹对的声纹识别方法的步骤。10.一种存储介质，其特征在于，所述存储介质上存储有基于孪生声纹对的声纹识别程序，所述基于孪生声纹对的声纹识别程序被处理器执行时实现如权利要求1至7任一项所述的基于孪生声纹对的声纹识别方法的步骤。

技术总结

本发明涉及语音识别技术领域，公开一种基于孪生声纹对的声纹识别方法、装置、设备及存储介质，该方法包括：通过提取待识别语音的待识别声纹特征集，然后确定待识别语音对应的包含若干个声纹簇的待匹配声纹目标；再根据声纹簇对待识别声纹特征集进行孪生声纹对匹配，最后根据匹配结果确定待匹配声纹目标对待识别声纹特征集的整体覆盖信息，并在整体覆盖信息满足预设条件时，判定待识别语音属于待匹配声纹目标，由于是通过预先构建的声纹所包含声纹簇中的孪生声纹对来对说话人进行声纹识别，因而可以整体判断说话人是否属于声纹，无需根据说体中的每个说话人逐一对待识别语音进行识别，提高了识别效率，在语音体检测方面优势明显。检测方面优势明显。检测方面优势明显。