声纹的识别方法、存储介质及电子装置与流程



1.本技术涉及智慧家庭技术领域,具体而言,涉及一种声纹的识别方法、存储介质及电子装置。


背景技术:



2.目前,在智能语音对话系统中,声纹的识别及应用越来越广泛,传统的声纹往往是注册式声纹,在使用声纹之前,需要用户人为主动地通过某种设备,例如手机、电脑等等,完成某一个声纹的注册,后续当设备采集到语音指令时,可以将语音指令与已经注册的声纹做音频特征对比,判断语音指令是否属于已经注册的声纹。
3.但是,随着用户对智能设备控制过程的便捷度要求进一步提高,用户也越来越希望通过无感知的方式,得到智能家居提供的服务,传统的注册式声纹在实际操作中需要人为主动地使用特定的注册设备录入注册人的音频数据,注册设备识别并完成对声纹的注册之后,才可以使用声纹对智能设备进行后续的控制,声纹的注册过程便捷度较低。
4.针对相关技术中,声纹的注册的便捷度较低等问题,尚未提出有效的解决方案。


技术实现要素:



5.本技术实施例提供了一种声纹的识别方法、存储介质及电子装置,以至少解决相关技术中,声纹的注册的便捷度较低等问题。
6.根据本技术实施例的一个实施例,提供了一种声纹的识别方法,包括:
7.对从目标场景中采集的语音文件中提取出的初始语音特征进行特征转换,得到目标语音特征,其中,所述语音文件用于记录在所述目标场景中出现的全部说话人所说出的语音,所述初始语音特征用于表征所述全部说话人的语音属性,所述目标语音特征用于表征所述全部说话人的语音属性中的目标关键属性,所述目标语音特征的特征维度小于所述初始语音特征的特征维度;
8.对所述目标语音特征进行特征分离,得到多个特征片段,其中,所述多个特征片段中的每个特征片段对应所述全部说话人中的一个说话人;
9.将所述多个特征片段聚类为多个参考声纹,其中,所述多个参考声纹中的每个参考声纹用于表征所述目标场景中出现过的一个待注册用户,所述参考声纹用于在所述待注册用户再次在所述目标场景中出现的情况下对所述待注册用户进行声纹注册。
10.可选的,所述对所述目标语音特征进行特征分离,得到多个特征片段,包括:
11.对所述目标语音特征中上下文关联度大于目标关联度阈值的候选语音特征进行编码,得到目标编码数据,其中,所述目标编码数据用于表征所述目标语音特征的整体特征;
12.根据所述目标编码数据预测所述目标语音特征对应的参考说话人特征,其中,所述参考说话人信息用于指示所述语音文件中存在的参考说话人的信息;
13.根据所述参考说话人特征将所述目标语音特征进行特征分离,得到所述多个特征
片段。
14.可选的,所述对所述目标语音特征中上下文关联度大于目标关联度阈值的候选语音特征进行编码,得到目标编码数据,包括:
15.提取所述目标语音特征对应的短期记忆数据和长期记忆数据,其中,所述短期记忆数据用于指示所述目标语音特征所包括的多个目标子语音特征之间的近期记忆,所述长期记忆数据用于指示所述多个目标子语音特征之间的远期记忆;
16.根据所述短期记忆数据和所述长期记忆数据从所述目标语音特征中提取所述上下文关联度大于所述目标关联度阈值的数据,得到所述候选语音特征;
17.对所述候选语音特征进行编码,得到所述目标编码数据。
18.可选的,所述根据所述目标编码数据预测所述目标语音特征对应的参考说话人特征,包括:
19.对所述目标编码数据进行解码,得到所述候选语音特征对应的多个吸引子向量;
20.计算每个所述吸引子向量对应的目标概率值,其中,所述目标概率值用于指示每个所述吸引子向量存在一个说话人的概率;
21.将使用所述目标概率值大于或者等于参考阈值的所述吸引子向量构建的向量矩阵确定为所述参考说话人特征。
22.可选的,所述根据所述参考说话人特征将所述目标语音特征进行特征分离,得到所述多个特征片段,包括:
23.提取所述目标语音特征包括的多个目标子语音特征对应的短期记忆数据,其中,所述短期记忆数据用于指示所述多个目标子语音特征之间的近期记忆;
24.根据所述短期记忆数据与所述向量矩阵的乘积匹配每个所述目标子语音特征对应的说话人标签;
25.根据所述说话人标签将所述目标语音特征进行特征分离,得到多个特征片段。
26.可选的,所述对从目标场景中采集的语音文件中提取出的初始语音特征进行特征转换,得到目标语音特征,包括:
27.从所述语音文件所切分出的t帧音频数据中提取所述初始语音特征,其中,每一帧所述音频数据属于单个说话人,所述语音文件的信噪比参数大于目标信噪比阈值,并且所述语音文件的语音字数大于目标数量;
28.对所述初始语音特征所包括的每个语音特征进行矩阵运算,得到放大语音特征,其中,所述放大语音特征的所述特征维度大于或者等于目标维度;
29.将所述放大语音特征输入降维模型,得到所述降维模型输出的所述目标语音特征,其中,所述降维模型用于在对语音特征进行降维的同时提炼出语音特征中的关键属性。
30.可选的,在所述将所述多个特征片段聚类为多个参考声纹之后,所述方法还包括:
31.在从所述目标场景中再次采集到语音数据的情况下,将所述语音数据与一个或者多个所述参考声纹进行匹配;
32.在所述语音数据与所述一个或者多个参考声纹中的目标声纹匹配一致的情况下,将所述语音数据对应的用户确定为所述待注册用户进行声纹注册;
33.在所述语音数据与所述一个或者多个参考声纹均未匹配一致的情况下,将所述语音数据存储至所述语音文件。
34.可选的,所述对从目标场景中采集的语音文件中提取出的初始语音特征进行特征转换,得到目标语音特征,还包括:
35.对所述初始语音特征的特征维度进行放大,得到放大语音特征;
36.根据所述放大语音特征确定参考特征维度,其中,所述参考特征维度用于保留所述放大语音特征中的关键属性;
37.将所述放大语音特征降维至所述参考特征维度,得到所述目标语音特征。
38.根据本技术实施例的另一个实施例,还提供了一种声纹的识别装置,包括:
39.提取模块,用于对从目标场景中采集的语音文件中提取出的初始语音特征进行特征转换,得到目标语音特征,其中,所述语音文件用于记录在所述目标场景中出现的全部说话人所说出的语音,所述初始语音特征用于表征所述全部说话人的语音属性,所述目标语音特征用于表征所述全部说话人的语音属性中的目标关键属性,所述目标语音特征的特征维度小于所述初始语音特征的特征维度;
40.分离模块,用于对所述目标语音特征进行特征分离,得到多个特征片段,其中,所述多个特征片段中的每个特征片段对应所述全部说话人中的一个说话人;
41.聚类模块,用于将所述多个特征片段聚类为多个参考声纹,其中,所述多个参考声纹中的每个参考声纹用于表征所述目标场景中出现过的一个待注册用户,所述参考声纹用于在所述待注册用户再次在所述目标场景中出现的情况下对所述待注册用户进行声纹注册。
42.根据本技术实施例的又一方面,还提供了一种计算机可读的存储介质,该计算机可读的存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述声纹的识别方法。
43.根据本技术实施例的又一方面,还提供了一种电子装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,上述处理器通过计算机程序执行上述的声纹的识别方法。
44.在本技术实施例中,对从目标场景中采集的语音文件中提取出的初始语音特征进行特征转换,得到目标语音特征,其中,语音文件用于记录在目标场景中出现的全部说话人所说出的语音,初始语音特征用于表征全部说话人的语音属性,目标语音特征用于表征全部说话人的语音属性中的目标关键属性,目标语音特征的特征维度小于初始语音特征的特征维度;对目标语音特征进行特征分离,得到多个特征片段,其中,多个特征片段中的每个特征片段对应全部说话人中的一个说话人;将多个特征片段聚类为多个参考声纹,其中,多个参考声纹中的每个参考声纹用于表征目标场景中出现过的一个待注册用户,参考声纹用于在待注册用户再次在目标场景中出现的情况下对待注册用户进行声纹注册,即首先从目标场景中采集的语音文件中提取出的初始语音特征进行特征转换,得到目标语音特征,由于语音文件记录了在目标场景中出现的全部说话人所说出的语音,因此初始语音特征可以表征全部说话人的语音属性,初始语音特征经过特转换之后得到的目标语音特征的特征维度小于初始语音特征的特征维度,也就是说,目标语音特征可以表征全部说话人的语音属性中的目标关键属性,之后可以对目标语音特征进行特征分离,得到多个特征片段,每个特征片段对应全部说话人中的一个说话人,最后将多个特征片段聚类为多个参考声纹,每个参考声纹可以表征目标场景中出现过的一个待注册用户,后续在待注册用户再次在目标场
景中出现的情况下,可以使用参考声纹对待注册用户进行声纹注册,也就是说,声纹注册的过程无需待注册用户主动地去录入声纹,目标场景可以自动地聚类出多个参考声纹,依据多个参考声纹对待注册用户进行声纹注册。采用上述技术方案,解决了相关技术中,声纹的注册的便捷度较低等问题,实现了提高声纹注册的便捷度的技术效果。
附图说明
45.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本技术的实施例,并与说明书一起用于解释本技术的原理。
46.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
47.图1是根据本技术实施例的一种声纹的识别方法的硬件环境示意图;
48.图2是根据本技术实施例的一种声纹的识别方法的流程图;
49.图3是根据本技术实施例的一种声纹的识别的示意图;
50.图4是根据本技术实施例的一种声纹的识别过程的示意图;
51.图5是根据本技术实施例的一种声纹的识别装置的结构框图。
具体实施方式
52.为了使本技术领域的人员更好地理解本技术方案,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分的实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本技术保护的范围。
53.需要说明的是,本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
54.根据本技术实施例的一个方面,提供了一种声纹的识别方法。该声纹的识别方法。广泛应用于智慧家庭(smart home)、智能家居、智能家用设备生态、智慧住宅(intelligence house)生态等全屋智能数字化控制应用场景。可选地,在本实施例中,图1是根据本技术实施例的一种声纹的识别方法的硬件环境示意图,上述声纹的识别方法可以应用于如图1所示的由终端设备102和服务器104所构成的硬件环境中。如图1所示,服务器104通过网络与终端设备102进行连接,可用于为终端或终端上安装的客户端提供服务(如应用服务等),可在服务器上或独立于服务器设置数据库,用于为服务器104提供数据存储服务,可在服务器上或独立于服务器配置云计算和/或边缘计算服务,用于为服务器104提供数据运算服务。
55.上述网络可以包括但不限于以下至少之一:有线网络,无线网络。上述有线网络可以包括但不限于以下至少之一:广域网,城域网,局域网,上述无线网络可以包括但不限于以下至少之一:wifi(wireless fidelity,无线保真),蓝牙。终端设备102可以并不限定于为pc、手机、平板电脑、智能空调、智能烟机、智能冰箱、智能烤箱、智能炉灶、智能洗衣机、智能热水器、智能洗涤设备、智能洗碗机、智能投影设备、智能电视、智能晾衣架、智能窗帘、智能影音、智能插座、智能音响、智能音箱、智能新风设备、智能厨卫设备、智能卫浴设备、智能扫地机器人、智能擦窗机器人、智能拖地机器人、智能空气净化设备、智能蒸箱、智能微波炉、智能厨宝、智能净化器、智能饮水机、智能门锁等。
56.在本实施例中提供了一种声纹的识别方法,应用于上述设备终端,图2是根据本技术实施例的一种声纹的识别方法的流程图,如图2所示,该流程包括如下步骤:
57.步骤s202,对从目标场景中采集的语音文件中提取出的初始语音特征进行特征转换,得到目标语音特征,其中,所述语音文件用于记录在所述目标场景中出现的全部说话人所说出的语音,所述初始语音特征用于表征所述全部说话人的语音属性,所述目标语音特征用于表征所述全部说话人的语音属性中的目标关键属性,所述目标语音特征的特征维度小于所述初始语音特征的特征维度;
58.步骤s204,对所述目标语音特征进行特征分离,得到多个特征片段,其中,所述多个特征片段中的每个特征片段对应所述全部说话人中的一个说话人;
59.步骤s206,将所述多个特征片段聚类为多个参考声纹,其中,所述多个参考声纹中的每个参考声纹用于表征所述目标场景中出现过的一个待注册用户,所述参考声纹用于在所述待注册用户再次在所述目标场景中出现的情况下对所述待注册用户进行声纹注册。
60.通过上述步骤,首先从目标场景中采集的语音文件中提取出的初始语音特征进行特征转换,得到目标语音特征,由于语音文件记录了在目标场景中出现的全部说话人所说出的语音,因此初始语音特征可以表征全部说话人的语音属性,初始语音特征经过特转换之后得到的目标语音特征的特征维度小于初始语音特征的特征维度,也就是说,目标语音特征可以表征全部说话人的语音属性中的目标关键属性,之后可以对目标语音特征进行特征分离,得到多个特征片段,每个特征片段对应全部说话人中的一个说话人,最后将多个特征片段聚类为多个参考声纹,每个参考声纹可以表征目标场景中出现过的一个待注册用户,后续在待注册用户再次在目标场景中出现的情况下,可以使用参考声纹对待注册用户进行声纹注册,也就是说,声纹注册的过程无需待注册用户主动地去录入声纹,目标场景可以自动地聚类出多个参考声纹,依据多个参考声纹对待注册用户进行声纹注册。采用上述技术方案,解决了相关技术中,声纹的注册的便捷度较低等问题,实现了提高声纹注册的便捷度的技术效果。
61.在上述步骤s202提供的技术方案中,目标场景可以但不限于包括家庭场景、办公场景和教学场景等等,在目标场景中可能存在多个说话人,需要说明的是,本技术提出的声纹的识别方法可以在目标场景中的多个说话人无感知的情况下,对多个说话人各自的声纹进行识别和注册。
62.可选地,在本实施例中,语音文件可以但不限于包括目标场景中的多个说话人的语音数据、对话数据和设备控制指令数据等等。
63.在一个示例性实施例中,可以但不限于通过以下方式对从目标场景中采集的语音
文件中提取出的初始语音特征进行特征转换,得到目标语音特征:从所述语音文件所切分出的t帧音频数据中提取所述初始语音特征,其中,每一帧所述音频数据属于单个说话人,所述语音文件的信噪比参数大于目标信噪比阈值,并且所述语音文件的语音字数大于目标数量;对所述初始语音特征所包括的每个语音特征进行矩阵运算,得到放大语音特征,其中,所述放大语音特征的所述特征维度大于或者等于目标维度;将所述放大语音特征输入降维模型,得到所述降维模型输出的所述目标语音特征,其中,所述降维模型用于在对语音特征进行降维的同时提炼出语音特征中的关键属性。
64.可选地,在本实施例中,初始语音特征进行特征转换,得到目标语音特征可以但不限于预先进行维度的放大,得到放大语音特征,之后将放大语音特征输入降维模型,得到目标语音特征,图3是根据本技术实施例的一种声纹的识别的示意图,如图3所示,初始语音特征audio feature(x1,x2,...,x
t
)输入sa-eend(end-to-end neural speaker diarization with self-attention,基于self-attentive的端到端模型),得到sa-eend输出的放大语音特征,放大语音特征输入降维模型umap(uniform manifold approximation and projection,一致的流形逼近和投影以进行降维),得到umap输出的目标语音特征embeddings(e1,e2,...,e
t
)。
65.可选地,在本实施例中,umap对数据进行降维的核心思想可以但不限于为:首先umap可以使用nearest-neighbor-descent算法到最近的邻居,假设存在一个数据均匀分部的流型,这个目标流型是局部相连的;这表明数据之间的空间根据稀疏或密集的位置而拉伸或收缩;每个点至少连接到另一个点或可以设置连接数量的下限;对于数据集中每一个样本,计算局部模糊单纯集合;将所有局部模糊单纯集合拼接,并对图布局进行最优化;将高位拓扑表示嵌入到d维空间,限制每两个临近点的最小距离,以避免低维嵌入中许多点相互重叠。
66.可选地,在本实施例中,实现所述语音文件的信噪比参数大于目标信噪比阈值,并且所述语音文件的语音字数大于目标数量的方式可以但不限于如下:以家居场景为例,首先用户使用智能家居系统时,可以通过语音交互对智能设备进行控制,交互时的语音可以作为音频文件会在云端暂时保留;用户的每次交互,云端通过识别结果的字数及信噪比的评估,进行筛选;信噪比为负的(对应上述目标信噪比阈值)、识别字数少于4个字的,会通过云端删除该音频文件;当语音文件数量超过6句(对应上述目标数量)话后,将云端存储的音频文件确定为上述语音文件。
67.在一个示例性实施例中,可以但不限于通过以下方式从目标场景中采集的语音文件中提取出的初始语音特征进行特征转换,得到目标语音特征:对所述初始语音特征的特征维度进行放大,得到放大语音特征;根据所述放大语音特征确定参考特征维度,其中,所述参考特征维度用于保留所述放大语音特征中的关键属性;将所述放大语音特征降维至所述参考特征维度,得到所述目标语音特征。
68.可选地,在本实施例中,首先对初始语音特征的特征维度进行放大,得到放大语音特征,之后对放大语音特征进行降维的时候,可以根据放大语音特征确定参考特征维度,可以但不限于根据放大语音特征的特征维度调整参考特征维度的大小,保证参考特征维度可以保留所述放大语音特征中的关键属性。
69.在上述步骤s204提供的技术方案中,目标语音特征用于表征全部说话人的语音属
性中的目标关键属性,由于全部说话人中每一个说话人都具备各自的特征,因此对目标语音特征进行特征分离,得到多个特征片段,那么,每一个特征片段就可以对应一个全部说话人中的一个说话人。
70.在一个示例性实施例中,可以但不限于通过以下方式对所述目标语音特征进行特征分离,得到多个特征片段:对所述目标语音特征中上下文关联度大于目标关联度阈值的候选语音特征进行编码,得到目标编码数据,其中,所述目标编码数据用于表征所述目标语音特征的整体特征;根据所述目标编码数据预测所述目标语音特征对应的参考说话人特征,其中,所述参考说话人信息用于指示所述语音文件中存在的参考说话人的信息;根据所述参考说话人特征将所述目标语音特征进行特征分离,得到所述多个特征片段。
71.可选地,在本实施例中,对所述目标语音特征中上下文关联度大于目标关联度阈值的候选语音特征进行编码,得到目标编码数据的过程,可以但不限于如图3所示,目标语音特征embeddings(e1,e2,...,e
t
)输入至lstm encoder(long short-term memory encoder,长短期记忆网络编码层),lstm encoder可以对目标语音特征中上下文关联度大于目标关联度阈值的候选语音特征进行编码,得到lstm encoder输出的目标编码数据(h0和c0)。
72.在一个示例性实施例中,可以但不限于通过以下方式对所述目标语音特征中上下文关联度大于目标关联度阈值的候选语音特征进行编码,得到目标编码数据:提取所述目标语音特征对应的短期记忆数据和长期记忆数据,其中,所述短期记忆数据用于指示所述目标语音特征所包括的多个目标子语音特征之间的近期记忆,所述长期记忆数据用于指示所述多个目标子语音特征之间的远期记忆;根据所述短期记忆数据和所述长期记忆数据从所述目标语音特征中提取所述上下文关联度大于所述目标关联度阈值的数据,得到所述候选语音特征;对所述候选语音特征进行编码,得到所述目标编码数据。
73.可选地,在本实施例中,如图3所示,lstm encoder可以提取所述目标语音特征embeddings(e1,e2,...,e
t
)对应的短期记忆数据hidden state和长期记忆数据cell state,通过上述hidden state和cell state的传递,就可以保留重要的信息,剔除不重要的信息,进而从目标语音特征中提取所述上下文关联度大于目标关联度阈值的数据,得到目标编码数据(h0和c0)。
74.在一个示例性实施例中,可以但不限于通过以下方式根据所述目标编码数据预测所述目标语音特征对应的参考说话人特征:对所述目标编码数据进行解码,得到所述候选语音特征对应的多个吸引子向量;计算每个所述吸引子向量对应的目标概率值,其中,所述目标概率值用于指示每个所述吸引子向量存在一个说话人的概率;将使用所述目标概率值大于或者等于参考阈值的所述吸引子向量构建的向量矩阵确定为所述参考说话人特征。
75.可选地,在本实施例中,如图3所示,目标编码数据(h0和c0)传输至lstm decoder(long short-term memory decoder,长短期记忆网络解码层),由于lstm decoder没有初始输入,因此在lstm decoder下方添加零向量zero vectors(0,0,...,0,0)作为初始输入,得到lstm decoder输出的吸引子向量attractors(a1,a2,...,as,a
s+1
),计算每个吸引子向量对应的目标概率值attractor existence probabilies(p1,p2,...,ps,p
s+1
),其中,大于或者等于参考阈值的目标概率值可以打上标签labels 1,小于参考阈值的目标概率值可以打上标签labels 0,然后将目标概率值大于或者等于参考阈值的吸引子向量(a1,a2,...,as
)构建的向量矩阵。
76.在一个示例性实施例中,可以但不限于通过以下方式根据所述参考说话人特征将所述目标语音特征进行特征分离,得到所述多个特征片段:提取所述目标语音特征包括的多个目标子语音特征对应的短期记忆数据,其中,所述短期记忆数据用于指示所述多个目标子语音特征之间的近期记忆;根据所述短期记忆数据与所述向量矩阵的乘积匹配每个所述目标子语音特征对应的说话人标签;根据所述说话人标签将所述目标语音特征进行特征分离,得到多个特征片段。
77.可选地,在本实施例中,如图3所示,目标语音特征embeddings(e1,e2,...,e
t
)经过lstm encoder,得到lstm encoder向上输出的短期记忆数据hidden stat embedding,将短期记忆数据与上述向量矩阵依次相乘,然后根据经过sigmoid(激活函数)后,得到分类结果diarization result(分割结果);该结果与上述说话人标签labels(y1,y2,...,y
t
)做binary cross entropy loss(二元交叉熵损失)以及pit loss相结合的损失函数,得到多个特征片段。
78.在上述步骤s206提供的技术方案中,将所述多个特征片段聚类为多个参考声纹,例如:片段1(e1,e2),片段2(e3,e4)和片段3(e5,e6)分别可以聚类为参考声纹1,参考声纹2和参考声纹3。
79.在一个示例性实施例中,在所述将所述多个特征片段聚类为多个参考声纹之后,还可以但不限于包括以下方式对声纹进行注册:在从所述目标场景中再次采集到语音数据的情况下,将所述语音数据与一个或者多个所述参考声纹进行匹配;在所述语音数据与所述一个或者多个参考声纹中的目标声纹匹配一致的情况下,将所述语音数据对应的用户确定为所述待注册用户进行声纹注册;在所述语音数据与所述一个或者多个参考声纹均未匹配一致的情况下,将所述语音数据存储至所述语音文件。
80.可选地,在本实施例中,以上述参考声纹1,参考声纹2和参考声纹3作为一个或者多个所述参考声纹为例,当目标场景中再次采集到语音数据a的情况下,若语音数据a与参考声纹1,参考声纹2和参考声纹3中的参考声纹2匹配一致,则将语音数据a对应的用户确定为所述待注册用户进行声纹注册。
81.为了更好的理解上述声纹的识别方法,以下再结合可选实施例对上述声纹的识别方法的流程进行说明,但不用于限定本技术实施例的技术方案。
82.在本实施例中提供了一种声纹的识别方法,图4是根据本技术实施例的一种声纹的识别过程的示意图,如图4所示,主要包括如下步骤:
83.步骤s401:以家居场景为例,首先用户使用智能家居系统时,可以通过语音交互对智能设备进行控制,交互时的语音可以作为音频文件会在云端暂时保留;
84.步骤s402:用户的每次交互,云端通过识别结果的字数及信噪比的评估,进行筛选;信噪比为负的(对应上述目标信噪比阈值)、识别字数少于4个字的,会通过云端删除该音频文件;
85.步骤s403:当语音文件数量超过6句(对应上述目标数量)话后,将云端存储的音频文件确定为上述语音文件,分别调用说话人分离及聚类算法接口,判断是否聚类成功;
86.步骤s404:说话人分离的实现主要为:首先将每句音频,通过说话人分离算法生成每个音频的embedding结果;
87.步骤s405:聚类算法的实现主要为:将6句同时塞给聚类算法,使用umap降维算法降维至3维;
88.步骤s406:使用层次聚类算法将降维后的6个3维数据进行聚类;
89.步骤s407:当某一用户进行说话时,将该音频通过特征提取以及降维后,与上述已经聚类后的3维数据进行plda(probabilistic linear discriminant analysis,概率线性判别分析)打分计算;通过对plda打分阈值设定,高出阈值则为该说话人,否则为其他人;
90.步骤s408:当认为是该用户时,通过回复话术,“你好,***”,完成声纹识别的整个过程;
91.步骤s409:当认为不是该用户时,可将音频再次进行积累,即重复步骤s403至步骤s406。
92.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本技术各个实施例的方法。
93.图5是根据本技术实施例的一种声纹的识别装置的结构框图;如图5所示,包括:
94.提取模块502,用于对从目标场景中采集的语音文件中提取出的初始语音特征进行特征转换,得到目标语音特征,其中,所述语音文件用于记录在所述目标场景中出现的全部说话人所说出的语音,所述初始语音特征用于表征所述全部说话人的语音属性,所述目标语音特征用于表征所述全部说话人的语音属性中的目标关键属性,所述目标语音特征的特征维度小于所述初始语音特征的特征维度;
95.分离模块504,用于对所述目标语音特征进行特征分离,得到多个特征片段,其中,所述多个特征片段中的每个特征片段对应所述全部说话人中的一个说话人;
96.聚类模块506,用于将所述多个特征片段聚类为多个参考声纹,其中,所述多个参考声纹中的每个参考声纹用于表征所述目标场景中出现过的一个待注册用户,所述参考声纹用于在所述待注册用户再次在所述目标场景中出现的情况下对所述待注册用户进行声纹注册。
97.通过上述实施例,首先从目标场景中采集的语音文件中提取出的初始语音特征进行特征转换,得到目标语音特征,由于语音文件记录了在目标场景中出现的全部说话人所说出的语音,因此初始语音特征可以表征全部说话人的语音属性,初始语音特征经过特转换之后得到的目标语音特征的特征维度小于初始语音特征的特征维度,也就是说,目标语音特征可以表征全部说话人的语音属性中的目标关键属性,之后可以对目标语音特征进行特征分离,得到多个特征片段,每个特征片段对应全部说话人中的一个说话人,最后将多个特征片段聚类为多个参考声纹,每个参考声纹可以表征目标场景中出现过的一个待注册用户,后续在待注册用户再次在目标场景中出现的情况下,可以使用参考声纹对待注册用户进行声纹注册,也就是说,声纹注册的过程无需等待注册用户主动地去录入声纹,目标场景可以自动地聚类出多个参考声纹,依据多个参考声纹对待注册用户进行声纹注册。采用上述技术方案,解决了相关技术中,声纹的注册的便捷度较低等问题,实现了提高声纹注册的
便捷度的技术效果。
98.在一个示例性实施例中,所述分离模块,包括:
99.编码单元,用于对所述目标语音特征中上下文关联度大于目标关联度阈值的候选语音特征进行编码,得到目标编码数据,其中,所述目标编码数据用于表征所述目标语音特征的整体特征;
100.预测单元,用于根据所述目标编码数据预测所述目标语音特征对应的参考说话人特征,其中,所述参考说话人信息用于指示所述语音文件中存在的参考说话人的信息;
101.分离单元,用于根据所述参考说话人特征将所述目标语音特征进行特征分离,得到所述多个特征片段。
102.在一个示例性实施例中,所述编码单元,还用于:
103.提取所述目标语音特征对应的短期记忆数据和长期记忆数据,其中,所述短期记忆数据用于指示所述目标语音特征所包括的多个目标子语音特征之间的近期记忆,所述长期记忆数据用于指示所述多个目标子语音特征之间的远期记忆;
104.根据所述短期记忆数据和所述长期记忆数据从所述目标语音特征中提取所述上下文关联度大于所述目标关联度阈值的数据,得到所述候选语音特征;
105.对所述候选语音特征进行编码,得到所述目标编码数据。
106.在一个示例性实施例中,所述预测单元,还用于:
107.对所述目标编码数据进行解码,得到所述候选语音特征对应的多个吸引子向量;
108.计算每个所述吸引子向量对应的目标概率值,其中,所述目标概率值用于指示每个所述吸引子向量存在一个说话人的概率;
109.将使用所述目标概率值大于或者等于参考阈值的所述吸引子向量构建的向量矩阵确定为所述参考说话人特征。
110.在一个示例性实施例中,所述分离单元,还用于:
111.提取所述目标语音特征包括的多个目标子语音特征对应的短期记忆数据,其中,所述短期记忆数据用于指示所述多个目标子语音特征之间的近期记忆;
112.根据所述短期记忆数据与所述向量矩阵的乘积匹配每个所述目标子语音特征对应的说话人标签;
113.根据所述说话人标签将所述目标语音特征进行特征分离,得到多个特征片段。
114.在一个示例性实施例中,所述提取模块,包括:
115.提取单元,用于从所述语音文件所切分出的t帧音频数据中提取所述初始语音特征,其中,每一帧所述音频数据属于单个说话人,所述语音文件的信噪比参数大于目标信噪比阈值,并且所述语音文件的语音字数大于目标数量;
116.运算单元,用于对所述初始语音特征所包括的每个语音特征进行矩阵运算,得到放大语音特征,其中,所述放大语音特征的所述特征维度大于或者等于目标维度;
117.输入单元,用于将所述放大语音特征输入降维模型,得到所述降维模型输出的所述目标语音特征,其中,所述降维模型用于在对语音特征进行降维的同时提炼出语音特征中的关键属性。
118.在一个示例性实施例中,所述装置还包括:
119.匹配模块,用于在所述将所述多个特征片段聚类为多个参考声纹之后,在从所述
目标场景中再次采集到语音数据的情况下,将所述语音数据与一个或者多个所述参考声纹进行匹配;
120.确定模块,用于在所述语音数据与所述一个或者多个参考声纹中的目标声纹匹配一致的情况下,将所述语音数据对应的用户确定为所述待注册用户进行声纹注册;
121.存储模块,用于在所述语音数据与所述一个或者多个参考声纹均未匹配一致的情况下,将所述语音数据存储至所述语音文件。
122.在一个示例性实施例中,所述提取模块,还包括:
123.放大单元,用于对所述初始语音特征的特征维度进行放大,得到放大语音特征;
124.确定单元,用于根据所述放大语音特征确定参考特征维度,其中,所述参考特征维度用于保留所述放大语音特征中的关键属性;
125.降维单元,用于将所述放大语音特征降维至所述参考特征维度,得到所述目标语音特征。
126.本技术的实施例还提供了一种存储介质,该存储介质包括存储的程序,其中,上述程序运行时执行上述任一项的方法。
127.可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的程序代码:
128.s1,对从目标场景中采集的语音文件中提取出的初始语音特征进行特征转换,得到目标语音特征,其中,所述语音文件用于记录在所述目标场景中出现的全部说话人所说出的语音,所述初始语音特征用于表征所述全部说话人的语音属性,所述目标语音特征用于表征所述全部说话人的语音属性中的目标关键属性,所述目标语音特征的特征维度小于所述初始语音特征的特征维度;
129.s2,对所述目标语音特征进行特征分离,得到多个特征片段,其中,所述多个特征片段中的每个特征片段对应所述全部说话人中的一个说话人;
130.s3,将所述多个特征片段聚类为多个参考声纹,其中,所述多个参考声纹中的每个参考声纹用于表征所述目标场景中出现过的一个待注册用户,所述参考声纹用于在所述待注册用户再次在所述目标场景中出现的情况下对所述待注册用户进行声纹注册。
131.本技术的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
132.可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
133.可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
134.s1,对从目标场景中采集的语音文件中提取出的初始语音特征进行特征转换,得到目标语音特征,其中,所述语音文件用于记录在所述目标场景中出现的全部说话人所说出的语音,所述初始语音特征用于表征所述全部说话人的语音属性,所述目标语音特征用于表征所述全部说话人的语音属性中的目标关键属性,所述目标语音特征的特征维度小于所述初始语音特征的特征维度;
135.s2,对所述目标语音特征进行特征分离,得到多个特征片段,其中,所述多个特征片段中的每个特征片段对应所述全部说话人中的一个说话人;
136.s3,将所述多个特征片段聚类为多个参考声纹,其中,所述多个参考声纹中的每个参考声纹用于表征所述目标场景中出现过的一个待注册用户,所述参考声纹用于在所述待注册用户再次在所述目标场景中出现的情况下对所述待注册用户进行声纹注册。
137.可选地,在本实施例中,上述存储介质可以包括但不限于:u盘、只读存储器(read-only memory,简称为rom)、随机存取存储器(random access memory,简称为ram)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
138.可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
139.显然,本领域的技术人员应该明白,上述的本技术的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本技术不限制于任何特定的硬件和软件结合。
140.以上所述仅是本技术的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本技术原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本技术的保护范围。

技术特征:


1.一种声纹的识别方法,其特征在于,包括:对从目标场景中采集的语音文件中提取出的初始语音特征进行特征转换,得到目标语音特征,其中,所述语音文件用于记录在所述目标场景中出现的全部说话人所说出的语音,所述初始语音特征用于表征所述全部说话人的语音属性,所述目标语音特征用于表征所述全部说话人的语音属性中的目标关键属性,所述目标语音特征的特征维度小于所述初始语音特征的特征维度;对所述目标语音特征进行特征分离,得到多个特征片段,其中,所述多个特征片段中的每个特征片段对应所述全部说话人中的一个说话人;将所述多个特征片段聚类为多个参考声纹,其中,所述多个参考声纹中的每个参考声纹用于表征所述目标场景中出现过的一个待注册用户,所述参考声纹用于在所述待注册用户再次在所述目标场景中出现的情况下对所述待注册用户进行声纹注册。2.根据权利要求1所述的方法,其特征在于,所述对所述目标语音特征进行特征分离,得到多个特征片段,包括:对所述目标语音特征中上下文关联度大于目标关联度阈值的候选语音特征进行编码,得到目标编码数据,其中,所述目标编码数据用于表征所述目标语音特征的整体特征;根据所述目标编码数据预测所述目标语音特征对应的参考说话人特征,其中,所述参考说话人信息用于指示所述语音文件中存在的参考说话人的信息;根据所述参考说话人特征将所述目标语音特征进行特征分离,得到所述多个特征片段。3.根据权利要求2所述的方法,其特征在于,所述对所述目标语音特征中上下文关联度大于目标关联度阈值的候选语音特征进行编码,得到目标编码数据,包括:提取所述目标语音特征对应的短期记忆数据和长期记忆数据,其中,所述短期记忆数据用于指示所述目标语音特征所包括的多个目标子语音特征之间的近期记忆,所述长期记忆数据用于指示所述多个目标子语音特征之间的远期记忆;根据所述短期记忆数据和所述长期记忆数据从所述目标语音特征中提取所述上下文关联度大于所述目标关联度阈值的数据,得到所述候选语音特征;对所述候选语音特征进行编码,得到所述目标编码数据。4.根据权利要求2所述的方法,其特征在于,所述根据所述目标编码数据预测所述目标语音特征对应的参考说话人特征,包括:对所述目标编码数据进行解码,得到所述候选语音特征对应的多个吸引子向量;计算每个所述吸引子向量对应的目标概率值,其中,所述目标概率值用于指示每个所述吸引子向量存在一个说话人的概率;将使用所述目标概率值大于或者等于参考阈值的所述吸引子向量构建的向量矩阵确定为所述参考说话人特征。5.根据权利要求4所述的方法,其特征在于,所述根据所述参考说话人特征将所述目标语音特征进行特征分离,得到所述多个特征片段,包括:提取所述目标语音特征包括的多个目标子语音特征对应的短期记忆数据,其中,所述短期记忆数据用于指示所述多个目标子语音特征之间的近期记忆;根据所述短期记忆数据与所述向量矩阵的乘积匹配每个所述目标子语音特征对应的
说话人标签;根据所述说话人标签将所述目标语音特征进行特征分离,得到多个特征片段。6.根据权利要求1所述的方法,其特征在于,所述对从目标场景中采集的语音文件中提取出的初始语音特征进行特征转换,得到目标语音特征,包括:从所述语音文件所切分出的t帧音频数据中提取所述初始语音特征,其中,每一帧所述音频数据属于单个说话人,所述语音文件的信噪比参数大于目标信噪比阈值,并且所述语音文件的语音字数大于目标数量;对所述初始语音特征所包括的每个语音特征进行矩阵运算,得到放大语音特征,其中,所述放大语音特征的所述特征维度大于或者等于目标维度;将所述放大语音特征输入降维模型,得到所述降维模型输出的所述目标语音特征,其中,所述降维模型用于在对语音特征进行降维的同时提炼出语音特征中的关键属性。7.根据权利要求1所述的方法,其特征在于,所述在所述将所述多个特征片段聚类为多个参考声纹之后,所述方法还包括:在从所述目标场景中再次采集到语音数据的情况下,将所述语音数据与一个或者多个所述参考声纹进行匹配;在所述语音数据与所述一个或者多个参考声纹中的目标声纹匹配一致的情况下,将所述语音数据对应的用户确定为所述待注册用户进行声纹注册;在所述语音数据与所述一个或者多个参考声纹均未匹配一致的情况下,将所述语音数据存储至所述语音文件。8.根据权利要求1所述的方法,其特征在于,所述对从目标场景中采集的语音文件中提取出的初始语音特征进行特征转换,得到目标语音特征,还包括:对所述初始语音特征的特征维度进行放大,得到放大语音特征;根据所述放大语音特征确定参考特征维度,其中,所述参考特征维度用于保留所述放大语音特征中的关键属性;将所述放大语音特征降维至所述参考特征维度,得到所述目标语音特征。9.一种计算机可读的存储介质,其特征在于,所述计算机可读的存储介质包括存储的程序,其中,所述程序运行时执行权利要求1至8中任一项所述的方法。10.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行权利要求1至8中任一项所述的方法。

技术总结


本申请公开了一种声纹的识别方法、存储介质及电子装置,涉及智慧家庭技术领域,该声纹的识别方法包括:对从目标场景中采集的语音文件中提取出的初始语音特征进行特征转换,得到目标语音特征;对目标语音特征进行特征分离,得到多个特征片段,其中,多个特征片段中的每个特征片段对应全部说话人中的一个说话人;将多个特征片段聚类为多个参考声纹,其中,多个参考声纹中的每个参考声纹用于表征目标场景中出现过的一个待注册用户,参考声纹用于在待注册用户再次在目标场景中出现的情况下对待注册用户进行声纹注册,采用上述技术方案,解决了相关技术中,声纹的注册的便捷度较低等问题。题。题。


技术研发人员:

王祖悦

受保护的技术使用者:

青岛海尔科技有限公司 海尔智家股份有限公司

技术研发日:

2022.09.29

技术公布日:

2023/2/3

本文发布于:2024-09-22 16:46:32,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/60920.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:所述   特征   语音   目标
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议