一种获取音频注册信息的方法、装置及电子设备与流程



1.本公开涉及语音识别技术领域,尤其涉及一种获取音频注册信息的方法、装置及电子设备。


背景技术:



2.说话人识别,又称为声纹识别,由于每一个说话人的声音都具有独特的特征,所以能够通过该特征能将不同说话人的声音进行有效的识别和区分,其具有不会遗失和忘记、不需记忆、使用方便等优势,广泛应用于安全验证、控制等各方面。现有技术在用户进行注册时提供用于识别的文本,由用户主动朗读该文本来得到用户的注册音频,然后从这段注册音频中提取用户的声纹信息作为该用户的注册声纹并存储于声纹库中,以用于说话人识别;但通过这种方式需要花费用户额外的时间朗读固定的文本,且用户朗读该固定文本的发音习惯、语速可能与正常沟通时的发音习惯、语速存在差异,从而导致提取出的声纹信息不准确,影响了说话人识别的准确度。


技术实现要素:



3.为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种获取音频注册信息的方法、装置及电子设备,可以解决现有技术给用户音频注册带来不便且音频注册信息精度不高的问题。
4.为了实现上述目的,本公开实施例提供的技术方案如下:
5.第一方面,提供一种获取音频注册信息的方法,该方法包括:
6.从会议音频中获取同一用户的多个第一音频片段
7.对多个第一音频片段进行人声检测,从多个第一音频片段中获取人声音频片段;
8.根据人声音频片段获取第一数字化标记,将第一数字化标记注册为第一用户的音频注册信息。
9.作为本公开实施例一种可选的实施方式,对多个第一音频片段进行人声检测,从多个第一音频片段中获取人声音频片段,包括:
10.将多个第一音频片段拼接为组合音频段,对组合音频段进行人声检测,以获取人声音频片段;
11.或,
12.针对多个第一音频片段中每个第一音频片段进行人声检测,以获取多个人声片段,将多个人声片段拼接为人声音频片段。
13.作为本公开实施例一种可选的实施方式,根据人声音频片段获取第一数字化标记,包括:
14.将人声音频片段分割为若干人声音频子片段;
15.提取若干人声音频子片段中每个人声音频子片段的音频特征信息,根据每个人声音频子片段的音频特征信息进行音频聚类,得到多个聚类人声片段;
16.从多个聚类人声片段中,确定时长最长的目标聚类人声片段;
17.获取目标聚类人声片段的第一数字化标记。
18.作为本公开实施例一种可选的实施方式,获取目标聚类人声片段的第一数字化标记,包括:
19.从目标聚类人声片段中获取预设时长的目标音频片段;
20.获取目标音频片段的第一数字化标记。
21.作为本公开实施例一种可选的实施方式,根据人声音频片段获取第一数字化标记,包括:
22.提取人声音频片段的第二数字化标记;
23.获取至少一个历史音频片段;
24.从至少一个历史音频片段中提取数字化标记,以得到至少一个第三数字化标记,至少一个历史音频片段为分别从至少一个历史会议音频中获取的第一用户的音频片段;
25.根据第二数字化标记和第三数字化标记,确定第一数字化标记。
26.作为本公开实施例一种可选的实施方式,根据人声音频片段获取第一数字化标记,包括:
27.提取人声音频片段的第二数字化标记;
28.根据第二数字化标记和已保存的第三数字化标记,确定第一数字化标记,已保存的第三数字化标记为第一用户的历史音频注册信息。
29.作为本公开实施例一种可选的实施方式,从会议音频中获取同一用户的多个第一音频片段,包括:
30.获取会议音频对应的会议记录,并显示会议记录;会议记录中包括:关联展示的多个用户身份标识与基于会议音频的多个音频片段生成的会议字幕;
31.响应于针对目标用户身份标识的选择操作,从会议音频的多个音频片段中,获取与目标用户身份标识关联的多个第一音频片段,作为同一用户的多个第一音频片段,目标用户身份标识为多个用户身份标识中的任意一个用户身份标识。
32.第二方面,提供一种获取音频注册信息的装置,该装置包括:
33.获取模块,用于从会议音频中获取同一用户的多个第一音频片段;
34.检测模块,用于对多个第一音频片段进行人声检测,从多个第一音频片段中获取人声音频片段;
35.注册模块,用于根据人声音频片段获取第一数字化标记,将第一数字化标记注册为第一用户的音频注册信息。
36.作为本公开实施例一种可选的实施方式,检测模块,具体用于将多个第一音频片段拼接为组合音频段,对组合音频段进行人声检测,以获取人声音频片段;
37.或,
38.针对多个第一音频片段中每个第一音频片段进行人声检测,以获取多个人声片段,将多个人声片段拼接为人声音频片段。
39.作为本公开实施例一种可选的实施方式,注册模块,具体用于将人声音频片段分割为若干人声音频子片段;
40.提取若干人声音频子片段中每个人声音频子片段的音频特征信息,根据每个人声
音频子片段的音频特征信息进行音频聚类,得到多个聚类人声片段,;
41.从多个聚类人声片段中,确定时长最长的目标聚类人声片段;
42.获取目标聚类人声片段的第一数字化标记。
43.作为本公开实施例一种可选的实施方式,注册模块,具体用于从目标聚类人声片段中获取预设时长的目标音频片段;
44.获取目标音频片段的第一数字化标记。
45.作为本公开实施例一种可选的实施方式,注册模块,具体用于提取人声音频片段的第二数字化标记;
46.获取至少一个历史音频片段;
47.从所述至少一个历史音频片段中提取的数字化标记,以得到至少一个第三数字化标记,至少一个历史音频片段为分别从至少一个历史会议音频中获取的第一用户的音频片段;
48.根据第二数字化标记和第三数字化标记,确定第一数字化标记。
49.作为本公开实施例一种可选的实施方式,注册模块,具体用于提取人声音频片段的第二数字化标记;
50.根据第二数字化标记和已保存的第三数字化标记,确定得到第一数字化标记,已保存的第三数字化标记为第一用户的历史音频注册信息。
51.作为本公开实施例一种可选的实施方式,获取模块,具体用于获取会议音频对应的会议记录,并显示会议记录;会议记录中包括:关联展示的多个用户身份标识与基于会议音频的多个音频片段生成的会议字幕;
52.响应于针对目标用户身份标识的选择操作,从会议音频的多个音频片段中,获取与目标用户身份标识关联的多个第一音频片段,作为同一用户的多个第一音频片段,目标用户身份标识为多个用户身份标识中的任意一个用户身份标识。
53.第三方面,提供一种电子设备,包括:处理器、存储器及存储在存储器上并可在处理器上运行的计算机程序,计算机程序被处理器执行时实现如第一方面或其任意一种可选的实施方式的获取音频注册信息的方法。
54.第四方面,提供一种计算机可读存储介质,包括:计算机可读存储介质上存储计算机程序,计算机程序被处理器执行时实现如第一方面或其任意一种可选的实施方式的获取音频注册信息的方法。
55.第五方面,提供一种计算机程序产品,其特征在于,包括:当计算机程序产品在计算机上运行时,使得计算机实现如第一方面或其任意一种可选的实施方式的获取音频注册信息的方法。
56.本公开实施例提供的技术方案与现有技术相比具有如下优点:
57.本公开通过从会议音频中获取用户的音频片段,再进行人声检测获取该用户的人声音频片段,然后从该人声音频片段中获取数字化标记,以注册为该用户的音频注册信息,实现了在用户正常说话开会的场景中,无需用户重复朗读规定文本并按照固定流程进行注册,一方面提高了用户进行音频注册的便捷性,另一方面,避免了注册时的音频特征信息与用户正常说话情况下的音频特征信息之间存在差异,提高了声纹识别的准确度以及应用场景适应性。
附图说明
58.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
59.为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
60.图1为本公开实施例提供的获取音频注册信息的方法的实现场景示意图;
61.图2为本公开实施例提供的获取音频注册信息的方法的流程示意图一;
62.图3为本公开实施例提供的一种显示会议记录的页面示意图;
63.图4a为本公开实施例所述获取音频注册信息的方法的流程示意图二;
64.图4b为本公开实施例所述获取音频注册信息的方法的流程示意图三;
65.图5为本公开实施例所述获取音频注册信息的装置的结构图;
66.图6为本公开实施例所述电子设备的结构图。
具体实施方式
67.为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。
68.在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。
69.目前,音频注册为按照固定流程进行注册,例如近场设备进行音频注册时,在手机端应用程序上设置,根据手机上的提示要求,按照步骤进行操作,在注册的过程中重复读取移动终端上提供的规定文本。远场的智能设备进行音频注册时,首先由用户发起命令,智能设备收到命令后,开启注册模式,也需要用户根据提示重复读取规定文本以完成注册。可见,现有的音频注册都是需要花费用户额外的时间朗读规定的文本,交互成本较高,且用户朗读该规定文本的发音习惯、语速可能与正常沟通时的发音习惯、语速存在差异,从而导致根据音频注册过程中提取出的声纹信息不准确,影响了说话人识别的准确度。
70.为了解决上述问题,本公开实施例提供了一种获取音频注册信息的方法,可以在说话人正常沟通的场景中,例如会议场景,获取用户的音频片段,然后进行人声检测,以获取用户的人声音频片段,减少了噪音造成的影响;进一步的,从人声片段中获取用户数字化标记以注册为音频注册信息,从而减少用户音频注册的繁琐流程,无需用户花费额外的时间朗读规定文本,提升了用户的体验感,并且使用正常沟通场景下获取的音频提取注册信息用于声纹识别,提高了声纹识别的准确度以及应用场景适应性。
71.可以理解的是,在使用本公开各实施例公开的技术方案之前,或者在使用本公开实施例公开的技术方案过程中,均应当依据相关法律法规通过恰当的方式对本公开所涉及个人信息(例如,用户信息,以及音频的数字化标记等信息)的类型、使用范围、使用场景等告知用户并获得用户的授权。
72.例如,在本公开实施例中,涉及到多个第一音频片段的获取,以及数字化标记的获
取,在实际应用中,在获取多个第一音频片段,以及获取数字化标记之前,可以先申请用户授权允许开启说话人识别功能,获取用户音频对应的数字化标记。
73.又例如,在本公开实施例中,涉及到获取用户信息的步骤之前,可以先向用户授权允许获取用户信息,在用户允许获取用户信息之后,再去获取。
74.又例如,可以在响应于接收到用户的主动请求去请求执行某一操作时,向用户发送提示信息,以明确地提示用户,其请求执行的操作将需要获取和使用到用户的个人信息。从而,使得用户可以根据提示信息来自主地选择是否向执行本公开技术方案的操作的电子设备、应用程序、服务器或存储介质等软件或硬件提供个人信息。
75.作为一种可选的但非限定性的实现方式,响应于接收到用户的主动请求,向用户发送提示信息的方式例如可以是弹窗的方式,弹窗中可以以文字的方式呈现提示信息。此外,弹窗中还可以承载供用户选择“同意”或者“不同意”向电子设备提供个人信息的选择控件。
76.可以理解的是,上述通知和获取用户授权过程仅是示意性的,不对本公开的实现方式构成限定,其它满足相关法律法规的方式也可应用于本公开的实现方式中。
77.如图1所示,图1为本公开实施例提供的获取音频注册信息的方法的实现场景示意图,该场景中涉及到服务器101和3个终端设备,分别为终端设备102、终端设备103和终端设备104,3用户分别为用户a、用户b和用户c,用户a采用终端设备102、用户b采用终端设备103、用户c采用终端设备104进行线上会议,其中,用户a使用的终端设备102对会议音频进行录制,并发送给服务器101,服务器101通过本公开实施例提供的方法,针对会议音频获取用户a的音频注册信息,并将音频注册信息发回给终端设备102。
78.在图1所示的场景中,终端设备102将录制的会议音频发送至服务器101,服务器101首先根据会议音频中不同的音频信号将会议音频分成多个音频片段,以将用户a、用户b和用户c的音频片段进行区分,需要说明的是,每个用户具有特定性,相应的,每个用户在会议音频的音频信号具有特定性,服务器101根据每个用户对应的音频信号不同将会议音频进行区分,可选的,服务器101可根据音频信号库中存储的音频信号与用户的对应关系,将区分后的音频信号关联至对应的用户。
79.可选的,本公开实施例中提供的一种获取音频注册信息的方法,可以为通过电子设备实现,在具体应用中,该电子设备可以为服务器,或者,该电子设备也可以为终端设备。当该电子设备为服务器时,执行方法的执行主体具体可以为运行于服务器中的、与具有语音交互功能的信息交互端对应的服务端程序。当该电子设备为终端设备时,执行方法的执行主体可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、便携式可穿戴设备以及具有语音交互功能的信息交互端。在具体应用中,该信息交互端可以为具有语音交互功能的智能交互设备,例如,智能机器人、智能家电产品等;或者,该信息交互端可以为具有语音交互功能的客户端,例如,视频客户端、教育学习客户端等。另外,可以理解的是,该客户端可以为网页类型的客户端,或者,app(application)类型的客户端,这都是合理的。
80.为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的技术名词作简单地介绍。
81.说话人识别(speaker recognition,sr)属于生物特征识别技术,是通过计算机利
用人体所固有的生理特征或行为特征来进行个人身份鉴定。它也称声纹识别(voiceprint recognition,vpr),是通过对收到的说话人语音信号进行分析和提取,自动地确定说话人是否在所建立的说话人集合里面,并确定说话人是谁的过程。
82.聚类(clustering)是按照某个特定标准把一个数据集分割成不同的类或簇,使得同一个簇内的数据对象的相似性尽可能大,同时不在同一个簇中的数据对象的差异性也尽可能地大。
83.如图2所示,图2为本公开实施例提供的获取音频注册信息的方法的流程示意图一,该方法包括步骤s201~s203:
84.s201、从会议音频中获取同一用户的多个第一音频片段。
85.其中,会议音频是至少一个用户在会议场景中正常说话的情况下录制的音频,其中包含至少一个用户的音频片段。音频片段包括人声音频片段和噪声片段,其中噪声片段包括但不限于静音片段、环境噪声、白噪声,例如噪声片段中包括空白音频、设备录制过程产生的电子噪声。
86.在一些实施例中,根据会议音频中每个用户声纹特征的不同,将每个用户的音频片段进行区分。其中,声纹特征为携带言语信息的声波频谱特征,且声纹特征具有特定性和相对稳定性,即不同用户的声纹特征具有特定性,同一用户的声纹特征具有相对稳定性。所以可以通过提取声纹特征,利用该声纹特征进行用户区分,以确定同一用户对应的音频片段,需要说明的是,获取用户的声纹特征需要用户的授权。
87.在一些实施例中,在根据不同用户的声纹特征进行用户区分后,确定同一用户对应的音频片段,同一用户为至少一个用户中的任一用户。从而确定会议场景中参加会议的各个用户所对应的音频片段,便于针对各个用户都能够得到各自对应的音频注册信息。
88.在一些实施例中,在从会议音频中获取同一用户的多个第一音频片段的过程中,首先获取会议音频对应的会议记录,并显示会议记录。其中,会议记录中包括:关联展示的多个用户身份标识与基于所述会议音频的多个音频片段生成的会议字幕。由于通常在一些会议开始前,事先制定该会议对应的会议日程以通知会议的参会人,该会议日程中通常包括有参会人信息,也就是多个用户的相关信息。用户的相关信息可以是用户身份标识,例如用户名等。本公开实施例中提供一种实施方式,根据会议日程中的用户身份标识标记音频片段和/或会议字幕,以生成会议音频对应的会议记录并显示。因此针对这至少一个参加会议的用户均可以执行上述处理步骤,可以实现针对每个参加会议的用户的音频片段和/或会议字幕,标注对应用户的用户身份标识,这样得到的会议记录可以显示用户的音频片段和/或会议字幕的同时,显示关联的用户身份标识。方便用户在会议结束后查询会议音频对应的会议记录时,可以获知记录的会议字幕是哪些用户的,从而可以使得会议记录的标注效果更加清晰,人机交互性能更好。
89.示例性的,如图3所示,图3为本公开实施例提供的一种显示会议记录的页面示意图,该页面中显示有会议视频画面,并且显示有会议对应的文字记录(即文本内容),并且针对每个用户对应会议字幕均标记有该用户的头像和用户名,从图3中可以看出文字记录中示出了两个用户对应的会议字幕、头像和用户名,包括:用户名为“小a”的用户,“小a”在会议中发言的会议字幕以及小a的头像;用户名为“小b”的用户,以及“小b”在会议中发言的会议字幕,以及小b的头像。
90.进一步,响应于针对目标用户身份标识的选择操作,从所述会议音频的多个音频片段中,获取与所述目标用户身份标识关联的多个第一音频片段,作为同一用户的多个第一音频片段,其中,目标用户身份标识为所述多个用户身份标识中的任意一个用户身份标识。
91.示例性的,沿用上例,响应于用户针对“小a”这一用户身份标识的选择操作,将“小a”作为目标用户身份标识,从会议音频的多个音频片段中,获取“小a”的多个第一音频片段,以得到同一用户的多个第一音频片段。
92.可以理解的是,当编辑者将某一个或某几个第一音频片段与“小a”的身份进行绑定后,本公开实施例的执行主体或与执行主体关联的电子设备可以向“小a”发送通知消息,以告知对其身份和某些音频片段执行了绑定操作。“小a”可以通过通知消息查看该会议的内容,以确定上述编辑者的绑定操作是否有误。若绑定有误,“小a”可以通过某种方式重新编辑或者告知上述编辑者修改绑定结果,从而避免误操作带来的不良后果。
93.在确定同一用户对应的音频片段的过程中,由于该用户说话过程中存在出现停顿或者多个用户交替说话情况,导致该用户的音频不连续,为了提高说话人识别的准确度,需要从会议音频中获取同一用户的多个音频片段,以作为用户完整的音频用于提取人声音频片段。
94.s202、对多个第一音频片段进行人声检测,从多个第一音频片段中获取人声音频片段。
95.其中,人声检测(voice activity detection,vad)用于从第一音频片段中识别和消除长时间的静音片段,人声检测方法包括但不限于:利用带有人声辨识(speechsense)算法的自动增益控制(automatic gain control,agc)进行人声检测,利用语音端点检测器进行人声检测。
96.其中,语音端点检测器用于在噪声环境中检测是否存在人声的语音数据。下述将以利用语音端点检测器进行人声检测为例说明本公开实施例中对多个第一音频片段进行人声检测的过程:
97.针对输入语音端点检测器的每一帧语音信号,语音端点检测器根据第一音频片段中语音信号是语音帧或噪音帧的概率,进行打分,当语音帧的打分值大于预先设定的判决门限,则判定为语音帧,否则为噪音帧。语音端点检测器根据上述判决结果对语音帧和噪音帧进行区分,以便去除第一音频片段中的噪音帧。其中,本实施例的判决门限采用了网页即时通信(web real-time communication,webrtc)源代码中默认的判决门限,该判决门限是webrtc技术开发时通过分析大量数据得来的,以提高区分的效果和准确度,并同时减少语音端点检测器的模型训练工作量。
98.在一些实施例中,对多个第一音频片段进行人声检测时,可以首先将多个第一音频片段拼接为组合音频段,然后对组合音频段进行人声检测,以从该组合音频片段中获取第一用户的人声音频片段。
99.示例性的,从会议音频中获取的第一用户的多个第一音频片段为音频片段a1、音频片段a2、音频片段a3,将上述音频片段拼接为组合音频段a,对组合音频段a进行人声检测,获取人声音频片段b。
100.在另一些实施例中,对多个第一音频片段进行人声检测时,可以针对多个第一音
频片段中每个第一音频片段进行人声检测,以获取到多个人声片段,然后将多个人声片段拼接为人声音频片段。
101.示例性的,从会议音频中获取的第一用户的多个第一音频片段为音频片段a1、音频片段a2、音频片段a3,针对上述每个音频片段进行人声检测,获取到各个音频片段中的人声音频片段为b1、b2、b3,然后将人声音频片段b1、b2、b3进行拼接,确定为人声音频片段b。
102.在一些实施例中,在对多个第一音频片段进行人声检测之前,还可以对第一音频片段进行降噪处理,降噪方法包括但不限于:自适应(least mean square,lms)滤波器、自适应陷波器、基本谱减法、维纳滤波器等,本公开对降噪方法不做限定。
103.上述实施例,通过先人声检测再拼接或者先拼接再人声检测的方法,将会议场景下用户所处环境中的静音片段以及背景噪音去除,降低音频片段中的噪音数据对声纹识别效果的影响,获取第一用户的人声音频片段,提高了人声检测的精确度,便于后续获取第一用户的数字化标记,从而提高声纹识别成功率。
104.s203、根据人声音频片段获取第一数字化标记,将第一数字化标记注册为第一用户的音频注册信息。
105.其中,第一数字化标记为携带言语信息的声波频谱,是第一用户进行音频注册的音频注册信息,用于区分和标识用户声音,第一数字化标记可以是声纹特征。
106.在一些实施例中,在获取人声音频片段后,由于该人声音频片段中可能夹杂除第一用户之外其他用户的人声音频,在从会议音频进行用户区分的基础上,为提高获取音频注册信息的有效性、针对性以及时效性,以及保证用户声音特征提取的准确性,进一步的,针对获取到的该人声音频片段,根据至少一个用户的不同的声音特征将该人声音频片段进行区分并分割,分割后得到若干人声音频子片段,然后需要从若干人声音频子片段中提取每个人声音频子片段的音频特征信息,音频特征信息用于区分每个用户的人声音频片段。
107.其中,上述的音频特征信息可以是梅尔频率倒谱系数(mel frequency cepstral coefficient,mfcc)、感知线性预测(perceptual linear prediction,plp)、滤波器组(filter banks,fbank)等短时频谱特征,也可以是身份认证向量(identity-vector,i-vector)等基于时延神经网络(time delay neural networks,tdnn)提取的特征等。
108.在从若干人声音频子片段中提取每个人声音频子片段的音频特征信息之后,根据人声音频子片段的音频特征信息进行音频聚类。在音频聚类过程中,以特征信息之间的相似度作为聚类依据采用各种聚类算法实现。其中,聚类算法可以包括:基于距离的聚类算法或者基于密度的聚类算法等,本公开对此不做具体限定。例如,可以采用spectral clustering聚类算法、k-means(k均值)聚类、均值漂移聚类、用高斯混合模型(gmm,gaussian mixed model)的最大期望(em,expectation-maximization)聚类、凝聚层次聚类、图团体检测(graph community detection)等。
109.在一些实施例中,应用任意一种计算特征信息之间的相似度的方式进行音频聚类,示例性的,可以比对音频特征信息的特征序列,利用特征序列间的相似度,从而计算出音频特征信息之间的相似度,或者,可以将音频特征信息矢量化处理,计算矢量化处理后的音频特征信息之间的距离,并将声纹特征间距离的倒数作为声纹特征的相似度。当然方法并不局限于此,本公开对此不做限定。
110.在一些实施例中,取人声音频子片段的音频特征信息中预定数量的音频特征信
息,计算预定数量的音频特征信息两两之间的相似度,若两个音频特征信息的相似度大于相似度最大阈值,则将该两个声纹特征聚为一类,直至预定数量内的每一音频特征信息,与其所在的聚类类别内的各个音频特征信息相似度均大于相似度最大阈值。
111.示例性的,设置相似度最小阈值为0.50、相似度最大阈值0.85和预定数量10,当提取到人声音频子片段的音频特征信息后,触发根据音频特征信息进行聚类,选取提取到人声音频子片段的音频特征信息中10个特征信息,计算该音频特征信息两两之间的相似度,若相似度大于0.85,则将两个音频特征信息聚为一类,直至选取的10个音频特征信息中的每一音频特征信息,与其所在的聚类类别内的各个音频特征信息相似度均大于0.85。
112.在音频聚类之后,得到多个聚类人声片段,每个聚类人声片段为同一用户的人声片段。由于需要对同一用户的音频信息进行注册,所以人声音频片段中该用户对应的音频片段的占比最大,可以确定聚类人声音频片段中音频片段时长最长的为该用户的聚类人声音频片段。从多个聚类人声片段中,确定时长最长的目标聚类人声片段,然后获取该目标聚类人声片段的第一数字化标记。
113.在一些实施例中,在确定时长最长的目标聚类人声片段作为同一用户的聚类人声片段之后,通常情况下用户使用较短时长的音频注册信息用于音频注册就能够保证后续音频识别的准确度,所以用户可以预先设置用于音频注册的聚类人声片段的时长,以从该目标聚类人声片段中获取预设时长的目标音频片段,然后获取该目标音频片段中的第一数字化标记。
114.示例性的,用户可以预先设置用于音频注册的音频时长为60s,在确定该用户的聚类人声音频片段之后,从该聚类人声音频片段中提取60s的音频,然后获取这60s音频中的该用户的音频注册信息。
115.进一步的,将第一用户的第一数字化标记存储与声纹库中。
116.如图4a所示,图4a为本公开实施例所述获取音频注册信息的方法的流程示意图二。本实施例是在上述实施例的基础上进一步扩展与优化,其中,s203的一种可能的实现方式如下步骤s203a~s203d:
117.s203a、提取人声音频片段的第二数字化标记。
118.在一些实施例中,在对人声音频片段进行聚类处理之后,从聚类处理得到的多个用户的聚类人声片段中,获取第一用户的数字化标记作为第二数字化标记。
119.s203b、获取至少一个历史音频片段。
120.其中,至少一个历史音频片段为分别从至少一个历史会议音频中获取的第一用户的音频片段。
121.s203c、从至少一个历史音频片段中提取数字化标记,以得到至少一个第三数字化标记。
122.在一些实施例中,在提取人声音频片段的第二数字化标记之后,首先获取至少一个历史会议音频片段,从中获取第一用户的多个历史音频片段,然后对该多个历史音频片段进行人声检测得到历史人声音频片段,再从历史人声音频片段中获取第三数字化标记,上述获取第三数字化标记的过程与获取第一数字化标记的过程相同,在此不做赘述。需要说明的是,通过上述步骤可同时获取到多个第三数字化标记。
123.s3203c、根据第二数字化标记和第三数字化标记,计算第一数字化标记,将第一数
字化标记作为第一用户的音频注册信息。
124.在获取人声音频片段的第二数字化标记和历史音频片段的第三数字化标记之后,将第二数字化标记和第三数字化标记进行矢量化处理,得到第二数字化标记向量和第三数字化标记向量,并进行平均以确定第一数字化标记,作为用户的音频注册信息。
125.示例性的,获取5个历史会议音频片段然后从得到第一用户的数字化标记,再将当前处理获得的数字化标记以及这5个数字化标记,进行向量化处理,得到6个数字化标记向量,并进行平均,得到数字化标记向量的平均值,进一步得到数字化标记的平均值,将该平均值作为第一用户的第一数字化标记,可以通过上述方式在获取用户数字化标记的过程中结合历史数字化标记进行更新,以使得提升用户的第一数字化标记的精确度。
126.s203d,根据第二数字化标记和第三数字化标记,确定第一数字化标记。
127.进一步,将第一数字化标记注册为第一用户的音频注册信息。
128.如图4b所示,图4b为本公开实施例所述获取音频注册信息的方法的流程示意图三,上述s203b~s203d可以替换为s2031。
129.s2031、根据第二数字化标记和已保存的第三数字化标记,确定第一数字化标记。
130.其中,已保存的第三数字化标记为第一用户的历史音频注册信息。
131.在一些实施例中,为保证用户音频注册信息的准确性,以便于用户后续根据音频注册信息进行声纹识别,可以获取声纹库中该用户对应的历史音频片段的数字化标记,直接使用声纹库中保存的用户的历史音频注册信息,无需再对历史会议音频进行处理,减少了繁琐的操作流程。从声纹库中获取已保存的第三数字化标记,然后根据获取到的人声音频片段中的第二数字化标记,利用第二数字化标记与已保存的第三数字化标记计算第一数字化标记,计算过程中,将第二数字化标记与已保存的第三数字化标记进行矢量化处理并平均,最终得到第一数字化标记,确定为用户的音频注册信息,用于后续用户根据该第一数字化标记进行声纹识别。需要说明的是,针对已保存的第三数字化标记的数量本公开对此不做限定,示例性的,根据第二数字化标记和5个已保存的第三数字化标记计算得到第一数字化标记,将第一数字化标记确定为最新的第一用户的音频注册信息。
132.上述实施例,通过从历史会议音频中确定数字化标记或者根据已保存的数字化标记计算第一用户的数字化标记,以根据多个数据结合计算确定用户的音频注册信息,提高了音频注册信息的匹配度,便于用户进行声纹注册。综上所述,通过从会议音频中获取用户的音频片段,再进行人声检测获取该用户的人声音频片段,然后从该人声音频片段中获取数字化标记,以作为该用户的音频注册信息,实现了在用户正常说话开会的场景中,无需用户重复朗读规定文本并按照固定流程进行注册,一方面提高了用户进行音频注册的便捷性,另一方面,避免了注册时的声纹特征与用户正常说话情况下的声纹特征之间存在差异,提高了声纹识别的准确度以及应用场景适应性。
133.如图5所示,图5为本公开实施例所述获取音频注册信息的装置的结构图,该装置包括:
134.获取模块501,用于从会议音频中获取同一用户的多个第一音频片段;
135.检测模块502,用于对多个第一音频片段进行人声检测,从多个第一音频片段中获取人声音频片段;
136.注册模块503,用于根据人声音频片段获取第一数字化标记,将第一数字化标记注
册为第一用户的音频注册信息。
137.作为本公开实施例一种可选的实施方式,检测模块502,具体用于将多个第一音频片段拼接为组合音频段;
138.对组合音频段进行人声检测,以获取人声音频片段;
139.或,
140.针对多个第一音频片段中每个第一音频片段进行人声检测,以获取多个人声片段,将多个人声片段拼接为人声音频片段。
141.作为本公开实施例一种可选的实施方式,注册模块503,具体用于将人声音频片段分割为若干人声音频子片段;
142.提取若干人声音频子片段中每个人声音频子片段的音频特征信息,根据每个人声音频子片段的音频特征信息进行音频聚类,得到多个聚类人声片段;
143.从多个聚类人声片段中,确定时长最长的目标聚类人声片段;
144.获取目标聚类人声片段的第一数字化标记。
145.作为本公开实施例一种可选的实施方式,注册模块503,具体用于从目标聚类人声片段中获取预设时长的目标音频片段;
146.获取目标音频片段的第一数字化标记。
147.作为本公开实施例一种可选的实施方式,注册模块503,具体用于提取人声音频片段的第二数字化标记;
148.获取至少一个历史音频片段;
149.从所述至少一个历史音频片段中提取数字化标记,以得到至少一个第三数字化标记,至少一个历史音频片段为分别从至少一个历史会议音频中获取的第一用户的音频片段;
150.根据第二数字化标记和第三数字化标记,确定第一数字化标记。
151.作为本公开实施例一种可选的实施方式,注册模块503,具体用于提取人声音频片段的第二数字化标记;
152.根据第二数字化标记和已保存的第三数字化标记,确定第一数字化标记,已保存的第三数字化标记为第一用户的历史音频注册信息。
153.作为本公开实施例一种可选的实施方式,获取模块501,具体用于获取会议音频对应的会议记录,并显示会议记录;会议记录中包括:关联展示的多个用户身份标识与基于会议音频的多个音频片段生成的会议字幕;
154.响应于针对目标用户身份标识的选择操作,从会议音频的多个音频片段中,获取与目标用户身份标识关联的多个第一音频片段,作为同一用户的多个第一音频片段,目标用户身份标识为多个用户身份标识中的任意一个用户身份标识。
155.综上所述,本公开通过上述获取音频注册信息的装置,首先从会议音频中获取用户的音频片段,再进行人声检测获取该用户的人声音频片段,然后从该人声音频片段中获取数字化标记,以作为该用户的音频注册信息,实现了在用户正常说话开会的场景中,无需用户重复朗读规定文本并按照固定流程进行注册,一方面提高了用户进行音频注册的便捷性,另一方面,避免了注册时的声纹特征与用户正常说话情况下的声纹特征之间存在差异,提高了声纹识别的准确度以及应用场景适应性。
156.如图6所示,图6为本公开实施例所述电子设备的结构图,该电子设备包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述方法实施例中的获取音频注册信息的方法的各个过程。且能达到相同的技术效果,为避免重复,这里不再赘述。
157.本公开实施例提供一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储计算机程序,该计算机程序被处理器执行时实现上述方法实施例中获取音频注册信息的方法的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
158.其中,该计算机可读存储介质可以为只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等。
159.本公开实施例提供一种计算程序产品,该计算机程序产品存储有计算机程序,计算机程序被处理器执行时实现实现上述方法实施例中获取音频注册信息的方法的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
160.本领域技术人员应明白,本公开的实施例可提供为方法、系统、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。
161.本公开中,处理器可以是中央处理单元(central processing unit,cpu),还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现成可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
162.本公开中,存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flash ram)。存储器是计算机可读介质的示例。
163.本公开中,计算机可读介质包括永久性和非永久性、可移动和非可移动存储介质。存储介质可以由任何方法或技术来实现信息存储,信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。根据本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
164.需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设
备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
165.以上仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

技术特征:


1.一种获取音频注册信息的方法,其特征在于,包括:从会议音频中获取同一用户的多个第一音频片段;对所述多个第一音频片段进行人声检测,从所述多个第一音频片段中获取人声音频片段;根据所述人声音频片段获取第一数字化标记,将所述第一数字化标记注册为第一用户的音频注册信息。2.根据权利要求1所述的方法,其特征在于,所述对所述多个第一音频片段进行人声检测,从所述多个第一音频片段中获取人声音频片段,包括:将所述多个第一音频片段拼接为组合音频段,对所述组合音频段进行人声检测,以获取人声音频片段;或,针对所述多个第一音频片段中每个第一音频片段进行人声检测,以获取多个人声片段,将所述多个人声片段拼接为所述人声音频片段。3.根据权利要求1所述的方法,其特征在于,所述根据所述人声音频片段获取第一数字化标记,包括:将所述人声音频片段分割为若干人声音频子片段;提取所述若干人声音频子片段中每个人声音频子片段的音频特征信息,根据所述每个人声音频子片段的音频特征信息进行音频聚类,得到多个聚类人声片段;从所述多个聚类人声片段中,确定时长最长的目标聚类人声片段;获取所述目标聚类人声片段的所述第一数字化标记。4.根据权利要求3所述的方法,其特征在于,所述获取所述目标聚类人声片段的第一数字化标记,包括:从所述目标聚类人声片段中获取预设时长的目标音频片段;获取所述目标音频片段的所述第一数字化标记。5.根据权利要求1所述的方法,其特征在于,所述根据所述人声音频片段获取第一数字化标记,包括:提取所述人声音频片段的第二数字化标记;获取至少一个历史音频片段;从所述至少一个历史音频片段中提取数字化标记,以得到至少一个第三数字化标记,所述至少一个历史音频片段为分别从至少一个历史会议音频中获取的所述第一用户的音频片段;根据所述第二数字化标记和所述第三数字化标记,确定所述第一数字化标记。6.根据权利要求1所述的方法,其特征在于,所述根据所述人声音频片段获取第一数字化标记,包括:提取所述人声音频片段的第二数字化标记;根据所述第二数字化标记和已保存的第三数字化标记,确定所述第一数字化标记,所述已保存的第三数字化标记为所述第一用户的历史音频注册信息。7.根据权利要求1所述的方法,其特征在于,所述从会议音频中获取同一用户的多个第一音频片段,包括:
获取所述会议音频对应的会议记录,并显示所述会议记录;所述会议记录中包括:关联展示的多个用户身份标识与基于所述会议音频的多个音频片段生成的会议字幕;响应于针对目标用户身份标识的选择操作,从所述会议音频的多个音频片段中,获取与所述目标用户身份标识关联的多个第一音频片段,作为同一用户的多个第一音频片段,所述目标用户身份标识为所述多个用户身份标识中的任意一个用户身份标识。8.一种获取音频注册信息的装置,其特征在于,包括:获取模块,用于从会议音频中获取同一用户的多个第一音频片段;检测模块,用于对所述多个第一音频片段进行人声检测,从所述多个第一音频片段中获取人声音频片段;注册模块,用于根据所述人声音频片段获取第一数字化标记,将所述第一数字化标记注册为第一用户的音频注册信息。9.一种电子设备,其特征在于,包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的获取音频注册信息的方法。10.一种计算机可读存储介质,其特征在于,包括:所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的获取音频注册信息的方法。

技术总结


本公开涉及一种获取音频注册信息的方法、装置及电子设备,尤其涉及语音识别技术领域。包括:从会议音频中获取同一用户的多个第一音频片段;对多个第一音频片段进行人声检测,从多个第一音频片段中获取人声音频片段;根据人声音频片段获取第一数字化标记,将第一数字化标记注册为第一用户的音频注册信息。本公开实施例用于解决现有技术给用户音频注册带来不便且音频注册信息精度不高的问题。便且音频注册信息精度不高的问题。便且音频注册信息精度不高的问题。


技术研发人员:

王斌 姚佳立 李想

受保护的技术使用者:

北京字跳网络技术有限公司

技术研发日:

2022.06.27

技术公布日:

2022/9/26

本文发布于:2024-09-22 17:37:54,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/79127.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:音频   片段   人声   多个
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议