语音匹配方法、装置、设备及存储介质与流程



1.本技术涉及语音匹配技术领域,尤其涉及一种语音匹配方法、装置、设备及存储介质。


背景技术:



2.语音匹配,是指对语音音频进行匹配处理。随着声音识别技术的发展,语音匹配被广泛应用在检测领域,例如,车辆鸣笛检测、设备故障检测等,都需要使用到语音匹配系统。然而,目前现有的语音匹配系统,不具有对于声源的定位功能,无法获取声源的具体方位,语音匹配的精确度不高,匹配效果不佳。


技术实现要素:



3.有鉴于此,本技术实施例提供了一种语音匹配方法、装置、设备及存储介质,旨在解决现有技术中语音匹配的精确度不高、匹配效果不佳的技术问题。
4.本技术实施例的第一方面提供了一种语音匹配方法,包括:获取目标语音数据以及所述目标语音数据的声源位置坐标;根据所述声源位置坐标,计算声源位置与语音接收位置之间的目标距离;根据所述目标距离,在预设的语音数据库中确定语音匹配范围,其中,所述语音匹配范围所包含的语音数据形成第一语音数据集,所述语音数据库所包含的语音数据形成第二语音数据集,所述第一语音数据集为所述第二语音数据集的子集;将所述目标语音数据与所述第一语音数据集中的语音数据进行语音匹配处理,获得所述目标语音数据对应的语音匹配结果。
5.结合第一方面,在第一方面的第一种可能实现方式中,获取目标语音数据的步骤,包括:对目标场景进行声源感测,获得若干个语音信号,其中,一个语音信号对应一个感测点;对所述若干个语音信号分别进行声音强度检测,获得每个所述语音信号对应的声音强度值;根据所述每个语音信号对应的声音强度值,确定目标感测点,将所述目标感测点对应的语音信号确定为目标语音数据,其中,所述目标感测点为所述若干个语音信号中声音强度值最大的语音信号所对应的感测点。
6.结合第一方面的第一种可能实现方式,在第一方面的第二种可能实现方式中,获取所述目标语音数据的声源位置坐标的步骤,包括:对所述目标语音数据进行特征提取处理,获得所述目标语音数据对应的语音特征;根据所述语音特征进行坐标系建立,获得初始坐标系;根据所述初始坐标系,对所述目标语音数据进行定位处理,获得所述目标语音数据的声源位置坐标。
7.结合第一方面的第二种可能实现方式,在第一方面的第三种可能实现方式中,获得所述目标语音数据的声源位置坐标的步骤之后,还包括:对所述目标语音数据进行分段处理,获得若干个语音片段;对所述若干个语音片段进行特征提取处理,获得若干个语音片段特征,所述若干个语音片段与所述若干个语音片段特征一一对应;根据所述若干个语音片段特征,对所述初始坐标系进行优化处理,获得优化后的坐标系;根据所述优化后的坐标
系,对所述声源位置坐标进行调整处理。
8.结合第一方面的第二种可能实现方式,在第一方面的第四种可能实现方式中,根据所述初始坐标系,对所述目标语音数据进行定位处理,获得所述目标语音数据的声源位置坐标的步骤之前,还包括:对所述目标语音数据进行环境嘈杂音强检测处理,提取出所述目标语音数据中的环境嘈杂音特征,对所述环境嘈杂音特征进行删除处理。
9.结合第一方面,在第一方面的第五种可能实现方式中,将所述目标语音数据与所述第一语音数据集中的语音数据进行语音匹配处理,获得所述目标语音数据对应的语音匹配结果的步骤,包括:对所述目标语音数据进行分段处理,获得若干个语音片段;对所述若干个语音片段进行数据对比处理,获得数据对比结果,其中,所述数据对比处理包括语音特征对比、语音参数对比、语音时长对比、语音占存大小对比;根据所述数据对比结果,对所述若干个语音片段进行段落统计处理,获得段落统计结果;根据所述段落统计结果,对所述若干个语音片段进行语音整合处理,获得整合语音数据,其中,所述语音整合处理包括同一特征语音整合处理、同一参数语音整合、同一时长语音整合与范围占存大小语音整合处理;将所述整合语音数据与所述第一语音数据集中的语音数据进行语音匹配处理,获得所述目标语音数据对应的语音匹配结果。
10.结合第一方面的第五种可能实现方式,在第一方面的第六种可能实现方式中,对所述目标语音数据进行分段处理,获得若干个语音片段的步骤之前,还包括:对所述目标语音数据进行预处理,其中,所述预处理包括:模糊段去除处理、语音滤波处理、嘈杂语音处理。
11.本技术实施例的第二方面提供了一种语音匹配装置,包括:获取模块,用于获取目标语音数据以及所述目标语音数据的声源位置坐标;计算模块,用于根据所述声源位置坐标,计算声源位置与语音接收位置之间的目标距离;确定模块,用于根据所述目标距离,在预设的语音数据库中确定语音匹配范围,其中,所述语音匹配范围所包含的语音数据形成第一语音数据集,所述语音数据库所包含的语音数据形成第二语音数据集,所述第一语音数据集为所述第二语音数据集的子集;匹配模块,用于将所述目标语音数据与所述第一语音数据集中的语音数据进行语音匹配处理,获得所述目标语音数据对应的语音匹配结果。
12.本技术实施例的第三方面提供了一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在电子设备上运行的计算机程序,所述处理器执行所述计算机程序时实现第一方面提供的语音匹配方法的各步骤。
13.本技术实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现第一方面提供的语音匹配方法的各步骤。
14.本技术实施例提供的一种语音匹配方法、装置、电子设备及存储介质,具有以下有益效果:
15.本技术通过获取目标语音数据以及目标语音数据的声源位置坐标;根据声源位置坐标,计算声源位置与语音接收位置之间的目标距离;根据目标距离,在预设的语音数据库中确定语音匹配范围,其中,语音匹配范围所包含的语音数据形成第一语音数据集,语音数据库所包含的语音数据形成第二语音数据集,第一语音数据集为第二语音数据集的子集;将目标语音数据与第一语音数据集中的语音数据进行语音匹配处理,获得目标语音数据对
应的语音匹配结果。上述方法通过计算声源位置与声音接收位置之间的目标距离,在进行语音匹配时,将目标距离作为语音匹配的一个参照依据,可以大大提高语音匹配的精准度。
附图说明
16.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
17.图1为本技术实施例提供的一种语音匹配方法的实现流程图;
18.图2为本技术实施例提供的语音匹配方法中获取目标语音数据时的一种方法流程图;
19.图3为本技术实施例提供的语音匹配方法中获取目标语音数据的声源位置坐标时的一种方法流程图;
20.图4为本技术实施例提供的语音匹配方法中对声源位置坐标进行调整优化时的一种方法流程图;
21.图5为本技术实施例提供的语音匹配方法中对目标语音数据进行语音匹配时的一种方法流程图;
22.图6为本技术实施例提供的一种语音匹配装置的基础结构框图;
23.图7为本技术实施例提供的一种电子设备的基本结构框图。
具体实施方式
24.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
25.请参阅图1,图1为本技术实施例提供的一种语音匹配方法的实现流程图。详述如下:
26.s11:获取目标语音数据以及所述目标语音数据的声源位置坐标;
27.s12:根据所述声源位置坐标,计算声源位置与语音接收位置之间的目标距离;
28.s13:根据所述目标距离,在预设的语音数据库中确定语音匹配范围,其中,所述语音匹配范围所包含的语音数据形成第一语音数据集,所述语音数据库所包含的语音数据形成第二语音数据集,所述第一语音数据集为所述第二语音数据集的子集;
29.s14:将所述目标语音数据与所述第一语音数据集中的语音数据进行语音匹配处理,获得所述目标语音数据对应的语音匹配结果。
30.本实施例中,语音匹配方法应用在具有声源定位功能的语音匹配系统中。在语音匹配系统中,可以通过语音收集模块进行语音收集处理,获得待匹配的目标语音数据。在获得目标语音数据后,进一步地,通过声源定位模块对该目标语音数据进行声源定位,获得该目标语音数据的声源位置坐标。示例性的,获取目标语音数据的声源位置坐标时,可以采用如下方法之一进行声源定位:基于最大输出功率的可控波束成形的定位方法、基于高分辨谱估计的定位方法、基于到达时延差估计的定位方法、基于机器学习的方法。在获得该声源
位置坐标后,根据该声源位置坐标对应生成的坐标系,获取语音接收位置对应在该坐标系下的位置坐标。通过声源位置坐标和语音接收位置对应在声源位置坐标所在的坐标系下的位置坐标,计算出声源位置与语音接收位置之间的目标距离。可以理解的是,目标距离为坐标系中,声源位置坐标所表示的点与语音接收位置对应在该坐标系下的位置坐标所表示的点之间的直线距离。语音匹配系统中预设设置有一个语音数据库,语音数据库中存储有大量语音数据,且存储的语音数据按照类型、按照距离远近等不同维度进行了分类处理。在本实施例中,在计算得到目标语音数据的声源位置与语音接收位置之间的目标距离后,可以将该目标距离作为语音匹配的一个参照依据,在语音数据库中确定语音匹配范围,即从语音数据库中筛选出满足该目标距离要求的语音数据,形成一个第一语音数据集,进而使用该第一语音数据集中的语音数据与该目标语音数据进行语音匹配,从而基于该第一语音数据集来获得该目标语音数据对应的语音匹配结果,可以避免语音数据库中存储的语音数据种类繁多、数据量大而影响语音匹配的效果,大大地提高语音匹配的精确度。需要说明的是,在本实施例中,假设语音数据库中所包含的所有语音数据形成一个第二语音数据集,则第一语音数据集为第二语音数据集的子集。
31.本技术的一些实施例中,请参阅图2,图2为本技术实施例提供的语音匹配方法中获取目标语音数据时的一种方法流程图。详细如下:
32.s21:对目标场景进行声源感测,获得若干个语音信号,其中,一个语音信号对应一个感测点;
33.s22:对所述若干个语音信号分别进行声音强度检测,获得每个所述语音信号对应的声音强度值;
34.s23:根据所述每个语音信号对应的声音强度值,确定目标感测点,将所述目标感测点对应的语音信号确定为目标语音数据,其中,所述目标感测点为所述若干个语音信号中声音强度值最大的语音信号所对应的感测点。
35.本实施例中,可以通过语音匹配系统中的声源感测模块和声音强度检测模块,获得目标语音数据。目标场景是指需要进行声音检测的真实场景,例如需要进行车辆鸣笛检测的路段,例如需要进行设备监测的设备安装区域等。在本实施例中,可以将球形麦克风阵列作为声源感测模块安装在目标场景中,用于对该目标场景进行声源感测。示例性的,在本实施例中,获取目标语音数据的过程可以为:利用球形麦克风阵列对目标场景进行声源感测,可以获得若干个语音信号。其中,一个语音信号对应一个感测点。通过球形麦克风阵列获得若干个语音信号后,由于此时的语音信号表示为数字信号,本实施例可以通过设置频域信号转换模块,将语音信号由数字信号转化为频域信号,以便于后续步骤使用。将语音信号转化为频域信号后,可以通过声强检测传感器作为声音强度检测模块对各个语音信号逐一进行声音强度检测,获得每个语音信号对应的声音强度值。进而,在通过比对每个语音信号对应声音强度值的大小关系,确定出声音强度值最大的语音信号,将该声音强度值最大的语音信号对应的感测点确定为目标感测点,将该声音强度值最大的语音信号确定为目标语音数据。
36.本技术的一些实施例中,请参阅图3,图3为本技术实施例提供的语音匹配方法中获取目标语音数据的声源位置坐标时的一种方法流程图。详细如下:
37.s31:对所述目标语音数据进行特征提取处理,获得所述目标语音数据对应的语音
特征;
38.s32:根据所述语音特征进行坐标系建立,获得初始坐标系;
39.s33:根据所述初始坐标系,对所述目标语音数据进行定位处理,获得所述目标语音数据的声源位置坐标。
40.本实施例中,获得目标语音数据后,可以通过语音匹配系统中的坐标建立模块进行坐标建立,获得目标语音数据的声源位置坐标。示例性的,在本实施例中,获取目标语音数据的声源位置坐标的过程可以为:可以通过对获得的目标语音数据进行特征提取处理,获得该目标语音数据对应的语音特征,可以理解的是,在本实施例中,语音特征可以为目标语音数据的频率特征、时间特征等。然后在获得该目标语音数据的语音特征后,根据语音特征确定坐标轴的初始位置,建立坐标系的坐标轴,进而再通过平行关系扩展到平面,以此获得一个初始坐标系。可以理解的是,该初始坐标系可以是二维的平面坐标系,也可以是三维的空间坐标系。获得初始坐标系后,可以根据表征目标语音数据所在位置的目标感测点在初始坐标系中的位置,实现对目标语音数据进行定位处理,获得目标语音数据的声源位置坐标。
41.本技术的一些实施例中,请参阅图4,图4为本技术实施例提供的语音匹配方法中对声源位置坐标进行调整优化时的一种方法流程图。详细如下:
42.s41:对所述目标语音数据进行分段处理,获得若干个语音片段;
43.s42:对所述若干个语音片段进行特征提取处理,获得若干个语音片段特征,所述若干个语音片段与所述若干个语音片段特征一一对应;
44.s43:根据所述若干个语音片段特征,对所述初始坐标系进行优化处理,获得优化后的坐标系;
45.s44:根据所述优化后的坐标系,对所述声源位置坐标进行调整处理。
46.本实施例中,在语音匹配系统中,还可以通过坐标综合调节模块来对坐标建立模块获得的声源位置坐标进行有调整优化。具体地,可以通过对目标语音数据进行分段处理,将该目标语音数据切分为若干个语音片段。进而通过对该若干个语音片段进行特征提取处理,获得若干个语音片段特征,其中,若干个语音片段与若干个语音片段特征一一对应。根据每个语音片段特征,确定坐标轴的初始位置,可以获得若干个坐标轴,通过坐标综合调节模块为每个获得的坐标轴确定一个最优位置,基于每个坐标轴的最优位置,对初始坐标系进行优化处理,即可获得一个优化后的坐标系。根据优化后的坐标系与初始坐标系之间的相对位置关系,可以将位于在初始坐标系中的声源位置坐标映射到优化后的坐标系中,从而实现对声源位置坐标进行调整处理,优化声源位置坐标。
47.本技术的一些实施例中,在通过语音匹配系统中的坐标建立模块进行坐标建立之前,还可以通过语音匹配系统中的数据处理模块对该目标语音数据进行处理,去除该目标语音数据中的空白信号帧。具体地,语音匹配系统在经过声音强度检测模块进行声音强度检测获得目标语音数据后,可以通过给数据传输模块将目标语音数据传输给数据处理模块,通过数据处理模块对该目标语音数据进行信号帧检测,检测目标语音数据中每个信号帧的信号强度、短时能量、过零率中的一个或多个参数,通过参数值来判断该信号帧是否为空白信号帧,若判断为空白信号帧,则将该空白信号帧从目标语音数据中删除。示例性的,例如,假设设定一个用于判断信号帧是否为空白信号帧的信号强度阈值,通过检测目标语
音数据中信号帧的信号强度,将检测到的信号强度与设定的信号强度阈值进行大小比较,若信号强度小于该信号强度阈值,则判断该信号帧为空白信号帧,将该信号帧从目标语音数据中进行删除处理。通过去除目标语音数据中的空白信号帧,可以避免目标语音数据的声源定位受空白信号帧影响,提高了声源定位的准确性。
48.本技术的一些实施例中,在通过语音匹配系统中的坐标建立模块进行坐标建立之前,还可以通过语音匹配系统中的环境嘈杂音强检测模块对该目标语音数据进行环境嘈杂音强检测处理,提取出目标语音数据中的环境嘈杂音特征,对环境嘈杂音特征进行删除处理。具体地,在语音匹配系统中可通过语音传导模块连接环境嘈杂音强检测模块与数据处理模块,实现环境嘈杂音强检测模块与数据处理模块之间的双向交互。其中,数据处理模块通过数据传导模块将目标语音数据传输给环境嘈杂音强检测模块,环境嘈杂音强检测模块在提取出目标语音数据中的环境嘈杂音特征,并对环境嘈杂音特征进行删除处理后,将删除环境嘈杂音特征后的目标语音数据通过数据传导模块返回给数据处理模块。示例性的,在环境嘈杂音强检测模块中,对目标语音数据进行环境嘈杂音强检测处理的过程可以为:对目标语音数据进行噪音信息提取,可获得环境嘈杂音特征。例如,通过对目标语音数据进行分帧,获得非语音片段,将非语音片段确定为纯噪音片段,从纯噪音片段中提取出的噪音信息即为环境嘈杂音特征,如进行傅里叶变换得到噪音频谱等。提取出环境嘈杂音特征后,再通过谱减法、维纳滤波等对环境嘈杂音特征进行删除处理,即可将提取到的环境嘈杂音特征从目标语音数据中删除。示例性的,在环境嘈杂音强检测模块中,对目标语音数据进行环境嘈杂音强检测处理的过程还可以为:通过设置噪音库,例如收集噪音特征,包括空白噪音特征,将收集到的噪音特征和空白噪音特征以向量的形式存储在噪音库中。对目标语音数据进行分帧,逐帧提取数据特征,将各帧的数据特征与噪音库中存储的噪音特征进行向量对比,判断向量是否相似,若相似,则判断为该帧的数据特征为噪音特征,可直接删除该帧的数据特征,以此实现将提取到的环境嘈杂音特征从目标语音数据中删除。本实施例通过删除目标语音数据中的环境嘈杂音特征,可以避免目标语音数据的声源定位受环境嘈杂音特征影响,提高了声源定位的准确性。
49.本技术的一些实施例中,请参阅图5,图5为本技术实施例提供的语音匹配方法中对目标语音数据进行语音匹配时的一种方法流程图。详细如下:
50.s51:对所述目标语音数据进行分段处理,获得若干个语音片段;
51.s52:对所述若干个语音片段进行数据对比处理,获得数据对比结果,其中,所述数据对比处理包括语音特征对比、语音参数对比、语音时长对比、语音占存大小对比;
52.s53:根据所述数据对比结果,对所述若干个语音片段进行段落统计处理,获得段落统计结果;
53.s54:根据所述段落统计结果,对所述若干个语音片段进行语音整合处理,获得整合语音数据,其中,所述语音整合处理包括同一特征语音整合处理、同一参数语音整合、同一时长语音整合与范围占存大小语音整合处理;
54.s55:将所述整合语音数据与所述第一语音数据集中的语音数据进行语音匹配处理,获得所述目标语音数据对应的语音匹配结果。
55.本实施例中,语音匹配系统中设置有语音对比模块、语音整合模块和语音匹配模块,用于实现对目标语音数据的语音匹配处理。在本实施例中,对获得目标语音数据进行语
音匹配的过程可以为:先通过对目标语音数据进行分段处理和分段编号处理,获得若干个带有编号标记的语音片段。然后,通过将该若干个带有编号标记的语音片段两两进行数据对比处理,获得数据比对结果。其中,包括但不限于以下至少一个维度的数据对比处理:语音特征对比、语音参数对比、语音时长对比、语音占存大小对比。以此,可以获得多个维度的数据对比结果。以语音特征对比处理为例,假设目标语音数据分段后,获得编号为1-5的5个语音片段,可以针对该5个语音片段分别进行特征提取处理,获得该5个语音片段各自对应的语音特征,通过将编号为1的语音片段对应的语音特征分别与编号为2、3、4、5的语音片段对应的语音特征逐一进行比对,判断编号为1的语音片段是否与编号为2的语音片段具有相同的语音特征,判断编号为1的语音片段是否与编号为3的语音片段具有相同的语音特征,判断编号为1的语音片段是否与编号为4的语音片段具有相同的语音特征,判断编号为1的语音片段是否与编号为5的语音片段具有相同的语音特征,可以获得4个数据对比结果;再通过将编号为2的语音片段对应的语音特征分别与编号为3、4、5的语音片段对应的语音特征逐一进行比对,判断编号为2的语音片段是否与编号为3的语音片段具有相同的语音特征,判断编号为2的语音片段是否与编号为4的语音片段具有相同的语音特征,判断编号为2的语音片段是否与编号为5的语音片段具有相同的语音特征,可以获得3个数据对比结果;再通过将编号为3的语音片段对应的语音特征分别与编号为4、5的语音片段对应的语音特征逐一进行比对,判断编号为3的语音片段是否与编号为4的语音片段具有相同的语音特征,判断编号为3的语音片段是否与编号为5的语音片段具有相同的语音特征,可以获得2个数据对比结果;再通过将编号为4的语音片段对应的语音特征与编号为5的语音片段对应的语音特征进行比对,判断编号为4的语音片段是否与编号为5的语音片段具有相同的语音特征,可以获得1个数据对比结果,总共可获得10个基于特征对比维度的数据对比结果。其他数据对比处理同理,此处不再赘述。通过对比,获得所有数据对比结果后,可以根据数据对比结果,对若干个语音片段进行段落统计处理,获得段落统计结果。具体地,段落统计处理过程可以为:针对每个语音片段,通过其在不同的对比维度,具有相同数据的语音片段数量,并记录与之具有相同数据的语音片段的编号标记,获得段落统计结果。具体地,根据段落统计结果,可以获知哪个编号的语音片段与哪个编号的语音片段具有相同的语音特征,可以获知哪个编号的语音片段与哪个编号的语音片段具有相同的语音参数,可以获知哪个编号的语音片段与哪个编号的语音片段具有相同的语音时长,可以获知哪个编号的语音片段与哪个编号的语音片段的语音占存处于同一个范围内。进而,根据段落统计结果,可以通过对若干个语音片段进行语音整合处理,获得整合语音数据,其中,语音整合处理包括同一特征语音整合处理、同一参数语音整合、同一时长语音整合与范围占存大小语音整合处理。例如,假设编号为1、3、5的三个语音片段具有相同的语音特征,可以通过对该编号为1、3、5的三个语音片段进行语音整合处理,获得一个语音整合数据。可以理解的是,语音整合处理可以为将语音片段按照编号顺序依次进行拼接处理。获得整合语音数据后,可以通过将整合语音数据与第一语音数据集中的语音数据进行语音匹配处理,判断整合语音数据与第一语音数据集中的语音数据是否匹配,从而根据第一语音数据集中与整合语音数据相匹配的语音数据所对应的语音类型,确定目标语音数据的语音类型,从而获得目标语音数据对应的语音匹配结果。可以理解的是,当获得多个整合语音数据时,可以通过将每个整合语音数据与第一语音数据集中的语音数据进行语音匹配处理,获得对应的多个语音类型,从该多
个语音类型中通过概率计算的方式确定最终的语音类型作为目标语音数据对应的语音匹配结果。
56.本技术的一些实施例中,语音匹配系统中还设置有语音处理模块,在对目标语音数据进行语音匹配之前,还可以通过该语音处理模块对该目标语音数据进行预处理,能够完成对目标语音数据的优化处理,提升语音信号的整体品质,大大提高后续语音匹配效率与效果,避免了匹配出错的问题,提高了语音匹配的整体应用效果。具体地,对目标语音数据进行预处理的过程可以包括,模糊段去除处理、语音滤波处理、嘈杂语音处理。在本实施例中,在对目标语音数据进行嘈杂语音处理时,还包括语音分析处理、语音形式确定、嘈杂音识别处理和嘈杂语音消除处理,嘈杂音学习处理,实现在对嘈杂语音进行处理时,通过深度学习算法对嘈杂语音的处理过程进行学习,能够大大提升后续的嘈杂语音处理的效率与效果,应用效果好,且能够大大提升该处理过程的容错率。
57.可以理解的是,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本技术实施例的实施过程构成任何限定。
58.本技术的一些实施例中,请参阅图6,图6为本技术实施例提供的一种语音匹配装置的基础结构框图。本实施例中该装置包括的各单元用于执行上述方法实施例中的各步骤。具体请参阅上述方法实施例中的相关描述。为了便于说明,仅示出了与本实施例相关的部分。如图6所示,语音匹配装置包括:获取模块61、计算模块62、确定模块63和匹配模块64。其中:获取模块61用于获取目标语音数据以及所述目标语音数据的声源位置坐标。计算模块62用于根据所述声源位置坐标,计算声源位置与语音接收位置之间的目标距离。确定模块63用于根据所述目标距离,在预设的语音数据库中确定语音匹配范围,其中,所述语音匹配范围所包含的语音数据形成第一语音数据集,所述语音数据库所包含的语音数据形成第二语音数据集,所述第一语音数据集为所述第二语音数据集的子集。匹配模块64用于将所述目标语音数据与所述第一语音数据集中的语音数据进行语音匹配处理,获得所述目标语音数据对应的语音匹配结果。
59.应当理解的是,上述语音匹配装置,与上述的语音匹配方法一一对应,此处不再赘述。
60.本技术的一些实施例中,请参阅图7,图7为本技术实施例提供的一种电子设备的基本结构框图。如图7所示,该实施例的电子设备7包括:处理器71、存储器72以及存储在所述存储器72中并可在所述处理器71上运行的计算机程序73,例如语音匹配方法的程序。处理器71执行所述计算机程序73时实现上述各个语音匹配方法各实施例中的步骤。或者,所述处理器71执行所述计算机程序73时实现上述语音匹配装置对应的实施例中各模块的功能。具体请参阅实施例中的相关描述,此处不赘述。
61.示例性的,所述计算机程序73可以被分割成一个或多个模块(单元),所述一个或者多个模块被存储在所述存储器72中,并由所述处理器71执行,以完成本技术。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序73在所述电子设备7中的执行过程。例如,所述计算机程序73可以被分割成获取模块、计算模块、确定模块和匹配模块,各模块具体功能如上所述。
62.所述电子设备可包括,但不仅限于,处理器71、存储器72。本领域技术人员可以理
解,图7仅仅是电子设备7的示例,并不构成对电子设备7的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述电子设备还可以包括输入输出设备、网络接入设备、总线等。
63.所述处理器71可以是中央处理单元(central processing unit,cpu),还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现成可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
64.所述存储器72可以是所述电子设备7的内部存储单元,例如电子设备7的硬盘或内存。所述存储器72也可以是所述电子设备7的外部存储设备,例如所述电子设备7上配备的插接式硬盘,智能存储卡(smart media card,smc),安全数字(secure digital,sd)卡,闪存卡(flash card)等。进一步地,所述存储器72还可以既包括所述电子设备7的内部存储单元也包括外部存储设备。所述存储器72用于存储所述计算机程序以及所述电子设备所需的其他程序和数据。所述存储器72还可以用于暂时地存储已经输出或者将要输出的数据。
65.需要说明的是,上述装置/单元之间的信息交互、执行过程等内容,由于与本技术方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
66.本技术实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。在本实施例中,所述计算机可读存储介质可以是非易失性,也可以是易失性。
67.本技术实施例提供了一种计算机程序产品,当计算机程序产品在移动终端上运行时,使得移动终端执行时实现可实现上述各个方法实施例中的步骤。
68.所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本技术的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
69.所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-only memory)、随机存取存储器(ram,
random access memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括是电载波信号和电信信号。
70.在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
71.以上所述实施例仅用以说明本技术的技术方案,而非对其限制;尽管参照前述实施例对本技术进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围,均应包含在本技术的保护范围之内。

技术特征:


1.一种语音匹配方法,其特征在于,包括:获取目标语音数据以及所述目标语音数据的声源位置坐标;根据所述声源位置坐标,计算声源位置与语音接收位置之间的目标距离;根据所述目标距离,在预设的语音数据库中确定语音匹配范围,其中,所述语音匹配范围所包含的语音数据形成第一语音数据集,所述语音数据库所包含的语音数据形成第二语音数据集,所述第一语音数据集为所述第二语音数据集的子集;将所述目标语音数据与所述第一语音数据集中的语音数据进行语音匹配处理,获得所述目标语音数据对应的语音匹配结果。2.根据权利要求1所述的语音匹配方法,其特征在于,获取目标语音数据的步骤,包括:对目标场景进行声源感测,获得若干个语音信号,其中,一个语音信号对应一个感测点;对所述若干个语音信号分别进行声音强度检测,获得每个所述语音信号对应的声音强度值;根据所述每个语音信号对应的声音强度值,确定目标感测点,将所述目标感测点对应的语音信号确定为目标语音数据,其中,所述目标感测点为所述若干个语音信号中声音强度值最大的语音信号所对应的感测点。3.根据权利要求2所述的语音匹配方法,其特征在于,获取所述目标语音数据的声源位置坐标的步骤,包括:对所述目标语音数据进行特征提取处理,获得所述目标语音数据对应的语音特征;根据所述语音特征进行坐标系建立,获得初始坐标系;根据所述初始坐标系,对所述目标语音数据进行定位处理,获得所述目标语音数据的声源位置坐标。4.根据权利要求3所述的语音匹配方法,其特征在于,获得所述目标语音数据的声源位置坐标的步骤之后,还包括:对所述目标语音数据进行分段处理,获得若干个语音片段;对所述若干个语音片段进行特征提取处理,获得若干个语音片段特征,所述若干个语音片段与所述若干个语音片段特征一一对应;根据所述若干个语音片段特征,对所述初始坐标系进行优化处理,获得优化后的坐标系;根据所述优化后的坐标系,对所述声源位置坐标进行调整处理。5.根据权利要求3所述的语音匹配方法,其特征在于,根据所述初始坐标系,对所述目标语音数据进行定位处理,获得所述目标语音数据的声源位置坐标的步骤之前,还包括:对所述目标语音数据进行环境嘈杂音强检测处理,提取出所述目标语音数据中的环境嘈杂音特征,对所述环境嘈杂音特征进行删除处理。6.根据权利要求1所述的语音匹配方法,其特征在于,将所述目标语音数据与所述第一语音数据集中的语音数据进行语音匹配处理,获得所述目标语音数据对应的语音匹配结果的步骤,包括:对所述目标语音数据进行分段处理,获得若干个语音片段;对所述若干个语音片段进行数据对比处理,获得数据对比结果,其中,所述数据对比处
理包括语音特征对比、语音参数对比、语音时长对比、语音占存大小对比;根据所述数据对比结果,对所述若干个语音片段进行段落统计处理,获得段落统计结果;根据所述段落统计结果,对所述若干个语音片段进行语音整合处理,获得整合语音数据,其中,所述语音整合处理包括同一特征语音整合处理、同一参数语音整合、同一时长语音整合与范围占存大小语音整合处理;将所述整合语音数据与所述第一语音数据集中的语音数据进行语音匹配处理,获得所述目标语音数据对应的语音匹配结果。7.根据权利要求6所述的语音匹配方法,其特征在于,对所述目标语音数据进行分段处理,获得若干个语音片段的步骤之前,还包括:对所述目标语音数据进行预处理,其中,所述预处理包括:模糊段去除处理、语音滤波处理、嘈杂语音处理。8.一种语音匹配装置,其特征在于,包括:获取模块,用于获取目标语音数据以及所述目标语音数据的声源位置坐标;计算模块,用于根据所述声源位置坐标,计算声源位置与语音接收位置之间的目标距离;确定模块,用于根据所述目标距离,在预设的语音数据库中确定语音匹配范围,其中,所述语音匹配范围所包含的语音数据形成第一语音数据集,所述语音数据库所包含的语音数据形成第二语音数据集,所述第一语音数据集为所述第二语音数据集的子集;匹配模块,用于将所述目标语音数据与所述第一语音数据集中的语音数据进行语音匹配处理,获得所述目标语音数据对应的语音匹配结果。9.一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述方法的步骤。10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。

技术总结


本申请提供一种语音匹配方法、装置、设备及存储介质,其方法包括:获取目标语音数据以及目标语音数据的声源位置坐标;根据声源位置坐标,计算声源位置与语音接收位置之间的目标距离;根据目标距离,在预设的语音数据库中确定语音匹配范围,其中,语音匹配范围所包含的语音数据形成第一语音数据集,语音数据库所包含的语音数据形成第二语音数据集,第一语音数据集为第二语音数据集的子集;将目标语音数据与第一语音数据集中的语音数据进行语音匹配处理,获得目标语音数据对应的语音匹配结果。上述方法通过计算声源位置与声音接收位置之间的目标距离,在进行语音匹配时,将目标距离作为语音匹配的一个参照依据,可以大大提高语音匹配的精准度。音匹配的精准度。音匹配的精准度。


技术研发人员:

王丹 崔洋洋 杨登舟

受保护的技术使用者:

深圳市微纳集成电路与系统应用研究院

技术研发日:

2022.11.03

技术公布日:

2023/3/17

本文发布于:2024-09-22 04:24:51,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/79049.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:语音   所述   数据   声源
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议