汽车鸣笛的声纹比较方法、装置、设备及存储介质与流程



1.本技术涉及声音识别领域,尤其涉及一种汽车鸣笛的声纹比较方法、装置、设备及存储介质。


背景技术:



2.在建设现代文明城市的过程中,对声音的污染治理也提出了明确的要求。比如,根据道路交通安全法规定,机动车不得在禁止鸣喇叭的区域或路段鸣喇叭。通过禁止乱鸣喇叭,可有效的减少城市噪声,有利于市民正常出行。
3.对于违法乱鸣喇叭的车辆进行监测时,通常采用声源定位技术,即通过声纳或麦克风陈列技术,对鸣笛汽车进行定位。然而,如果鸣笛汽车与其它车辆的距离较近,可能会出现鸣笛检测出错,或者无法准确的检测出违法鸣笛的车辆,不利于提高对鸣笛汽车的监测精度。


技术实现要素:



4.有鉴于此,本技术实施例提供了一种汽车鸣笛的声纹比较方法、装置、设备及存储介质,以解决现有技术中对鸣笛汽车进行检测时,可能会出错,或者无法准确的检测出违法鸣笛的车辆,不利于提高对鸣笛汽车的监测精度的问题。
5.本技术实施例的第一方面提供了一种汽车鸣笛的声纹比较方法,所述方法包括:采集环境中的声音数据,所述声音数据中包括汽车鸣笛声音;根据所述声音数据的音频的能量曲线进行声道划分,得到不同声道的声音数据;通过声音频谱分析,提取所述声音数据中的不同声道所包括的汽车鸣笛声音的频谱特征信息;通过预先训练完成的神经网络匹配模型提取所述声音数据中的不同声道所包括的听觉特征信息,并将所述频谱特征信息和所述听觉特征信息与预设的特征数据库进行匹配,确定所述声音数据匹配的目标声音;根据所述目标声音对所述环境中的声音数据进行定位。
6.结合第一方面,在第一方面的第一种可能实现方式中,所述神经网络匹配模型包括卷积输入层、隐含卷积层、输出层,在通过预先训练完成的神经网络匹配模型提取所述声音数据中的不同声道所包括的听觉特征信息之前,所述方法还包括:确定用于训练所述神经网络匹配模型的样本数据;将所述样本数据作为输入向量,输入到所述卷积输入层,根据所述输入向量生成隐含卷积层神经元,根据卷积输入层到隐含卷积层的连接权值生成卷积层神经元,通过输出层输出训练结果;根据所述输出层的输入向量与输出层的输出向量修正隐含卷积层至输出层之间的连接权值,根据隐含卷积层与输出层的连接权值修正所述卷积输入层到所述隐含卷积层的连接权值,根据所述隐含卷积层的激活集数映射对隐含卷积层的连接权值进行修正;
根据修正后的神经网络匹配模型的输出结果与样本数据中的样本结果确定全局误差,根据所述全局误差反复训练,直到所述全局误差符合预定的要求。
7.结合第一方面,在第一方面的第二种可能实现方式中,在通过声音频谱分析,提取所述声音数据中的不同声道所包括的汽车鸣笛声音的频谱特征信息之前,所述方法还包括:根据峰值密度确定所述声音数据的鸣笛音频值和背景噪声的插值频谱;对所述插值频谱进行分帧处理,根据预定的背景噪声特征确定分帧中的背景噪声;对所述背景噪声进行卷积运算得到反向抑制声音;将所述反向抑制声音和所述声音数据合成,得到降噪后的声音数据。
8.结合第一方面,在第一方面的第三种可能实现方式中,在通过声音频谱分析,提取所述声音数据中的不同声道所包括的汽车鸣笛声音的频谱特征信息之前,所述方法还包括:采集环境中的未存在汽车鸣笛时的空白声噪;根据所述空白声噪的均值确定滤波阈值;根据所述滤波阈值对所述声音数据进行过滤。
9.结合第一方面,在第一方面的第四种可能实现方式中,在并将所述频谱特征信息和所述听觉特征信息与预设的特征数据库进行匹配之前,所述方法还包括:对所述频谱特征信息进行归一化处理。
10.结合第一方面,在第一方面的第五种可能实现方式中,所述频谱特征信息包括鸣笛持续时长、响度峰值、音频峰谱均值、能量曲线振荡差异特征和能量波动特征中的一项或者多项,所述听觉特征信息包括声场特征和音调特征中的一项或者多项。
11.结合第一方面,在第一方面的第六种可能实现方式中,根据所述目标声音对所述环境中的声音数据进行定位,包括:根据所述目标声音查所述频谱特征信息的车辆品牌特征;基于所查的车辆品牌特征,识别所采集的现场图像中与所述车辆品牌特征匹配的目标车辆,根据所查的目标车辆对所述声音数据进行定位。
12.本技术实施例的第二方面提供了一种汽车鸣笛的声纹比较装置,所述装置包括:声音数据采集单元,用于采集环境中的声音数据,所述声音数据中包括汽车鸣笛声音;声道划分单元,用于根据所述声音数据的音频的能量曲线进行声道划分,得到不同声道的声音数据;特征提取单元,用于通过声音频谱分析,提取所述声音数据中的不同声道所包括的汽车鸣笛声音的频谱特征信息;特征匹配单元,用于通过预先训练完成的神经网络匹配模型提取所述声音数据中的不同声道所包括的听觉特征信息,并将所述频谱特征信息和所述听觉特征信息与预设的特征数据库进行匹配,确定所述声音数据匹配的目标声音;鸣笛汽车定位单元,用于根据所述目标声音对所述环境中的声音数据进行定位。
13.本技术实施例的第三方面提供了汽车鸣笛的声纹比较设备,包括存储器、处理器
以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面任一项所述方法的步骤。
14.本技术实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面任一项所述方法的步骤。
15.本技术实施例与现有技术相比存在的有益效果是:本技术实施例通过对采集的声音数据进行声道划分,基于不同声道提取频谱特征信息,基于预先训练完成的神经网络匹配模型提取声音数据中的听觉特征信息,所提取的频谱特征信息,结合所述听觉特征信息进行匹配计算,确定声音数据所匹配的目标声音,基于所匹配的声音,对环境中鸣笛的车辆进行定位验证,由于本技术基于不同声道的声音数据的频谱特征信息和听觉特征信息进行匹配,从而有利于提高对鸣笛汽车的监测精度。
附图说明
16.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
17.图1是本技术实施例提供的一种汽车鸣笛的声纹比较方法的实现流程示意图;图2是本技术实施例提供的方法的一种神经网络匹配模型的训练方法实现流程示意图;图3是本技术实施例提供的一种汽车鸣笛的声纹比较的装置的示意图;图4是本技术实施例提供的汽车鸣笛的声纹比较设备的示意图。
具体实施方式
18.以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本技术实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本技术。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本技术的描述。
19.为了说明本技术所述的技术方案,下面通过具体实施例来进行说明。
20.在对车辆进行鸣笛监测时,通常采用声纳(或者称为麦克风阵列)来检测鸣笛的车辆。当车道上的车辆较为稀疏,即车辆之间的距离较远时,通过声纳可以较为准确的定位到鸣笛的车辆。但是,当车道上的车辆较为密集,且在发出鸣笛的车辆与声纳之间包括多个距离较小的车辆时,可能会出现误检测的情况,比如无法确认鸣笛是由距离较近的两辆车中的哪一辆车发出。为了解决上述问题,本技术实施例提出了一种汽车鸣笛的声纹比较方法,如图1所示,该方法包括:在s101中,采集环境中的声音数据,所述声音数据中包括汽车鸣笛声音。
21.本技术实施例中,可以通过声音传感器,比如声纳采集所述环境中的声音数据。可以根据声音数据中的声音强度等信息,确定声音数据中所包括的鸣笛声音。比如,可以根据预先设定的声音响度阈值,将所采集的声音数据与所述声音响度阈值进行比较,确定所述
声音数据中所包括的鸣笛声音,包括确定所述鸣笛声音的开始时间、结束时间等。
22.当本技术所述汽车鸣笛的声纹比较方法应用于非法鸣笛区域的车辆鸣笛检测时,可以在该区域设定声音传感器,基于所设定的声音传感器对鸣笛汽车进行定位或声音重放验证。其中,当本技术所述方法用于声音重放验证时,可以将现场采样的声音作为预先确定的声音,将用于验证的声音作为环境中的声音数据进行匹配计算。或者,将现场采集的声音作为环境中的声音数据,将验证的声音作为预先确定的声音数据进行匹配计算。
23.在s102中,根据所述声音数据的音频的能量曲线进行声道划分,得到不同声道的声音数据。
24.在对所述声音数据中的汽车鸣笛声音的频谱特征信息进行提取时,可以对汽车鸣笛声音进行声道划分,包括将汽车鸣笛声音中不同能量曲线的声频划分相应的处理声道,对不同声道之间进行同步的频谱特征信息的识别和提取,获取不同声道的频谱特征信息,基于不同声道的频谱特征信息进行匹配计算和定位,有利于提高声纹匹配的精度。
25.在s103中,通过声音频谱分析,提取所述声音数据中的不同声道所包括的汽车鸣笛声音的频谱特征信息。
26.在本技术实施例中,在对所述声音数据进行频谱特征信息提取之前,还可以对所述声音数据进行背景噪声抑制的预处理。
27.其中,对所述声音数据进行预处理可以包括对声音的背景噪声的抑制。所述背景噪声即为环境中未存在鸣笛的汽车时,由声音传感器所采集的声音。
28.对所述背景噪声进行抑制处理时,可以基于滤波处理的方式,或者也可以基于反向抑制的方式。
29.通过滤波处理时,可以分析声音采集过程中的短时能量获取汽车鸣笛声采集前,或者采集后的空白声噪。可以采集多个空白声噪,根据空白声噪的多重均值,得到滤波阈值的数据,基于所确定的滤波阈值,进行滤波处理。
30.在可能的实现方式中,还可以通过对比分析汽车鸣笛声音功率与空白声噪功率的插值。通过获取背景声频中的背景噪声功率谱的密度来判断噪声强度,当空白声噪强度超出所设定的噪声阈值,则会影响到声音识别处理,此时,可以基于反向抑制的方式对背景噪声进行抑制处理。所述噪声阈值可以根据路段、车辆能行时间进行相应的预测或设置。
31.通过反向抑制处理时,可以根据峰值密度判断汽车鸣笛的音频值和相应的背景噪声的插值频谱。可以根据插值频谱进行一段时间内的分帧处理,得到不同分帧的声频数据。根据分帧后的音频数据分析判断出频域上具有共振峰结构和能量集中在预定的较低频段内,比如频率小于预定频率值的频段内的背景噪声特征。将提取后的每一帧的背景噪声特征通过与带阻滤波器进行卷积运算,进行抑制加权后,得到反向抑制声音。将计算得到的反向抑制声音,通过音频合成器反向录入输出中和背景抑制因子合成音频中,合成后输出得到相应的降噪后的汽车鸣笛声音。
32.本技术通过对声音进行降噪滤波的预处理后,能够通过声音的频谱分析,提取所述声音数据中包括的频谱特征信息。
33.可以通过对环境噪声的分帧插值处理,提高对短频率高频词的声纹特征的快速分析判断,能够根据共振峰结构和能量集中在较低频段内的背景噪声特征得到提取声纹特征前后空白噪声的快速提取抑制,并且通过反向印制输出,能够快速得到降噪后的汽车鸣笛
声纹特征,降低特征通过神经网络模型提取时的加权向量的提取难度,进一步提高对汽车鸣笛声纹相似度的匹配效果,满足整体处理需要。
34.本技术实施例中,所述汽车鸣笛声音的频谱特征信息可以包括鸣笛持续时长、响度峰值、音频峰谱均值、能量曲线振荡差异特征和能量波动特征中的一项或者多项。
35.在s104中,通过预先训练完成的神经网络匹配模型提取所述声音数据中的不同声道所包括的听觉特征信息,并将所述频谱特征信息和所述听觉特征信息与预设的特征数据库进行匹配,确定所述声音数据匹配的目标声音。
36.在将所述频谱特征信息输入至神经网络匹配模型进行匹配计算之前,还可以包括对所述神经网络匹配模型的训练过程,如图2所示,该过程可以包括:在s201中,确定用于训练所述神经网络匹配模型的样本数据。
37.所述样本数据,可以包括训练样本和验证样本。在训练过程中,可以基于训练样本对所述神经网络匹配模型进行训练,可以基于所述验证样本来验证所述神经网络匹配模型是否已训练完成。
38.在s202中,将所述样本数据作为输入向量,输入到所述卷积输入层,根据所述输入向量生成隐含卷积层神经元,根据卷积输入层到隐含卷积层的连接权值生成卷积层神经元,通过输出层输出训练结果。
39.可以从训练样本中提取频谱特征信息,或者直接使用已提取频谱特征信息的训练样本,将频谱特征信息在卷积输入层输入后,根据输入样本确定隐含卷积层的输入向量,对应的输入向量生成隐含卷积层神经元,并且根据卷积输入层到隐含卷积层的连接权值,得到隐含卷积层各神经元的参数值,根据隐含卷积层输入向量确定隐含卷积层输出向量,将卷积层特征值输入相应的训练数据,完整间距运算后,在输出层输入训练结果数据。
40.在s203中,根据所述输出层的输入向量与输出层的输出向量修正隐含卷积层至输出层之间的连接权值,根据隐含卷积层与输出层的连接权值修正所述卷积输入层到所述隐含卷积层的连接权值,根据所述隐含卷积层的激活集数映射对隐含卷积层的连接权值进行修正。
41.通过隐含卷积层的输出向量可以确定输出层的输入向量,根据所述输出层的输入向量,确定输出层的输出向量。根据训练结果,数据进行反向传播训练,根据输出层的输入向量和输出层的输出向量修正隐含卷积层到输出层的连接权值,根据隐含卷积层与输出层的连接权值修正卷积输入层到隐含卷积层的连接权值,根据隐含卷积层的激活函数映射得到隐含卷积层的连接权值,得到卷积层特征值的阈值更新。
42.在s204中,根据修正后的神经网络匹配模型的输出结果与样本数据中的样本结果确定全局误差,根据所述全局误差反复训练,直到所述全局误差符合预定的要求。
43.对隐含卷积层特征阈值持续训练更新或修正后,可以得到所述神经网络模型的实际输出,根据数据输出确定全局误差,判断全局误差是否小于预设误差阈值,获得判断验证结果。根据验证结果,若为全局误差大于误差阈值的验证结果,返回所述隐含层进行再次输入验证,训练后的隐含卷积层特征,能够根据输入层输入数据匹配卷积特征,通过验证集进行验证训练,验证合格后,训练完成。
44.在本技术实施例中,在将所述频谱特征信息和预先确定的不同声道的声音数据输入至预先训练完成的神经网络匹配模型进行声音特征信息提取和匹配计算之前,还可以对
所述频谱特征信息进行归一化处理。
45.可以通过预先设定的分析模型库对频谱特征数据的归一化处理。包括对频谱特征数据根据特征阈值进行阈值差值的记录,降低后续匹配时的特征匹配难度。在可能的实现方式中,可以将输入的频谱特征数据根据某点的输出值与该点的估值之比来得到处理的归一化阈值,同时为了验证抑制效果,加入混响信号,输出匹配的滤波处理效果,可得到被拉平背景噪声的相应声效。
46.在可能的实现方式中,可以通过对输入数据后的整体归一化滤波处理,实现声纹数据的波峰波谷归一化处理调整,同时并够通过对特征数据的归一化处理,从而能够有效提高声纹特征的快速判断效率,同时,通过数据匹配后的滤波处理效果,得到背景噪声抑制的录入声效,进一步提高匹配处理的效率,满足整体处理需要。
47.本技术实施例中,所述听觉特征信息包括声场特征、音特征、音响特征和音调特征中的一项或者多项。其中,声场特征可以包括声压、声源的质点振动速度、声源的位移或媒质密度等特征中的一项或者多项。
48.在s105中,根据所述目标声音对所述环境中的声音数据进行定位。
49.根据所匹配的目标声音,结合预先设定的车辆与声音的对应关系,可以查与所述声音数据匹配的目标声音。从而便于对非法鸣笛的车辆进行现场确认,得到更为准确的定位结果。
50.在可能的实现方式中,所确定的目标声音可以与车辆品牌特征对应。在确定所述声音数据匹配的目标声音后,可以相应的确定所述环境中的声音数据所对应的汽车品牌特征,比如确定鸣笛汽车的车辆品牌特征为具体品牌的具体车系。可以基于车辆品牌特征,在当前环境中的监测图像中,快速的定位该车辆品牌特征对应的车辆,从而能够有效的提高车流量密集场合下的车辆定位识别精度。
51.比如,通过目标声音查对应的汽车品牌特征为“汽车品牌a中的子品牌b”,结合所采集的监测图像,通过车型识别,或者通过车标识别,或者通过车牌号查的方式中的一种或者多种,确定所述监测图像中各辆汽车的汽车品牌特征,根据图像中识别的汽车品牌特征与所述目标声音的汽车品牌特征进行匹配,从而便于确定存在大量汽车的场景中,快速的对违法鸣笛汽车进行声纹比较和定位,提高定位精度。
52.在本技术实施例中,还可以根据所提取的频谱特征信息、听觉特征信息与目标声音的对应关系,更新和完善至特征数据库。通过不断的完善特征数据库中的特征信息,从而提高声纹匹配的成功率和准确度。
53.应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本技术实施例的实施过程构成任何限定。
54.图3为本技术实施例提供的一种汽车鸣笛的声纹比较装置的示意图,如图3所示,该装置包括:声音数据采集单元301,用于采集环境中的声音数据,所述声音数据中包括汽车鸣笛声音;声道划分单元302,用于根据所述声音数据的音频的能量曲线进行声道划分,得到不同声道的声音数据;
特征提取单元303,用于通过声音频谱分析,提取所述声音数据中的不同声道所包括的汽车鸣笛声音的频谱特征信息;特征匹配单元304,用于通过预先训练完成的神经网络匹配模型提取所述声音数据中的不同声道所包括的听觉特征信息,并将所述频谱特征信息和所述听觉特征信息与预设的特征数据库进行匹配,确定所述声音数据匹配的目标声音;鸣笛汽车定位单元305,用于根据所述目标声音对所述环境中的声音数据进行定位。
55.图3所示的汽车鸣笛的声纹比较装置,与图1所示的汽车鸣笛的声纹比较方法对应。
56.图4是本技术一实施例提供的汽车鸣笛的声纹比较设备的示意图。如图4所示,该实施例的汽车鸣笛的声纹比较设备4包括:处理器40、存储器41以及存储在所述存储器41中并可在所述处理器40上运行的计算机程序42,例如汽车鸣笛的声纹比较程序。所述处理器40执行所述计算机程序42时实现上述各个汽车鸣笛的声纹比较方法实施例中的步骤。或者,所述处理器40执行所述计算机程序42时实现上述各装置实施例中各模块/单元的功能。
57.示例性的,所述计算机程序42可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器41中,并由所述处理器40执行,以完成本技术。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序42在所述汽车鸣笛的声纹比较设备4中的执行过程。
58.所述汽车鸣笛的声纹比较设备可包括,但不仅限于,处理器40、存储器41。本领域技术人员可以理解,图4仅仅是汽车鸣笛的声纹比较设备4的示例,并不构成对汽车鸣笛的声纹比较设备4的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述汽车鸣笛的声纹比较设备还可以包括输入输出设备、网络接入设备、总线等。
59.所称处理器40可以是中央处理单元(central processing unit,cpu),还可以是其他通用处理器、数字信号处理器 (digital signal processor,dsp)、专用集成电路 (application specific integrated circuit,asic)、现场可编程门阵列 (field-programmable gate array,fpga) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
60.所述存储器41可以是所述汽车鸣笛的声纹比较设备4的内部存储单元,例如汽车鸣笛的声纹比较设备4的硬盘或内存。所述存储器41也可以是所述汽车鸣笛的声纹比较设备4的外部存储设备,例如所述汽车鸣笛的声纹比较设备4上配备的插接式硬盘,智能存储卡(smart media card, smc),安全数字(secure digital, sd)卡,闪存卡(flash card)等。进一步地,所述存储器41还可以既包括所述汽车鸣笛的声纹比较设备4的内部存储单元也包括外部存储设备。所述存储器41用于存储所述计算机程序以及所述汽车鸣笛的声纹比较设备所需的其他程序和数据。所述存储器41还可以用于暂时地存储已经输出或者将要输出的数据。
61.所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的
功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本技术的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
62.在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
63.本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。
64.在本技术所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
65.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
66.另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
67.所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术实现上述实施例方法中的全部或部分流程,也可以通过计算机程序指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括是电载波信号和电信信号。
68.以上所述实施例仅用以说明本技术的技术方案,而非对其限制;尽管参照前述实
施例对本技术进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围,均应包含在本技术的保护范围之内。

技术特征:


1.一种汽车鸣笛的声纹比较方法,其特征在于,所述方法包括:采集环境中的声音数据,所述声音数据中包括汽车鸣笛声音;根据所述声音数据的音频的能量曲线进行声道划分,得到不同声道的声音数据;通过声音频谱分析,提取所述声音数据中的不同声道所包括的汽车鸣笛声音的频谱特征信息;通过预先训练完成的神经网络匹配模型提取所述声音数据中的不同声道所包括的听觉特征信息,并将所述频谱特征信息和所述听觉特征信息与预设的特征数据库进行匹配,确定所述声音数据匹配的目标声音;根据所述目标声音对所述环境中的声音数据进行定位。2.根据权利要求1所述的方法,其特征在于,所述神经网络匹配模型包括卷积输入层、隐含卷积层、输出层,在通过预先训练完成的神经网络匹配模型提取所述声音数据中的不同声道所包括的听觉特征信息之前,所述方法还包括:确定用于训练所述神经网络匹配模型的样本数据;将所述样本数据作为输入向量,输入到所述卷积输入层,根据所述输入向量生成隐含卷积层神经元,根据卷积输入层到隐含卷积层的连接权值生成卷积层神经元,通过输出层输出训练结果;根据所述输出层的输入向量与输出层的输出向量修正隐含卷积层至输出层之间的连接权值,根据隐含卷积层与输出层的连接权值修正所述卷积输入层到所述隐含卷积层的连接权值,根据所述隐含卷积层的激活集数映射对隐含卷积层的连接权值进行修正;根据修正后的神经网络匹配模型的输出结果与样本数据中的样本结果确定全局误差,根据所述全局误差反复训练,直到所述全局误差符合预定的要求。3.根据权利要求1所述的方法,其特征在于,在通过声音频谱分析,提取所述声音数据中的不同声道所包括的汽车鸣笛声音的频谱特征信息之前,所述方法还包括:根据峰值密度确定所述声音数据的鸣笛音频值和背景噪声的插值频谱;对所述插值频谱进行分帧处理,根据预定的背景噪声特征确定分帧中的背景噪声;对所述背景噪声进行卷积运算得到反向抑制声音;将所述反向抑制声音和所述声音数据合成,得到降噪后的声音数据。4.根据权利要求1所述的方法,其特征在于,在通过声音频谱分析,提取所述声音数据中的不同声道所包括的汽车鸣笛声音的频谱特征信息之前,所述方法还包括:采集环境中的未存在汽车鸣笛时的空白声噪;根据所述空白声噪的均值确定滤波阈值;根据所述滤波阈值对所述声音数据进行过滤。5.根据权利要求1所述的方法,其特征在于,在并将所述频谱特征信息和所述听觉特征信息与预设的特征数据库进行匹配之前,所述方法还包括:对所述频谱特征信息进行归一化处理。6.根据权利要求1所述的方法,其特征在于,所述频谱特征信息包括鸣笛持续时长、响度峰值、音频峰谱均值、能量曲线振荡差异特征和能量波动特征中的一项或者多项,所述听觉特征信息包括声场特征和音调特征中的一项或者多项。7.根据权利要求1所述的方法,其特征在于,根据所述目标声音对所述环境中的声音数
据进行定位,包括:根据所述目标声音查所述频谱特征信息的车辆品牌特征;基于所查的车辆品牌特征,识别所采集的现场图像中与所述车辆品牌特征匹配的目标车辆,根据所查的目标车辆对所述声音数据进行定位。8.一种汽车鸣笛的声纹比较装置,其特征在于,所述装置包括:声音数据采集单元,用于采集环境中的声音数据,所述声音数据中包括汽车鸣笛声音;声道划分单元,用于根据所述声音数据的音频的能量曲线进行声道划分,得到不同声道的声音数据;特征提取单元,用于通过声音频谱分析,提取所述声音数据中的不同声道所包括的汽车鸣笛声音的频谱特征信息;特征匹配单元,用于通过预先训练完成的神经网络匹配模型提取所述声音数据中的不同声道所包括的听觉特征信息,并将所述频谱特征信息和所述听觉特征信息与预设的特征数据库进行匹配,确定所述声音数据匹配的目标声音;鸣笛汽车定位单元,用于根据所述目标声音对所述环境中的声音数据进行定位。9.一种汽车鸣笛的声纹比较设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述方法的步骤。10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。

技术总结


本申请涉及声音识别领域,提出了一种汽车鸣笛的声纹比较方法、装置、设备及存储介质。该方法包括:采集环境中的声音数据;进行声道划分得到不同声道的声音数据;提取所述声音数据中的不同声道所包括的汽车鸣笛声音的频谱特征信息;通过预先训练完成的神经网络匹配模型提取所述声音数据中的不同声道所包括的听觉特征信息,并将所述频谱特征信息和所述听觉特征信息与预设的特征数据库进行匹配,确定所述声音数据匹配的目标声音;根据所述目标声音对所述环境中的声音数据进行定位。本申请基于不同声道的声音数据的频谱特征信息和听觉特征信息进行匹配,从而有利于提高对鸣笛汽车的监测精度。测精度。测精度。


技术研发人员:

王丹 崔洋洋 杨登舟

受保护的技术使用者:

深圳市微纳感知计算技术有限公司

技术研发日:

2022.08.29

技术公布日:

2022/9/26

本文发布于:2024-09-23 05:24:06,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/36396.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:所述   声音   特征   卷积
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议