一种环境声音分类分析方法、装置和介质与流程

1.本技术涉及声音分类领域，尤其是一种环境声音分类分析方法、装置和介质。

背景技术：

2.环境声音分类的使用任务能够应用于分类不同的乐器、机器人导航、医疗或医疗问题、客户或买家提醒、犯罪警报系统、语音活动识别、基于音频的灾难识别、环境监测等。声音分类可以参与到许多应用中，这表明了它的重要性。声音的分类是为了识别小的音频剪辑或录音的声音类别。对从音频信号中得到的接收到的信息进行了详细的分析。认识到周围声音的环境并立即采取行动以降低风险是非常重要的。
3.相关技术采用的环境声音分类技术多为通过提取环境声音的mfcc及机器学习分类方法实现，这种方法较为简单，并且由于环境声音的噪音较多，对环境声音分类分析的精确度较低。
4.因此，相关技术存在的上述技术问题亟待解决。

技术实现要素：

5.本技术旨在解决相关技术中的技术问题之一。为此，本技术实施例提供一种环境声音分类分析方法、装置和介质，能够较为准确地对环境声音进行分类和分析。
6.根据本技术实施例一方面，提供一种环境声音分类分析方法，所述方法包括：
7.对语音训练数据进行数据增强；
8.进行数据预处理并对环境声音进行特征提取，得到特征向量；
9.采用深度cnn网络对所述特征向量进行模型训练，获得所述环境声音的多分类模型并输出。
10.在其中一个实施例中，所述对语音训练数据进行数据增强，至少包括：
11.移动正音高：对所述环境声音的数据集中每个音频信号的音高都增加一个正因子；
12.移动负音高：对所述环境声音的数据集中每个音频信号的音高都增加一个负因子；
13.静音修剪：修剪音频剪辑的静音部分，只保留包含声音的部分；
14.快速拉伸时间：将数据集的每个声音剪辑的时间拉伸到原来的2倍；
15.缓慢拉伸时间：将数据集的每个声音剪辑的时间拉伸到原来的0.7倍；
16.添加白噪声：在所述环境声音的数据集中添加白噪声。
17.在其中一个实施例中，所述数据预处理包括增加端点检测和去静音功能。
18.在其中一个实施例中，所述对环境声音进行特征提取，包括：
19.采用log-mel特征提取方法对环境声音进行特征提取。
20.在其中一个实施例中，采用log-mel特征提取方法对环境声音进行特征提取后，所述方法还包括：
21.得到梅尔频谱图和梅尔倒谱系数；
22.将所述梅尔频谱图和梅尔倒谱系数进行特征融合。
23.在其中一个实施例中，得到梅尔频谱图和梅尔倒谱系数后，所述方法还包括：
24.将所述梅尔频谱图和梅尔倒谱系数输入深度cnn网络进行模型训练。
25.在其中一个实施例中，在所述对语音训练数据进行数据增强前，所述方法还包括：
26.获取环境声音；
27.对所述环境声音进行滤波处理，过滤环境噪音。
28.根据本技术实施例一方面，提供一种环境声音分类分析装置，所述装置包括：
29.数据增强模块，用于对语音训练数据进行数据增强；
30.特征提取模块，用于进行数据预处理并对环境声音进行特征提取，得到特征向量；
31.训练分类模块，用于采用深度cnn网络对所述特征向量进行模型训练，获得所述环境声音的多分类模型并输出。
32.根据本技术实施例一方面，提供一种环境声音分类分析装置，所述装置包括：
33.至少一个处理器；
34.至少一个存储器，所述存储器用于存储至少一个程序；
35.当至少一个所述程序被至少一个所述处理器执行时实现如前面实施例所述的一种环境声音分类分析方法。
36.根据本技术实施例一方面，提供介质，所述介质存储有处理器可执行的程序，所述处理器可执行的程序被处理器执行时实现如前面实施例所述的一种环境声音分类分析方法。
37.本技术实施例提供的一种环境声音分类分析方法、装置和介质的有益效果为：本技术提供一种环境声音分类分析方法，所述方法包括：对语音训练数据进行数据增强；进行数据预处理并对环境声音进行特征提取，得到特征向量；采用深度cnn网络对所述特征向量进行模型训练，获得所述环境声音的多分类模型并输出。本技术采用了数据增强的方法，通过实验表明其训练效果相比没有数据增强有了较大提升，提高了系统的实用价值。
38.本技术的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本技术的实践了解到。
附图说明
39.为了更清楚地说明本技术实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
40.图1为本技术实施例提供的一种环境声音分类分析方法流程图；
41.图2为本技术实施例提供的一种环境声音分类分析方法的工作过程示意图；
42.图3为本技术实施例提供的一种环境声音分类分析装置示意图；
43.图4为本技术实施例提供的一种环境声音分类分析装置的另一示意图。
具体实施方式
44.为了使本技术领域的人员更好地理解本技术方案，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分的实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本技术保护的范围。
45.本技术的说明书和权利要求书及附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
46.在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。
47.环境声音分类的使用任务能够应用于分类不同的乐器、机器人导航、医疗或医疗问题、客户或买家提醒、犯罪警报系统、语音活动识别、基于音频的灾难识别、环境监测等。声音分类可以参与到许多应用中，这表明了它的重要性。声音的分类是为了识别小的音频剪辑或录音的声音类别。对从音频信号中得到的接收到的信息进行了详细的分析。认识到周围声音的环境并立即采取行动以降低风险是非常重要的。
48.相关技术采用的环境声音分类技术多为通过提取环境声音的mfcc及机器学习分类方法实现，这种方法较为简单，并且由于环境声音的噪音较多，对环境声音分类分析的精确度较低。
49.为了解决上述问题，本技术提出一种环境声音分类分析方法。
50.为了便于理解，接下来对本说明书可能出现的专业术语和词汇进行解释说明，具体如下：
51.深度学习：深度学习是机器学习的一种，而机器学习是实现人工智能的必经路径。深度学习的概念源于人工神经网络的研究，含多个隐藏层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。研究深度学习的动机在于建立模拟人脑进行分析学习的神经网络，它模仿人脑的机制来解释数据，例如图像，声音和文本等。
52.语音处理：语音处理是计算机科学领域以及人工智能领域的一个重要的研究方向，它研究用计算机来处理、，达到人与计算机之间进行有效通讯。语音处理主要应用于语音分类、噪声检测、语音识别等方面。
53.梅尔倒频谱(mfcc)：指梅尔倒频谱，在信号处理中，梅尔倒频谱系一个可用来代表短期音频的频谱，其原理基于用非线性的梅尔刻度表示的对数频谱及其线性余弦转换上。梅尔频率倒谱系数是一组用来创建梅尔倒频谱的关键系数。由音乐信号当中的片段，可以得到一组足以代表此音乐信号之倒频谱，而梅尔倒频谱系数即是从这个倒频谱中推得的倒频谱。
54n：卷积神经网络(cnn或convnet)是一类深度神经网络，最常用于分析视觉图像。cnn使用多层感知器的变体设计，需要最少的预处理。它们也被称为移位不变或空间不变人工神经网络(siann)，基于它们的共享权重架构和平移不变性特征。
55.图1为本技术实施例提供的一种环境声音分类分析方法流程图，如图1所示，本技术提出的环境声音分类分析方法包括：
56.s101、对语音训练数据进行数据增强。
57.步骤s101中所述对语音训练数据进行数据增强，至少包括：移动正音高：对所述环境声音的数据集中每个音频信号的音高都增加一个正因子；移动负音高：对所述环境声音的数据集中每个音频信号的音高都增加一个负因子；静音修剪：修剪音频剪辑的静音部分，只保留包含声音的部分；快速拉伸时间：将数据集的每个声音剪辑的时间拉伸到原来的2倍；缓慢拉伸时间：将数据集的每个声音剪辑的时间拉伸到原来的0.7倍；添加白噪声：在所述环境声音的数据集中添加白噪声。
58.s102、进行数据预处理并对环境声音进行特征提取，得到特征向量。
59.步骤s102中的所述数据预处理包括增加端点检测和去静音功能。端点检测功能的作用在于对音频数据的端点进行完整性和正确性检测，防止出现音频数据或片段不完整的情况出现，在检测端点异常时能够及时通知技术人员对端点进行修复。
60.其中，所述对环境声音进行特征提取，具体为：采用log-mel特征提取方法对环境声音进行特征提取。采用log-mel特征提取方法的作用在于，获取的音频数据如果直接进行自动识别则效果非常差，这是由于音频存在很多噪音，并且音频中需要的有效数据并没有被凸显出来，而使用mel特征提取可以将音频数据里有效信息进行提取、无用信息进行过滤，log-mel特征提取方法的原理是模拟人耳构造，对音频进行滤波，处理过后的数据再自动识别效果会有显著提升。
61.进一步地，采用log-mel特征提取方法对环境声音进行特征提取后，所述方法还包括：得到梅尔频谱图和梅尔倒谱系数；将所述梅尔频谱图和梅尔倒谱系数进行特征融合。得到梅尔频谱图和梅尔倒谱系数后，可以将所述梅尔频谱图和梅尔倒谱系数输入深度cnn网络进行模型训练。
62.s103、采用深度cnn网络对所述特征向量进行模型训练，获得所述环境声音的多分类模型并输出。
63.需要说明的是，环境声音中往往包含有很多自然噪音，如果不对这些自然产生的噪音进行初步滤除，则会影响最终环境声音分类的准确性，容易产生误判。因此，在本实施例的所述对语音训练数据进行数据增强前，所述方法还包括：获取环境声音；对所述环境声音进行滤波处理，过滤环境噪音。
64.本技术采用了数据增强的方法，通过实验表明其训练效果相比没有数据增强有了较大提升，提高了系统的实用价值。
65.图2为本技术实施例提供的一种环境声音分类分析方法的工作过程示意图，如图2所示，本技术实施例提供的一种环境声音分类分析方法的工作过程主要为：通过外置设备接收音频数据，对接收的音频数据进行数据增强处理，其中，数据增强处理包括但不限于音高增高处理、音高减弱处理、静音裁剪处理、快速时间拉伸处理、慢速时间拉伸处理和增加白噪声处理，将处理过后的音频数据进行增强数据散列处理，最后输入音频特征提取模块；
在音频特征提取时主要提取音频数据的mel谱图特征和mfcc，之后将音频数据的mel谱图特征和mfcc进行特征融合，输入深度cnn模型中进行训练，最后得到一个训练完成的cnn模型，可以应用于各种不同场景的环境声音分类与分析。
66.在本实施例中，计算得到mfcc的具体步骤包括：将信号帧化为短帧；对于每个帧，计算功率谱的周期图估计；将mel滤波器组应用于功率谱，将每个滤波器中的能量相加；取所有滤波器组能量的对数；获取日志滤波器组能量的dct；保持dct系数2-13，丢弃其余部分。
67.本实施例考虑了mel、mfcc和logmel音频特征提取技术的实现，使用了三种音频特征提取技术，这些特征提取技术包括mel谱图(mel)、对数mel和mel频率频率系数(mfcc)，本方案还提出使用基于音频的离线增强和变形数据集的l2正则化，以减少数据不足导致的过拟合风险。在这些增强的数据集上使用的具有相同的音频特征提取技术的相同的模型。通过深度cnn不涉及任何具有log-mel特性的最大池函数(model-2)，以及使用增强的数据集进行训练，可以在环境声音分类任务中取得出的效果。
68.图3为本技术实施例提供的一种环境声音分类分析装置示意图，本技术还提供了一种环境声音分类分析装置，如图3所示，本技术提供的一种环境声音分类分析装置包括：
69.数据增强模块301，用于对语音训练数据进行数据增强。
70.特征提取模块302，用于进行数据预处理并对环境声音进行特征提取，得到特征向量。
71.训练分类模块303，用于采用深度cnn网络对所述特征向量进行模型训练，获得所述环境声音的多分类模型并输出。
72.图4为本技术实施例提供的一种环境声音分类分析装置的另一示意图，如图4所示，本技术还提出一种环境声音分类分析装置，所述装置包括：
73.至少一个处理器401；
74.至少一个存储器402，所述存储器402用于存储至少一个程序；
75.当至少一个所述程序被至少一个所述处理器401执行时实现如前面实施例所述的一种环境声音分类分析方法。
76.上述方法实施例中的内容均适用于本装置施例中，本装置实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
77.此外，本技术还提供介质，所述介质存储有处理器可执行的程序，所述处理器可执行的程序被处理器执行时实现如前面实施例所述的一种环境声音分类分析方法。
78.同理，上述方法实施例中的内容均适用于本存储介质实施例中，本存储介质实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
79.在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或方框有时能以相反顺序被执行。此外，在本技术的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变
以及其中被描述为较大操作的一部分的子操作被独立地执行。
80.此外，虽然在功能性模块的背景下描述了本技术，但应当理解的是，除非另有相反说明，功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本技术是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本技术。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本技术的范围，本技术的范围由所附权利要求书及其等同方案的全部范围来决定。
81.功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本技术各个实施例方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
82.在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
83.计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(ram)，只读存储器(rom)，可擦除可编辑只读存储器(eprom或闪速存储器)，光纤装置，以及便携式光盘只读存储器(cdrom)。另外，计算机可读介质甚至可以是可在其上打印程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序，然后将其存储在计算机存储器中。
84.应当理解，本技术的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(pga)，现场可编程门阵列(fpga)等。
85.在本说明书的上述描述中，参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本技术的至少一个实施方式或示例中。在本说明书中，对上述术语
的示意性表述不一定指的是相同的实施方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。
86.尽管已经示出和描述了本技术的实施方式，本领域的普通技术人员可以理解：在不脱离本技术的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型，本技术的范围由权利要求及其等同物限定。
87.以上，以上实施例仅用以说明本技术的技术方案，而非对其限制；尽管参照前述实施例对本技术进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围。

技术特征：

1.一种环境声音分类分析方法，其特征在于，所述方法包括：对语音训练数据进行数据增强；进行数据预处理并对环境声音进行特征提取，得到特征向量；采用深度cnn网络对所述特征向量进行模型训练，获得所述环境声音的多分类模型并输出。2.根据权利要求1所述的一种环境声音分类分析方法，其特征在于，所述对语音训练数据进行数据增强，至少包括：移动正音高：对所述环境声音的数据集中每个音频信号的音高都增加一个正因子；移动负音高：对所述环境声音的数据集中每个音频信号的音高都增加一个负因子；静音修剪：修剪音频剪辑的静音部分，只保留包含声音的部分；快速拉伸时间：将数据集的每个声音剪辑的时间拉伸到原来的2倍；缓慢拉伸时间：将数据集的每个声音剪辑的时间拉伸到原来的0.7倍；添加白噪声：在所述环境声音的数据集中添加白噪声。3.根据权利要求1所述的一种环境声音分类分析方法，其特征在于，所述数据预处理包括增加端点检测和去静音功能。4.根据权利要求1所述的一种环境声音分类分析方法，其特征在于，所述对环境声音进行特征提取，包括：采用log-mel特征提取方法对环境声音进行特征提取。5.根据权利要求4所述的一种环境声音分类分析方法，其特征在于，采用log-mel特征提取方法对环境声音进行特征提取后，所述方法还包括：得到梅尔频谱图和梅尔倒谱系数；将所述梅尔频谱图和梅尔倒谱系数进行特征融合。6.根据权利要求5所述的一种环境声音分类分析方法，其特征在于，得到梅尔频谱图和梅尔倒谱系数后，所述方法还包括：将所述梅尔频谱图和梅尔倒谱系数输入深度cnn网络进行模型训练。7.根据权利要求1所述的一种环境声音分类分析方法，其特征在于，在所述对语音训练数据进行数据增强前，所述方法还包括：获取环境声音；对所述环境声音进行滤波处理，过滤环境噪音。8.一种环境声音分类分析装置，其特征在于，所述装置包括：数据增强模块，用于对语音训练数据进行数据增强；特征提取模块，用于进行数据预处理并对环境声音进行特征提取，得到特征向量；训练分类模块，用于采用深度cnn网络对所述特征向量进行模型训练，获得所述环境声音的多分类模型并输出。9.一种环境声音分类分析装置，其特征在于，所述装置包括：至少一个处理器；至少一个存储器，所述存储器用于存储至少一个程序；当至少一个所述程序被至少一个所述处理器执行时实现如权利要求1-7中任一项所述的一种环境声音分类分析方法。
10.介质，其特征在于，所述介质存储有处理器可执行的程序，所述处理器可执行的程序被处理器执行时实现如权利要求1-7中任一项所述的一种环境声音分类分析方法。

技术总结

本申请公开了一种环境声音分类分析方法、装置和介质，其中的方法包括：对语音训练数据进行数据增强；进行数据预处理并对环境声音进行特征提取，得到特征向量；采用深度CNN网络对所述特征向量进行模型训练，获得所述环境声音的多分类模型并输出。本申请采用了数据增强的方法，通过实验表明其训练效果相比没有数据增强有了较大提升，提高了系统的实用价值。提高了系统的实用价值。提高了系统的实用价值。