一种基于神经网络的宠物声音识别方法及系统与流程

1.本发明涉及人工智能领域，尤其涉及基于声音的宠物声音识别方法及系统。

背景技术：

2.宠物能够给主人带来欢乐，缓解焦虑情绪，现代的家庭饲养宠物的越来越多。在众多的宠物中，宠物猫和宠物狗是饲养最多的，尤其是宠物猫，喜欢安静的环境，和现代生活非常匹配。宠物帮助人们排除寂寞、消除烦恼，人们也越来越重视宠物的感受，人们对宠物的情绪的变化主要集中在宠物的动作和叫声上，通过宠物的动作和叫声判断宠物的感情。但是人耳能够辨别的声音有限，尤其是宠物声音细微的差别是人类无法区分的，就像人类说同样的话，语气的不同，表达的情感也不同。
3.计算机技术的快速发展给利用计算机识别宠物声音带来了可能，通过机器学习对猫的声音识别，以获得猫的情感信息，克服了人耳灵敏度不够以及无法区分宠物叫声细微差别的困难。声音识别的一般过程是采集声音信号，进行预处理以及特征提取，最后利用机器学习进行识别。机器学习可以分为有监督学习和无监督学习，有监督学习是根据有标注的训练集中学习，无监督学习中数据没有预先设置好的标签，让计算机自己发现规律，神经网络作为一种有监督学习方法，在语音识别中具有很好的效果，但是宠物的声音和人类的语音不同，其识别方法也有较大区别，用人类的语音识别方法识别宠物的声音会存在较大的误差。
4.动物不像人类有丰富的词汇，现有的动物声音识别只能识别动物的叫声，根据叫声判断出动物的需求或者要表达的内容，但是无法识别动物情感的强烈程度，例如宠物猫喵喵的叫声，其可能比较舒缓，也可能比较急促，虽然都是喵喵声音，但是感情的强烈程度是不同的。而且受到环境声音的影响，也会对识别结果有很大影响。如何能够准确的根据宠物的声音识别宠物的感情强烈程度是本领域亟待解决的问题。

技术实现要素：

5.为了能够准确、高效的根据宠物的声音识别宠物的情感的强烈程度，本发明提供了一种基于神经网络的宠物声音识别方法，所述方法包括以下步骤：
6.s1，获取宠物声音文件，对所述宠物声音波形的振幅进行归一化，计算归一化后的波形图的波形包络和振幅平均值，求出所述波形包络所有的极大值，根据所述极大值、所述振幅平均值以及预设时间确定峰值，根据峰值将所述波形图分为多个片段；
7.s2，对于每个片段，计算片段平均值，若所述片段平均值大于左右相邻片段的平均值，则将片段标记为待识别片段，否则标记为噪声片段；利用所述待识别片段左右相邻两侧的噪声片段对所述待识别片段降噪；
8.s3，将降噪后的每个所述待识别片段的频谱分别输入训练好的神经网络中得到类别及类别对应的概率，根据每个待识别片段的所述类别、所述概率和待识别片段之间的时间间距得到宠物的情感信息。
9.优选地，所述根据所述极大值、所述平均值以及预设时间确定峰值，根据峰值将所述波形图分为多个片段，具体包括：
10.当极大值大于所述平均值的预设倍数时，获取以所述极大值为中间点，预设时间范围内的最大值点，若所述极大值和所述最大值为同一点，则将所述最大值作为峰值，若所述极大值和所述最大值不为同一点，则将所述最大值作为中间点，获取以所述中间点为中心，预设时间范围内的最大值点，直到最大值点和中间点为同一点，将所述中间点作为峰值；
11.获取距离所述峰值大于预设时间且距离所述峰值最近的n个采样点，所述n个采样点的平均振幅小于所述振幅平均值且n个采样点振幅的平均差小于阈值，以所述n个采样点的中间位置作为分割点，将所述波形图分为多个片段。
12.优选地，所述利用所述待识别片段左右相邻两侧的噪声片段对所述待识别片段降噪，具体为：分别将所述待识别片段和左右两侧的噪声片段从时域转换到频域，计算左右相邻两侧的噪声片段频域中相同的频率及相同频率的幅度的平均值；在所述待识别片段的频域中减去所述相同频率的幅度的平均值，得到降噪后的待识别片段频域。
13.优选地，所述根据每个待识别片段的所述类别、所述概率和待识别片段之间的时间间距得到宠物的情感信息，具体为：
14.对于每个待识别片段，判断所述待识别片段前面是否有待识别片段，若没有则将所述待识别片段去除，计算与前一个待识别片段的时间间距，根据所述时间间距得到权重，利用所述权重计算得到神经网络输出的每个类别的新概率值；
15.计算所有待识别片段相同的分类对应的新概率值的平均值，将平均值最大的分类作为宠物情感，根据平均值标识所述宠物情感的强烈度。
16.优选地，所述根据所述时间间距得到权重，利用所述权重计算得到神经网络输出的每个类别的新概率值，具体为：
17.根据公式计算第j个所述待识别片段的权重，其中，tj为第j个待识别片段与前一个待识别片段的时间间距大小，n为所述待识别片段个数，j为正整数，且1≤j≤n；
18.根据公式计算第j个所述待识别片段第k个类别的新概率值为神经网络输出的第j个所述待识别片段第k个类别的概率值，其中，j为正整数，且1≤j≤n。
19.另外，本发明还提供了一种基于神经网络的宠物声音识别系统，所述系统包括以下模块：
20.分段模块，用于获取宠物声音文件，对所述宠物声音波形的振幅进行归一化，计算归一化后的波形图的波形包络和振幅平均值，求出所述波形包络所有的极大值，根据所述极大值、所述振幅平均值以及预设时间确定峰值，根据峰值将所述波形图分为多个片段；
21.预处理模块，用于对于每个片段，计算片段平均值，若所述片段平均值大于左右相邻片段的平均值，则将片段标记为待识别片段，否则标记为噪声片段；利用所述待识别片段左右相邻两侧的噪声片段对所述待识别片段降噪；
22.情感识别模块，用于将降噪后的每个所述待识别片段的频谱分别输入训练好的神
经网络中得到类别及类别对应的概率，根据每个待识别片段的所述类别、所述概率和待识别片段之间的时间间距得到宠物的情感信息。
23.优选地，所述根据所述极大值、所述平均值以及预设时间确定峰值，根据峰值将所述波形图分为多个片段，具体包括：
24.当极大值大于所述平均值的预设倍数时，获取以所述极大值为中间点，预设时间范围内的最大值点，若所述极大值和所述最大值为同一点，则将所述最大值作为峰值，若所述极大值和所述最大值不为同一点，则将所述最大值作为中间点，获取以所述中间点为中心，预设时间范围内的最大值点，直到最大值点和中间点为同一点，将所述中间点作为峰值；
25.获取距离所述峰值大于预设时间且距离所述峰值最近的n个采样点，所述n个采样点的平均振幅小于所述振幅平均值且n个采样点振幅的平均差小于阈值，以所述n个采样点的中间位置作为分割点，将所述波形图分为多个片段。
26.优选地，所述利用所述待识别片段左右相邻两侧的噪声片段对所述待识别片段降噪，具体为：分别将所述待识别片段和左右两侧的噪声片段从时域转换到频域，计算左右相邻两侧的噪声片段频域中相同的频率及相同频率的幅度的平均值；在所述待识别片段的频域中减去所述相同频率的幅度的平均值，得到降噪后的待识别片段频域。
27.优选地，所述根据每个待识别片段的所述类别、所述概率和待识别片段之间的时间间距得到宠物的情感信息，具体为：
28.对于每个待识别片段，判断所述待识别片段前面是否有待识别片段，若没有则将所述待识别片段去除，计算与前一个待识别片段的时间间距，根据所述时间间距得到权重，利用所述权重计算得到神经网络输出的每个类别的新概率值；
29.计算所有待识别片段相同的分类对应的新概率值的平均值，将平均值最大的分类作为宠物情感，根据平均值标识所述宠物情感的强烈度。
30.优选地，所述根据所述时间间距得到权重，利用所述权重计算得到神经网络输出的每个类别的新概率值，具体为：
31.根据公式计算第j个所述待识别片段的权重，其中，tj为第j个待识别片段与前一个待识别片段的时间间距大小，n为所述待识别片段个数，j为正整数，且1≤j≤n；
32.根据公式计算第j个所述待识别片段第k个类别的新概率值为神经网络输出的第j个所述待识别片段第k个类别的概率值，其中，j为正整数，且1≤j≤n。
33.最后，本发明还提供了一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器实现如上所述的方法。
34.本发明根据宠物叫声的特点，先对采集的宠物叫声波形进行分段，到宠物叫声片段和噪声片段，然后利用叫声片段两侧的噪声片段对叫声片段降噪，利用训练好的神经网络对降噪后的叫声片段识别，最后根据识别结果以及叫声片段的时间间距，得到宠物的情感信息。本发明不仅能识别宠物的声音，而且去噪后的识别结果能呈现宠物情感的强烈程度。
附图说明
35.为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
36.图1为实施例一的流程图；
37.图2为宠物声音波形图；
38.图3为宠物声音振幅中轴线上方示意图；
39.图4为宠物声音波形图的分割结果示意图；
40.图5为本发明的结构示意图。
具体实施方式
41.在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
42.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
43.实施例一
44.本发明提供了一种基于神经网络的宠物声音识别方法，如图1所示，所述方法包括以下步骤：
45.s1，获取宠物声音文件，对所述宠物声音波形的振幅进行归一化，计算归一化后的波形图的波形包络和振幅平均值，求出所述波形包络所有的极大值，根据所述极大值、所述振幅平均值以及预设时间确定峰值，根据峰值将所述波形图分为多个片段；
46.宠物声音文件可以来自手机录音或者其他音频文件，宠物发出的声音是模拟信号，经过电子设备按照一定的频率采样后变成了数字信号，如图2所示，，采样频率是一秒钟采样的次数，采样的频率越高越能还原真实声音。由于不同采样设备的差异以及为了便于后续的识别，对采样后的文件进行归一化，将采样的振幅归一化到0-1之间。归一化后的声音仍然由离散的采样点组成，包络能够反应振幅的变化情况，本发明所指的包络是指声音波形的上包络，也即在原宠物声音波形中振幅为正的采样点的包络，在另外一个实施例中，先求出宠物声音波形中振幅为正的包络，然后再对包络以及振幅归一化。归一化的方式有多种，在一个具体实施例中，到宠物声音波形中振幅值最小和振幅值最大的采样点，将宠物声音波形上移振幅值最小个距离，然后计算移动后振幅值最大的采样点压缩到1时的压缩比例，其他采样点按照该比例缩小。
47.在本发明中，如果特殊说明，振幅的平均值、波形包络、片段振幅的平均值均是指采样点的振幅位于波形中轴线以上的采样点，如图3所示。
48.包络反应了声音波形的变化情况，包络值的大小和归一化后宠物波形的振幅一致，通过包络的极大值可以到宠物声音波形的振幅的极大值，进而，根据极大值、振幅平均值和预设时间确定峰值，所谓峰值是指宠物声音最大的点。
49.s2，对于每个片段，计算片段平均值，若所述片段平均值大于左右相邻片段的平均值，则将片段标记为待识别片段，否则标记为噪声片段；利用所述待识别片段左右相邻两侧的噪声片段对所述待识别片段降噪；
50.在采集宠物声音过程中，噪声并不是一成不变的，如图2所示，在前半段噪声明显大于后半段的噪声，如果采用同一种方式对宠物叫声进行去噪，则会对去噪效果有较大影响。本发明到待识别片段和待识别片段两侧的噪声片段，然后对待识别片段进行去噪，能够避免由于噪声的变化对去噪效果的影响。
51.s3，将降噪后的每个所述待识别片段的频谱分别输入训练好的神经网络中得到类别及类别对应的概率，根据每个待识别片段的所述类别、所述概率和待识别片段之间的时间间距得到宠物的情感信息。
52.神经网络属于有监督学习的一种，有监督学习的特点是训练样本集中每个样本有对应的标签(label)，也即每个样本有自己对应的类别，神经网络包括但不限于卷积神经网络、深度神经网络、bp神经网络，神经网络的激活函数得到的结果实际是待识别片段属于哪个类别的概率，例如训练样本集有三个类别：愉悦、焦躁、饥饿，将待识别片段输入神经网络后，得到的结果类别和类别对应概率分别为愉悦(0.9)、焦躁(0.1)、饥饿(0.1)。如果宠物的情绪稳定，则各个待识别片段识别的结果相近，反之，则会出现多个片段识别结果相差很大的情况，这也反应了宠物的情感信息。在本发明中，情感信息和类别可以一一对应，也可以不是一一对应，本发明对此不作限定，仍以上面三个类别为例，一一对应时，情感也分为三类：愉悦、焦躁、饥饿，最后根据类别、概率和时间间距得到的情感信息为：愉悦(强)。当不是一一对应时，情感可以分为四类：愉悦、焦躁、饥饿、不稳定，最后根据类别、概率和时间间距得到的情感信息为：不稳定(中)。以上的情感信息中“强”、“中”表示情感的强烈程度，在另外一个实施例中，也可以以1-10表示，数值越大情感越强烈。
53.当情感和所述类别不是一一对应时，预先建立情感字段，如上所述情感字段为：愉悦、焦躁、饥饿、不稳定。根据所有待识别片段每个类别和每个分类的概率值确定情感，如上根据类别、概率和时间间距得到的情感信息为：不稳定(中)。
54.在一个具体实施例中，所述根据所述极大值、所述平均值以及预设时间确定峰值，根据峰值将所述波形图分为多个片段，具体包括：
55.当极大值大于所述平均值的预设倍数时，获取以所述极大值为中间点，预设时间范围内的最大值点，若所述极大值和所述最大值为同一点，则将所述最大值作为峰值，若所述极大值和所述最大值不为同一点，则将所述最大值作为中间点，获取以所述中间点为中心，预设时间范围内的最大值点，直到最大值点和中间点为同一点，将所述中间点作为峰值；
56.获取距离所述峰值大于预设时间且距离所述峰值最近的n个采样点，所述n个采样点的平均振幅小于所述振幅平均值且n个采样点振幅的平均差小于阈值，以所述n个采样点
的中间位置作为分割点，将所述波形图分为多个片段。
57.包络的极大值可能在要识别的片段中，也可能在噪声片段中，首先判断极大值和平均值的关系，若极大值小于平均值，可以确定这个极大值位于噪声片段，如果极大值大于平均值的预设倍数，也即极大值是平均值的至少预设倍数，预设倍数通常取1.5或者2，则该极大值位于宠物叫声片段，然后以极大值为中间点，如果预设时间范围内有大于该极大值的点，则重新以大于极大值的点为中心判断预设时间范围内是否有新的极大值，进行迭代，直到没有大于新极大值的点，则确定最后的极大值点为峰值，在一个具体实施例中，预设时间为20-200ms间的值，对此本发明不作具体限定。
58.在识别到峰值后，需要进一步识别切分位置，噪声区域的声音采样点振幅变化不大，而且相对于宠物叫声区域，振幅比较小，若连续n个采样点的平均振幅小于振幅平均值，且n个采样点振幅平均差小于阈值，则这n个采样点位于噪声片段且紧挨着宠物声音片段，以n个采样点的中间位置作为分割点将波形图分为多个片段，如图4所示。在一个具体实施例中，n取100。
59.噪声并不是一成不变的，如图2所示，前半段噪声明显要大于后半段，在一个实施例中，所述利用所述待识别片段左右相邻两侧的噪声片段对所述待识别片段降噪，具体为：分别将所述待识别片段和左右两侧的噪声片段从时域转换到频域，计算左右相邻两侧的噪声片段频域中相同的频率及相同频率的幅度的平均值；在所述待识别片段的频域中减去所述相同频率的幅度的平均值，得到降噪后的待识别片段频域。
60.例如一个待识别片段，左边噪声区域频域有100hz、50hz的噪声，右边噪声区域频域有100hz、30hz的噪声，二者同时有100hz的噪声，求出二者100hz噪声对应的值的平均值，然后待识别区域频域中如果也存在100hz的声音，则将其对应的值减去上述平均值，需要说明的是，以上数据只是示例，并不代表真实数据。
61.待识别片段的间距反应了宠物叫声的急促情况，也反应了宠物的情感信息，所述根据每个待识别片段的所述类别、所述概率和待识别片段之间的时间间距得到宠物的情感信息，具体为：
62.对于每个待识别片段，判断所述待识别片段前面是否有待识别片段，若没有则将所述待识别片段去除，计算与前一个待识别片段的时间间距，根据所述时间间距得到权重，利用所述权重计算得到神经网络输出的每个类别的新概率值；
63.对于每一个待识别片段，在神经网络输出的结果中，一个待识别片段会对应多个标签或者分类的概率值，如愉悦(0.9)、焦躁(0.1)、饥饿(0.1)，根据待识别片段与前一个待识别片段的时间间距得到权重weight，计算每个类别新的概率值，假设权重weight＝0.5，则每个分类的新的概率值为愉悦(0.45)、焦躁(0.05)、饥饿(0.05)。
64.计算所有待识别片段相同的分类对应的新概率值的平均值，将平均值最大的分类作为宠物情感，根据平均值标识所述宠物情感的强烈度。
65.假设有三个待识别片段a、b、c，计算每个待识别片段每个类别的新概率值分别为a(愉悦(0.45)、焦躁(0.05)、饥饿(0.05))、b(愉悦(0.02)、焦躁(0.14)、饥饿(0.04))、c(愉悦(0.21)、焦躁(0.03)、饥饿(0.06))。
66.计算这三个待识别片段相同分类的新概率值的平均值为愉悦(0.227)、焦躁(0.073)、饥饿(0.050)，则平均值最大的分类为愉悦，其对应的平均值为0.227，强烈程度为
中。所述根据平均值表示宠物感情的强烈度，在一个实施例中，计算其他分类平均值之和，根据平均值最大的分类对应的值与所述平均值之和的百分比确定。在另外一个实施例中，根据平均值最大的分类对应的值所属分区确定，例如(0,0.2]为一般，(0.2,0.4]为中，0.4以上为强烈。
67.在一个实施例中，所述根据所述时间间距得到权重，利用所述权重计算得到神经网络输出的每个类别的新概率值，具体为：
68.根据公式计算第j个所述待识别片段的权重，其中，tj为第j个待识别片段与前一个待识别片段的时间间距大小，n为所述待识别片段个数，j为正整数，且1≤j≤n；
69.根据公式计算第j个所述待识别片段第k个类别的新概率值为神经网络输出的第j个所述待识别片段第k个类别的概率值，其中，j为正整数，且1≤j≤n。
70.实施例二
71.本发明还提供了一种基于神经网络的宠物声音识别系统，所述系统包括以下模块：
72.分段模块，用于获取宠物声音文件，对所述宠物声音波形的振幅进行归一化，计算归一化后的波形图的波形包络和振幅平均值，求出所述波形包络所有的极大值，根据所述极大值、所述振幅平均值以及预设时间确定峰值，根据峰值将所述波形图分为多个片段；
73.预处理模块，用于对于每个片段，计算片段平均值，若所述片段平均值大于左右相邻片段的平均值，则将片段标记为待识别片段，否则标记为噪声片段；利用所述待识别片段左右相邻两侧的噪声片段对所述待识别片段降噪；
74.情感识别模块，用于将降噪后的每个所述待识别片段的频谱分别输入训练好的神经网络中得到类别及类别对应的概率，根据每个待识别片段的所述类别、所述概率和待识别片段之间的时间间距得到宠物的情感信息。
75.优选地，所述根据所述极大值、所述平均值以及预设时间确定峰值，根据峰值将所述波形图分为多个片段，具体包括：
76.当极大值大于所述平均值的预设倍数时，获取以所述极大值为中间点，预设时间范围内的最大值点，若所述极大值和所述最大值为同一点，则将所述最大值作为峰值，若所述极大值和所述最大值不为同一点，则将所述最大值作为中间点，获取以所述中间点为中心，预设时间范围内的最大值点，直到最大值点和中间点为同一点，将所述中间点作为峰值；
77.获取距离所述峰值大于预设时间且距离所述峰值最近的n个采样点，所述n个采样点的平均振幅小于所述振幅平均值且n个采样点振幅的平均差小于阈值，以所述n个采样点的中间位置作为分割点，将所述波形图分为多个片段。
78.优选地，所述利用所述待识别片段左右相邻两侧的噪声片段对所述待识别片段降噪，具体为：分别将所述待识别片段和左右两侧的噪声片段从时域转换到频域，计算左右相邻两侧的噪声片段频域中相同的频率及相同频率的幅度的平均值；在所述待识别片段的频域中减去所述相同频率的幅度的平均值，得到降噪后的待识别片段频域。
79.优选地，所述根据每个待识别片段的所述类别、所述概率和待识别片段之间的时间间距得到宠物的情感信息，具体为：
80.对于每个待识别片段，判断所述待识别片段前面是否有待识别片段，若没有则将所述待识别片段去除，计算与前一个待识别片段的时间间距，根据所述时间间距得到权重，利用所述权重计算得到神经网络输出的每个类别的新概率值；
81.计算所有待识别片段相同的分类对应的新概率值的平均值，将平均值最大的分类作为宠物情感，根据平均值标识所述宠物情感的强烈度。
82.优选地，所述根据所述时间间距得到权重，利用所述权重计算得到神经网络输出的每个类别的新概率值，具体为：
83.根据公式计算第j个所述待识别片段的权重，其中，tj为第j个待识别片段与前一个待识别片段的时间间距大小，n为所述待识别片段个数，j为正整数，且1≤j≤n；
84.根据公式计算第j个所述待识别片段第k个类别的新概率值为神经网络输出的第j个所述待识别片段第k个类别的概率值，其中，j为正整数，且1≤j≤n。
85.最后，本发明还提供了一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器实现如上所述的方法。
86.实施例三
87.本发明还提供了一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器实现实施例1所述的方法。
88.通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助加必需的通用硬件平台的方式来实现，当然也可以通过硬件和软件结合的方式来实现。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以计算机产品的形式体现出来，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
89.最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

技术特征：

1.一种基于神经网络的宠物声音识别方法，其特征在于，所述方法包括以下步骤：s1，获取宠物声音文件，对所述宠物声音波形的振幅进行归一化，计算归一化后的波形图的波形包络和振幅平均值，求出所述波形包络所有的极大值，根据所述极大值、所述振幅平均值以及预设时间确定峰值，根据峰值将所述波形图分为多个片段；s2，对于每个片段，计算片段平均值，若所述片段平均值大于左右相邻片段的平均值，则将片段标记为待识别片段，否则标记为噪声片段；利用所述待识别片段左右相邻两侧的噪声片段对所述待识别片段降噪；s3，将降噪后的每个所述待识别片段的频谱分别输入训练好的神经网络中得到类别及类别对应的概率，根据每个待识别片段的所述类别、所述概率和待识别片段之间的时间间距得到宠物的情感信息。2.如权利要求1所述的宠物声音识别方法，其特征在于，所述根据所述极大值、所述平均值以及预设时间确定峰值，根据峰值将所述波形图分为多个片段，具体包括：当极大值大于所述平均值的预设倍数时，获取以所述极大值为中间点，预设时间范围内的最大值点，若所述极大值和所述最大值为同一点，则将所述最大值作为峰值，若所述极大值和所述最大值不为同一点，则将所述最大值作为中间点，获取以所述中间点为中心，预设时间范围内的最大值点，直到最大值点和中间点为同一点，将所述中间点作为峰值；获取距离所述峰值大于预设时间且距离所述峰值最近的n个采样点，所述n个采样点的平均振幅小于所述振幅平均值且n个采样点振幅的平均差小于阈值，以所述n个采样点的中间位置作为分割点，将所述波形图分为多个片段。3.如权利要求1所述的宠物声音识别方法，其特征在于，所述利用所述待识别片段左右相邻两侧的噪声片段对所述待识别片段降噪，具体为：分别将所述待识别片段和左右两侧的噪声片段从时域转换到频域，计算左右相邻两侧的噪声片段频域中相同的频率及相同频率的幅度的平均值；在所述待识别片段的频域中减去所述相同频率的幅度的平均值，得到降噪后的待识别片段频域。4.如权利要求1所述的宠物声音识别方法，其特征在于，所述根据每个待识别片段的所述类别、所述概率和待识别片段之间的时间间距得到宠物的情感信息，具体为：对于每个待识别片段，判断所述待识别片段前面是否有待识别片段，若没有则将所述待识别片段去除，计算与前一个待识别片段的时间间距，根据所述时间间距得到权重，利用所述权重计算得到神经网络输出的每个类别的新概率值；计算所有待识别片段相同的分类对应的新概率值的平均值，将平均值最大的分类作为宠物情感，根据平均值标识所述宠物情感的强烈度。5.如权利要求1所述的宠物声音识别方法，其特征在于，所述根据所述时间间距得到权重，利用所述权重计算得到神经网络输出的每个类别的新概率值，具体为：根据公式计算第j个所述待识别片段的权重，其中，t
j
为第j个待识别片段与前一个待识别片段的时间间距大小，n为所述待识别片段个数，j为正整数，且1≤j≤n；根据公式计算第j个所述待识别片段第k个类别的新概率值为神经网络输出的第j个所述待识别片段第k个类别的概率值，其中，j为正整数，且1≤j≤n。
6.一种基于神经网络的宠物声音识别系统，其特征在于，所述系统包括以下模块：分段模块，用于获取宠物声音文件，对所述宠物声音波形的振幅进行归一化，计算归一化后的波形图的波形包络和振幅平均值，求出所述波形包络所有的极大值，根据所述极大值、所述振幅平均值以及预设时间确定峰值，根据峰值将所述波形图分为多个片段；预处理模块，用于对于每个片段，计算片段平均值，若所述片段平均值大于左右相邻片段的平均值，则将片段标记为待识别片段，否则标记为噪声片段；利用所述待识别片段左右相邻两侧的噪声片段对所述待识别片段降噪；情感识别模块，用于将降噪后的每个所述待识别片段的频谱分别输入训练好的神经网络中得到类别及类别对应的概率，根据每个待识别片段的所述类别、所述概率和待识别片段之间的时间间距得到宠物的情感信息。7.如权利要求6所述的宠物声音识别系统，其特征在于，所述根据所述极大值、所述平均值以及预设时间确定峰值，根据峰值将所述波形图分为多个片段，具体包括：当极大值大于所述平均值的预设倍数时，获取以所述极大值为中间点，预设时间范围内的最大值点，若所述极大值和所述最大值为同一点，则将所述最大值作为峰值，若所述极大值和所述最大值不为同一点，则将所述最大值作为中间点，获取以所述中间点为中心，预设时间范围内的最大值点，直到最大值点和中间点为同一点，将所述中间点作为峰值；获取距离所述峰值大于预设时间且距离所述峰值最近的n个采样点，所述n个采样点的平均振幅小于所述振幅平均值且n个采样点振幅的平均差小于阈值，以所述n个采样点的中间位置作为分割点，将所述波形图分为多个片段。8.如权利要求6所述的宠物声音识别系统，其特征在于，所述利用所述待识别片段左右相邻两侧的噪声片段对所述待识别片段降噪，具体为：分别将所述待识别片段和左右两侧的噪声片段从时域转换到频域，计算左右相邻两侧的噪声片段频域中相同的频率及相同频率的幅度的平均值；在所述待识别片段的频域中减去所述相同频率的幅度的平均值，得到降噪后的待识别片段频域。9.如权利要求6所述的宠物声音识别系统，其特征在于，所述根据每个待识别片段的所述类别、所述概率和待识别片段之间的时间间距得到宠物的情感信息，具体为：对于每个待识别片段，判断所述待识别片段前面是否有待识别片段，若没有则将所述待识别片段去除，计算与前一个待识别片段的时间间距，根据所述时间间距得到权重，利用所述权重计算得到神经网络输出的每个类别的新概率值；计算所有待识别片段相同的分类对应的新概率值的平均值，将平均值最大的分类作为宠物情感，根据平均值标识所述宠物情感的强烈度。10.如权利要求6所述的宠物声音识别系统，其特征在于，所述根据所述时间间距得到权重，利用所述权重计算得到神经网络输出的每个类别的新概率值，具体为：根据公式计算第j个所述待识别片段的权重，其中，t
j
为第j个待识别片段与前一个待识别片段的时间间距大小，n为所述待识别片段个数，j为正整数，且1≤j≤n；根据公式计算第j个所述待识别片段第k个类别的新概率值为神经网络输出的第j个所述待识别片段第k个类别的概率值，其中，j为正整数，且1≤j≤n。

技术总结

本发明提供了一种基于神经网络的宠物声音识别方法，对宠物声音波形的振幅进行归一化，计算归一化后的波形图的波形包络和振幅平均值，求出波形包络所有的极大值，根据极大值、振幅平均值以及预设时间确定峰值，根据峰值将波形图分为多个片段；计算片段平均值，若片段平均值大于左右相邻片段的平均值，则将片段标记为待识别片段，否则标记为噪声片段；利用待识别片段左右相邻两侧的噪声片段对待识别片段降噪；将降噪后的每个待识别片段的频谱分别输入训练好的神经网络中得到类别及类别对应的概率，根据每个待识别片段的类别、概率和待识别片段之间的时间间距得到宠物的情感信息。本发明不仅有效对声音去噪，而且能够识别宠物情感的强烈程度。情感的强烈程度。情感的强烈程度。