一种基于神经网络的人机交互系统、方法及存储介质与流程

1.本发明涉及人机交互技术领域，特别涉及一种基于神经网络的人机交互系统、方法及存储介质。

背景技术：

2.人机交互是指人与计算机之间使用某种对话语言，以一定的交互方式，为完成确定任务的人与计算机之间的信息交换过程。是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器，也可以是计算机化的系统和软件。人机交互界面通常是指用户可见的部分。用户通过人机交互界面与系统交流，并进行操作。小如收音机的播放按键，大至飞机上的仪表板，或发电厂的控制室。
3.当电子设备处于比较嘈杂的环境时，电子设备所接受的音频信号会不稳定，无法对用户所表达的含义进行充分录入和理解，导致不能及时作出反映或者做出的反映错误，导致用户的体验感降低。

技术实现要素：

4.基于上述技术问题，本发明的目的在于提供一种基于神经网络的人机交互系统、方法及存储介质，使其能够在快速对用户想要表达的含义进行反映，能够在嘈杂环境中进行录入，高效率和高准确度。
5.为实现上述目的，本发明提供如下技术方案：
6.一种基于神经网络的人机交互系统，包括：环境声音获取模块、摄像头模组、神经网络训练模块、语音识别系统、匹配平台、中心控制系统和人机对话系统；
7.所述匹配平台与所述摄像头模组和语音识别系统相连，所述神经网络训练模块与所述环境声音获取模块相连，所述中心控制系统与环境声音获取模块、摄像头模组、神经网络训练模块、语音识别系统、匹配平台和人机对话系统均相连；
8.环境声音获取模块，用于环境中的声音信号；
9.摄像头模组，用于对用户的位置进行确认，并且识别用户的唇部位置，对用户的唇部动态进行捕捉；
10.神经网络训练模块，对唇语识别系统深度学习，自建唇语数据集，对中文构词特征进行分析，实现唇部动态信息到中文语句的自动识别；并且通过环境声音获取模块，对环境声音进行监测，自建环境音量数据集和对音量特征进行分析，实现降噪目的；
11.语音识别系统，对语音信号进行识别，生成中文语句；
12.匹配平台，用于将唇语信号生成的中文语句和语音识别系统生成的中文语句进行核对匹配；
13.中心控制系统，对环境声音获取模块、摄像头模组、神经网络训练模块、语音识别系统、匹配平台和人机对话系统进行协调控制；
14.人机对话系统，用于识别中文语句，弹出语音和文字，使用户和电子设备互动。
15.优选的，所述摄像头模组包括摄像头和感光单元，所述摄像头用于对用户的脸部特征和唇部特征进行捕捉，所述感光单元用于确定摄像头前是否有用户出现，当感光模组被遮挡光线超过预设值时，摄像头对唇部特征进行捕捉。
16.优选的，所述语音识别系统是基于环境声音获取模块所获取到的环境音频数据后，对于用户想要对电子设备所表达的语言信号进行收集。
17.优选的，所述语音识别系统内还含有杂音消除装置。
18.一种基于神经网络的人机交互方法，包括以下步骤：
19.s1、首先使用环境声音获取模块对电子设备的周围环境音频信号进行采集；
20.s2、利用神经网络训练模块，利用大量的用户语音插入到环境声音获取模块中，对其进行训练，使其能够准确判断出用户的音频，而避免杂音对其的影响，导致误判；且利用神经网络训练模块对唇语识别系统深度学习，自建唇语数据集，对中文构词特征进行分析；
21.s3、当用户开始使用电子设备时，首先摄像头模组中的感光单元被遮挡时间超过预设值时，在加上环境声音获取模块对于用户音频的判断，确认用户开始进行人机交互；
22.s4、中心控制系统控制摄像头模组中的摄像头和语音识别系统开始工作，摄像头开始录入用户的嘴唇动态信息，语音识别系统开始录入用户的音频信息；
23.s5、中心控制系统对嘴唇动态信息和音频信息并分别进行解码，将嘴唇动态信息和音频信息分别生成中文语句传输到匹配平台；
24.s6、匹配平台对两条中文语句进行核对；
25.s7、两条中文语句能够匹配时，中心控制系统启动人机对话系统，播报此条语音的响应信息。
26.优选的，所述步骤s2中利用神经网络训练模块对唇语识别系统深度学习具体为：
27.s21、建立神经网络模糊模型；
28.s22、输入唇部动态图像，转化成特征向量：
29.yi＝res(cnn
θ
(xi))
30.式中，θ表示为模型参数；
31.s23、对上式进行降维，生成第二特征向量：
[0032]vi
＝k[yi]+b
[0033]
式中，k表示为维度矩阵，维度为j，b为误差参数；
[0034]
s24、将特征向量yi作为输入，在一个时间步长t处生成状态向量：
[0035]
s＝j
t
[0036]
式中，状态向量为s；
[0037]
s25、生成目标损失函数：
[0038][0039]
式中，d表示整个数据集；f表示输入图片e对应的拼音；p(f|e)便是输入e得到f的概率模型；
[0040]
s26、重复上述步骤进行训练。
[0041]
优选的，步骤s4中的语音识别系统在传输音频信息的过程中还对杂音进行消除，包括以下步骤：
[0042]
s41、对音频信息的传输进行失步检测；
[0043]
s42、当检测到有失步问题之后，杂音消除装置将接收端的语音通道切换为舒适静音数据通道，进行重新同步；
[0044]
s43、将重新同步的音频进行播报。
[0045]
优选的，步骤s6中匹配平台进行匹配包括：语义匹配和拼音匹配。
[0046]
一种基于神经网络的人机交互存储介质，基于神经网络的人机交互存储介质存储有基于神经网络的人机交互程序，基于神经网络的人机交互程序执行时实现如上权利要求5-9中任一项基于神经网络的人机交互程序方法的步骤。
[0047]
与现有技术相比，本发明的有益效果是：
[0048]
1.本发明通过利用神经网络对本人机交互系统进行优化，采用大量的数据对神经网络进行训练，提高数据集的多样性与复杂度，对用户的唇部特征特征提取更为快速准确，提升本人机交互系统对用户唇部特征的解码精度，且能够尽可能避免噪音对于电子设备的影响，能够在快速对用户想要表达的含义进行反映，能够在嘈杂环境中进行录入，具有高效率和高准确度。
[0049]
2.本发明通过对音频信息进行失步检测和噪音清除，对音频信息进行检测和修复，且修复时间大大小于系统的缓存解码时间，电子设备在进行解析的过程中不会收到噪声影响，也就不会影响原人机交互系统的正常使用，具有较好的实用性。
[0050]
3.本发明通过添加唇动信息的解码，利用摄像头进行捕捉，当用户为声带有问题的用户时，用户只需要用口型，就能进行人机交互，增强了普适性。
附图说明
[0051]
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0052]
图1为本发明的系统结构示意图；
[0053]
图2为本发明中摄像头模组的内部结构示意图；
[0054]
图3为本发明的方法流程图；
[0055]
图4为本发明中利用神经网络训练模块对唇语识别系统深度学习的流程图；
[0056]
图5为本发明中进行噪音消除和失步检测的流程图。
具体实施方式
[0057]
下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0058]
请参阅图1至图5，本发明提供一种技术方案：
[0059]
一种基于神经网络的人机交互系统，包括：环境声音获取模块、摄像头模组、神经网络训练模块、语音识别系统、匹配平台、中心控制系统和人机对话系统；具体参考图1；
[0060]
匹配平台与摄像头模组和语音识别系统相连，神经网络训练模块与环境声音获取模块相连，中心控制系统与环境声音获取模块、摄像头模组、神经网络训练模块、语音识别系统、匹配平台和人机对话系统均相连；
[0061]
环境声音获取模块，用于环境中的声音信号；
[0062]
摄像头模组，用于对用户的位置进行确认，并且识别用户的唇部位置，对用户的唇部动态进行捕捉；摄像头模组包括摄像头和感光单元，摄像头用于对用户的脸部特征和唇部特征进行捕捉，感光单元用于确定摄像头前是否有用户出现，当感光模组被遮挡光线超过预设值时，摄像头对唇部特征进行捕捉。
[0063]
神经网络训练模块，对唇语识别系统深度学习，自建唇语数据集，对中文构词特征进行分析，实现唇部动态信息到中文语句的自动识别；并且通过环境声音获取模块，对环境声音进行监测，自建环境音量数据集和对音量特征进行分析，实现降噪目的；
[0064]
语音识别系统，对语音信号进行识别，生成中文语句；
[0065]
匹配平台，用于将唇语信号生成的中文语句和语音识别系统生成的中文语句进行核对匹配；语音识别系统是基于环境声音获取模块所获取到的环境音频数据后，对于用户想要对电子设备所表达的语言信号进行收集。语音识别系统内还含有杂音消除装置。
[0066]
中心控制系统，对环境声音获取模块、摄像头模组、神经网络训练模块、语音识别系统、匹配平台和人机对话系统进行协调控制；
[0067]
人机对话系统，用于识别中文语句，弹出语音和文字，使用户和电子设备互动。
[0068]
一种基于神经网络的人机交互方法，包括以下步骤：具体如图3-5所示：
[0069]
s1、首先使用环境声音获取模块对电子设备的周围环境音频信号进行采集；
[0070]
s2、利用神经网络训练模块，利用大量的用户语音插入到环境声音获取模块中，对其进行训练，使其能够准确判断出用户的音频，而避免杂音对其的影响，导致误判；且利用神经网络训练模块对唇语识别系统深度学习，自建唇语数据集，对中文构词特征进行分析；
[0071]
其中，由于每个人的脸部特征都是不同的，所以每个人的唇动特征也是不同的，采用不同素材中的不同人物在不同条件下(光照条件等)不同角度的说话片段，进行训练，提高数据集的多样性与复杂度，提升本人机交互系统对用户唇部特征的解码精度。
[0072]
s21、建立神经网络模糊模型；
[0073]
s22、输入唇部动态图像，转化成特征向量：
[0074]
yi＝res(cnn
θ
(xi))
[0075]
式中，θ表示为模型参数；
[0076]
s23、对上式进行降维，生成第二特征向量：
[0077]vi
＝k[yi]+b
[0078]
式中，k表示为维度矩阵，维度为j，b为误差参数；
[0079]
s24、将特征向量yi作为输入，在一个时间步长t处生成状态向量：
[0080]
s＝j
t
[0081]
式中，状态向量为s；
[0082]
s25、生成目标损失函数：
[0083][0084]
式中，d表示整个数据集；f表示输入图片e对应的拼音；p(f|e)便是输入e得到f的概率模型；
[0085]
s26、重复上述步骤进行训练。
[0086]
s3、当用户开始使用电子设备时，首先摄像头模组中的感光单元被遮挡时间超过预设值时，在加上环境声音获取模块对于用户音频的判断，确认用户开始进行人机交互；
[0087]
s4、中心控制系统控制摄像头模组中的摄像头和语音识别系统开始工作，摄像头开始录入用户的嘴唇动态信息，语音识别系统开始录入用户的音频信息；
[0088]
s41、对音频信息的传输进行失步检测；
[0089]
s42、当检测到有失步问题之后，杂音消除装置将接收端的语音通道切换为舒适静音数据通道，进行重新同步；
[0090]
s43、将重新同步的音频进行播报。步骤s41-s43只适用于接收到用户音频的情况；对于音频传输中的失步和又杂音的情况；
[0091]
s5、中心控制系统对嘴唇动态信息和音频信息并分别进行解码，将嘴唇动态信息和音频信息分别生成中文语句传输到匹配平台；当用户为声带有问题的用户时，用户只需要用口型，就能进行人机交互，增强了普适性。
[0092]
s6、匹配平台对两条中文语句进行核对；包括语义匹配和拼音匹配，通过语义匹配和拼音匹配，进行双方面的合适，能够有效避免电子设备对用户所说的语句的误解，产生歧义；
[0093]
s7、两条中文语句能够匹配时，中心控制系统启动人机对话系统，播报此条语音的响应信息。
[0094]
多上述步骤进行重复，实现电子设备和用户的交互。
[0095]
一种基于神经网络的人机交互存储介质，基于神经网络的人机交互存储介质存储有基于神经网络的人机交互程序，基于神经网络的人机交互程序执行时实现如上权利要求5-9中任一项基于神经网络的人机交互程序方法的步骤。
[0096]
最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

技术特征：

1.一种基于神经网络的人机交互系统，其特征在于，包括：环境声音获取模块、摄像头模组、神经网络训练模块、语音识别系统、匹配平台、中心控制系统和人机对话系统；所述匹配平台与所述摄像头模组和语音识别系统相连，所述神经网络训练模块与所述环境声音获取模块相连，所述中心控制系统与环境声音获取模块、摄像头模组、神经网络训练模块、语音识别系统、匹配平台和人机对话系统均相连；环境声音获取模块，用于环境中的声音信号；摄像头模组，用于对用户的位置进行确认，并且识别用户的唇部位置，对用户的唇部动态进行捕捉；神经网络训练模块，对唇语识别系统深度学习，自建唇语数据集，对中文构词特征进行分析，实现唇部动态信息到中文语句的自动识别；并且通过环境声音获取模块，对环境声音进行监测，自建环境音量数据集和对音量特征进行分析，实现降噪目的；语音识别系统，对语音信号进行识别，生成中文语句；匹配平台，用于将唇语信号生成的中文语句和语音识别系统生成的中文语句进行核对匹配；中心控制系统，对环境声音获取模块、摄像头模组、神经网络训练模块、语音识别系统、匹配平台和人机对话系统进行协调控制；人机对话系统，用于识别中文语句，弹出语音和文字，使用户和电子设备互动。2.根据权利要求1所述的一种基于神经网络的人机交互系统，其特征在于，所述摄像头模组包括摄像头和感光单元，所述摄像头用于对用户的脸部特征和唇部特征进行捕捉，所述感光单元用于确定摄像头前是否有用户出现，当感光模组被遮挡光线超过预设值时，摄像头对唇部特征进行捕捉。3.根据权利要求1所述的一种基于神经网络的人机交互系统，其特征在于，所述语音识别系统是基于环境声音获取模块所获取到的环境音频数据后，对于用户想要对电子设备所表达的语言信号进行收集。4.根据权利要求1所述的一种基于神经网络的人机交互系统，其特征在于，所述语音识别系统内还含有杂音消除装置。5.一种基于神经网络的人机交互方法，适应于权利要求1-4所述的一种基于神经网络的人机交互系统，其特征在于，包括以下步骤：s1、首先使用环境声音获取模块对电子设备的周围环境音频信号进行采集；s2、利用神经网络训练模块，利用大量的用户语音插入到环境声音获取模块中，对其进行训练，使其能够准确判断出用户的音频，而避免杂音对其的影响，导致误判；且利用神经网络训练模块对唇语识别系统深度学习，自建唇语数据集，对中文构词特征进行分析；s3、当用户开始使用电子设备时，首先摄像头模组中的感光单元被遮挡时间超过预设值时，在加上环境声音获取模块对于用户音频的判断，确认用户开始进行人机交互；s4、中心控制系统控制摄像头模组中的摄像头和语音识别系统开始工作，摄像头开始录入用户的嘴唇动态信息，语音识别系统开始录入用户的音频信息；s5、中心控制系统对嘴唇动态信息和音频信息并分别进行解码，将嘴唇动态信息和音频信息分别生成中文语句传输到匹配平台；s6、匹配平台对两条中文语句进行核对；
s7、两条中文语句能够匹配时，中心控制系统启动人机对话系统，播报此条语音的响应信息。6.根据权利要求5所述的一种基于神经网络的人机交互方法，其特征在于，步骤s2中利用神经网络训练模块对唇语识别系统深度学习具体为：s21、建立神经网络模糊模型；s22、输入唇部动态图像，转化成特征向量：y
i
＝res(cnn
θ
(x
i
))式中，θ表示为模型参数；s23、对上式进行降维，生成第二特征向量：v
i
＝k[y
i
]+b式中，k表示为维度矩阵，维度为j，b为误差参数；s24、将特征向量y
i
作为输入，在一个时间步长t处生成状态向量：s＝j
t
式中，状态向量为s；s25、生成目标损失函数：式中，d表示整个数据集；f表示输入图片e对应的拼音；p(f|e)便是输入e得到f的概率模型；s26、重复上述步骤进行训练。7.根据权利要求5所述的一种基于神经网络的人机交互方法，其特征在于，步骤s4中的语音识别系统在传输音频信息的过程中还对杂音进行消除，包括以下步骤：s41、对音频信息的传输进行失步检测；s42、当检测到有失步问题之后，杂音消除装置将接收端的语音通道切换为舒适静音数据通道，进行重新同步；s43、将重新同步的音频进行播报。8.根据权利要求5所述的一种基于神经网络的人机交互方法，其特征在于，步骤s6中匹配平台进行匹配包括：语义匹配和拼音匹配。9.一种基于神经网络的人机交互存储介质，其特征在于，基于神经网络的人机交互存储介质存储有基于神经网络的人机交互程序，基于神经网络的人机交互程序执行时实现如上权利要求5-8中任一项基于神经网络的人机交互程序方法的步骤。

技术总结

本发明公开了一种基于神经网络的人机交互系统、方法及存储介质，包括：环境声音获取模块、摄像头模组、神经网络训练模块、语音识别系统、匹配平台、中心控制系统和人机对话系统；所述匹配平台与所述摄像头模组和语音识别系统相连，所述神经网络训练模块与所述环境声音获取模块相连，所述中心控制系统与环境声音获取模块、摄像头模组、神经网络训练模块、语音识别系统、匹配平台和人机对话系统均相连。本发明通过利用神经网络对本人机交互系统进行优化，采用大量的数据对神经网络进行训练，能够尽可能避免噪音对于电子设备的影响，能够在快速对用户想要表达的含义进行反映，能够在嘈杂环境中进行录入，具有高效率和高准确度。具有高效率和高准确度。具有高效率和高准确度。