一种跨模态多特征融合的音视频语音识别方法及系统[发明专利]

专利名称:一种跨模态多特征融合的音视频语音识别方法及系统
专利类型:发明专利
发明人:李树涛,宋启亚,孙斌
申请号:CN202011001648.2
申请日:20200922
公开号:CN112053690A
公开日:
20201208
专利内容由知识产权出版社提供
摘要:本发明涉及音视频语音识别技术,考虑到在实际机器人应用环境中,语音交互易受复杂环境噪声影响、而面部运动信息通过视频获取、且相对较稳定这一情况,本发明提供一种跨模态多特征融合的音视频语音识别方法及系统,本发明通过注意力机制对语音信息、视觉信息和视觉运动信息进行融合,利用不同模态之间的关联性,更加准确的获取用户所表达的语音内容,提升复杂背景噪音条件下语音识别精度,提高人机交互中语音识别性能,有效克服噪声环境下纯语音识别准确率低的问题。
申请人:湖南大学
地址:410082 湖南省长沙市岳麓区麓山南路1号
国籍:CN
代理机构:湖南兆弘专利事务所(普通合伙)
代理人:谭武艺

本文发布于:2024-09-22 07:16:46,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/413624.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:语音   信息   识别   专利   融合
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议