一种基于视频人物唇读识别的时序集中预测方法[发明专利]

专利名称:一种基于视频人物唇读识别的时序集中预测方法专利类型:发明专利
发明人:陈志,刘玲,岳文静,祝驭航
申请号:CN202010562822.4
申请日:20200619
公开号:CN111753704A
公开日:
20201009
专利内容由知识产权出版社提供
摘要:本发明公开一种基于视频人物唇读识别的时序集中预测方法,首先输入人物唇动视频帧序列并提取唇部的时空特征,采用嵌入了SENet模块的残差网络获取多通道下人物唇部的有用特征,将特征输入双向门控循环单元得到唇动轮廓所对应字符的概率分布,并引入连接主义者的时间分类算法对齐时间步长上的各文本标签和字符;接着针对前后时序关系,利用双向门控循环单元的隐藏状态,建立时序关联的注意力窗口以集中成上下文向量,对该上下文向量在注意力窗口长度下的概率分布向量再次细分规划;最后对每个当前时间的概率分布向量设置注意力单元并重新汇集为能够预测唇读对应字符的概率。本发明通过对时序信息的前后集中关联,能有效预测和识别视频中人物唇读内容。
申请人:南京邮电大学
地址:210000 江苏省南京市雨花台区软件大道186号
国籍:CN
代理机构:南京瑞弘专利商标事务所(普通合伙)
代理人:秦秋星

本文发布于:2024-09-20 21:22:57,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/740898.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:时序   预测   专利   人物   特征   单元
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议