首页 > 学术百科

一种基于视频人物唇读识别的时序集中预测方法[发明专利]

专利名称：一种基于视频人物唇读识别的时序集中预测方法专利类型：发明专利

发明人：陈志，刘玲，岳文静，祝驭航

申请号：CN202010562822.4

申请日：20200619

公开号：CN111753704A

公开日：

20201009

专利内容由知识产权出版社提供

摘要：本发明公开一种基于视频人物唇读识别的时序集中预测方法，首先输入人物唇动视频帧序列并提取唇部的时空特征，采用嵌入了SENet模块的残差网络获取多通道下人物唇部的有用特征，将特征输入双向门控循环单元得到唇动轮廓所对应字符的概率分布，并引入连接主义者的时间分类算法对齐时间步长上的各文本标签和字符；接着针对前后时序关系，利用双向门控循环单元的隐藏状态，建立时序关联的注意力窗口以集中成上下文向量，对该上下文向量在注意力窗口长度下的概率分布向量再次细分规划；最后对每个当前时间的概率分布向量设置注意力单元并重新汇集为能够预测唇读对应字符的概率。本发明通过对时序信息的前后集中关联，能有效预测和识别视频中人物唇读内容。

申请人：南京邮电大学

地址：210000 江苏省南京市雨花台区软件大道186号

国籍：CN

代理机构：南京瑞弘专利商标事务所(普通合伙)

代理人：秦秋星

本文发布于:2024-09-20 21:22:57，感谢您对本站的认可！

本文链接：https://www.17tex.com/xueshu/740898.html

上一篇：一种实时聚类推荐的方法、设备及介质[发明专利]

下一篇：219361833_新西兰法院驳回人工智能专利发明人资格