专利名称:一种基于传递式视觉关系检测的视频描述生成方法专利类型:发明专利 发明人:俞俊,吴波锋,牛国成,肖欣延
申请号:CN202111314705.7
申请日:20211108
公开号:CN114037936A
公开日:
20220211
专利内容由知识产权出版社提供
摘要:本发明公开了一种基于传递式视觉关系检测的视频描述生成方法。尤其涉及一种检测视觉实体‑动作之间的浅层联系并传递构造深层视觉实体关系图以及依靠视觉实体关系图细化视频特征的建模方法。本发明包括以下步骤:1、数据预处理,对视频提取特征,针对文本描述构建字典。2、动作指导的浅层关系检测模块,进行浅层关系图的生成。3、传递式深层关系推理模块与解码器模块,用以深层关系图的推理。4、模型训练,利用反向传播算法训练神经网络参数。本发明提出检测视频视觉实体‑动作之间的浅层联系,以及传递构造深层视觉实体关系图以及依靠视觉实体关系图细化视频特征的建模方法,并且获得了目前在视频描述生成领域中的最好效果。
申请人:杭州电子科技大学,北京百度网讯科技有限公司
地址:310018 浙江省杭州市下沙高教园区2号大街
国籍:CN
代理机构:杭州君度专利代理事务所(特殊普通合伙)
代理人:朱月芬