一种基于多模态多层次统一交互的短语定位识别方法[发明专利]

专利名称:一种基于多模态多层次统一交互的短语定位识别方法
专利类型:发明专利
发明人:刘偲,余天予,惠天瑞,廖越,余志浩
申请号:CN202011127854.8
申请日:20201011
公开号:CN112269892A
公开日:
20210126
专利内容由知识产权出版社提供
摘要:本发明公开了一种基于多模态多层次统一交互的短语定位识别方法,包括:构建预训练机器阅读模型和预训练目标检测模型;获取图片和针对图片的文字说明;利用预训练机器阅读模型提取文字说明中各个短语基于上下文的文本特征;利用预训练目标检测模型提取图片中的多个图像候选位置,并对图像候选位置对应的低维特征进行优化处理;利用注意力算法模拟各个短语与各个图像候选位置之间的交互;基于交互结果计算各个短语与图像候选位置之间的特征相似度,并以特征相似度作为键值确定各个短语的定位决策结果;利用深度集合模型对各个短语的定位决策结果进行整合和正则化处理。本发明大大提高短语定位识别的精确度,且更具鲁棒性。
申请人:北京航空航天大学
地址:100191 北京市海淀区学院路37号
国籍:CN

本文发布于:2024-09-23 02:24:16,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/422032.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:利用   模型   定位   训练   特征
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议