首页 > 专利技术

一种基于多模态多层次统一交互的短语定位识别方法[发明专利]

专利名称：一种基于多模态多层次统一交互的短语定位识别方法

专利类型：发明专利

发明人：刘偲，余天予，惠天瑞，廖越，余志浩

申请号：CN202011127854.8

申请日：20201011

公开号：CN112269892A

公开日：

20210126

专利内容由知识产权出版社提供

摘要：本发明公开了一种基于多模态多层次统一交互的短语定位识别方法，包括：构建预训练机器阅读模型和预训练目标检测模型；获取图片和针对图片的文字说明；利用预训练机器阅读模型提取文字说明中各个短语基于上下文的文本特征；利用预训练目标检测模型提取图片中的多个图像候选位置，并对图像候选位置对应的低维特征进行优化处理；利用注意力算法模拟各个短语与各个图像候选位置之间的交互；基于交互结果计算各个短语与图像候选位置之间的特征相似度，并以特征相似度作为键值确定各个短语的定位决策结果；利用深度集合模型对各个短语的定位决策结果进行整合和正则化处理。本发明大大提高短语定位识别的精确度，且更具鲁棒性。

申请人：北京航空航天大学

地址：100191 北京市海淀区学院路37号

国籍：CN

本文发布于:2024-09-23 02:24:16，感谢您对本站的认可！

本文链接：https://www.17tex.com/tex/3/422032.html

上一篇：图片特征的提取方法、装置、电子设备及存储介质

下一篇：基于小波变化图像增强与多特征的森林火灾烟雾检测方法[发明专利]