(12)发明专利说明书 | ||
(10)申请公布号 CN 114092707 A (43)申请公布日 2022.02.25 | ||
权利要求说明书 说明书 幅图 |
本发明公开了一种图像文本视觉问答方法、系统及存储介质。所述方法包括:获取目标图像对象和目标问题对象;进行特征提取,获得图像视觉特征、图像文本特征、问题文本特征;将所述图像视觉特征、图像文本特征和所述问题文本特征转化到同一特征空间,对同一维度的图像视觉特征、图像文本特征和问题文本特征进行融合;将编码了跨模态和模态内部关系的图像视觉特征、图像文本特征和问题文本特征输入答案生成模块,获得目标答案。采用本发明所述的方法进行图像文本视觉问答任务,步骤简单、效率高、准确率高。 | |
法律状态公告日 | 法律状态信息 | 法律状态 |
2022-02-25 | 公开 | 公开 |
2022-03-15 | 实质审查的生效IPC(主分类):G06V10/42专利申请号:2021113681595申请日:20211118 | 实质审查的生效 |
本文发布于:2024-09-24 12:26:04,感谢您对本站的认可!
本文链接:https://www.17tex.com/tex/3/421485.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |