基于深度学习的文档标题识别方法、系统、终端及介质

(19)中华人民共和国国家知识产权局
(12)发明专利说明书
(10)申请公布号 CN 112766246 A
(43)申请公布日 2021.05.07
(21)申请号 CN202110380385.9
(22)申请日 2021.04.09
(71)申请人 上海旻浦科技有限公司
    地址 201203 上海市浦东新区中国(上海)自由贸易试验区张衡路200号2幢3层
(72)发明人 段静文
(74)专利代理机构 31317 上海恒慧知识产权代理事务所(特殊普通合伙)
    代理人 徐红银
(51)Int.CI
      G06K9/00(20060101)
      G06K9/20(20060101)
      G06K9/62(20060101)
      G06N3/04(20060101)
      G06T7/13(20170101)
                                                                  权利要求说明书 说明书 幅图
(54)发明名称
      基于深度学习的文档标题识别方法、系统、终端及介质
(57)摘要
      本发明提供了一种基于深度学习的文档标题识别方法及系统,将图像文档输入预训练的深度神经网络模型,获取图像文档中文本行位置信息和置信度信息;根据文本行位置信息,构建图像文档的构造特征;对构造特征添加图像文档名称和文本行是否为标题的标记,形成训练样本训练机器学习模型,得到机器学习分类模型;获取待识别图像文档的构造特征,并将该特征输入至分类模型,输出图像文档标题所在的文本行位置信息和该行为标题的置信度信息。同时提供了一种终端及介质。本发明泛化能力强、通用性广;不依赖强规则,抗噪泛化能力强;过程简洁,不需要经过复杂的前置或者后置处理环节,只需要第一次训练好模型,后续直接调用已训练好的模型进行计算。
法律状态
法律状态公告日
法律状态信息
法律状态
2021-05-07
公开
公开
2022-03-18
发明专利申请公布后的视为撤回IPC(主分类):G06K 9/00专利申请号:2021103803859申请公布日:20210507
发明专利申请公布后的视为撤回
权 利 要 求 说 明 书
【基于深度学习的文档标题识别方法、系统、终端及介质】的权利说明书内容是......
说  明  书
【基于深度学习的文档标题识别方法、系统、终端及介质】的说明书内容是......

本文发布于:2024-09-23 03:27:56,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/402659.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:文档   模型   上海   图像   标题   说明书   信息
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议