一种模型训练方法、装置及电子设备[发明专利]

(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 202011583008.7
(22)申请日 2020.12.28
(71)申请人 北京百度网讯科技有限公司
地址 100085 北京市海淀区上地十街10号
百度大厦2层
(72)发明人 李嘉茜 邵世臣 李永恒 徐明 
(74)专利代理机构 北京银龙知识产权代理有限
公司 11243
代理人 许静 黄灿
(51)Int.Cl.
G06F  40/151(2020.01)
G06K  9/62(2006.01)
G06N  20/20(2019.01)
(54)发明名称
一种模型训练方法、装置及电子设备
(57)摘要
本申请公开了一种模型训练方法、装置及电
子设备,涉及计算机技术中的格式转换等技术领
域。具体实现方案为:建立初始模型,初始模型用
于确定待转换为图片的文档;根据训练文档集的
文档属性参数以及训练文档集的文档标签,对初
始模型进行训练,得到目标模型;文档属性参数
包括以下至少一项:文档格式、文档内容元素数
量、文档排版复杂度、文档下载次数。即利用训练
文档集的文档属性参数以及训练文档集的文档
标签对初始文档模型进行训练,且用于训练的训
练文档集的文档属性参数可采用文档格式、文档
内容元素数量、文档排版复杂度和文档下载次数
中的至少一项参数,可提高训练得到目标模型的
性能,从而可提高目标模型筛选待转换图片的文
档的准确性。权利要求书2页  说明书9页  附图3页CN 112560402 A 2021.03.26
C N  112560402
A
1.一种模型训练方法,该方法包括:
建立初始模型,所述初始模型用于确定待转换为图片的文档;
根据训练文档集的文档属性参数以及所述训练文档集的文档标签,对所述初始模型进行训练,得到目标模型;
其中,所述文档属性参数包括以下至少一项:
文档格式;
文档内容元素数量;
文档排版复杂度;
文档下载次数。
2.根据权利要求1所述的方法,其中,所述得到目标模型之后,还包括:
利用所述目标模型从测试文档集中确定目标文档;
对所述目标文档进行测试,获得在所述目标文档进行转图处理的情况下所述目标文档的第一下载次数,以及在通过第一转码方式对所述目标文档进行处理的情况下所述目标文档的第二下载次数;
比对所述第一下载次数与所述第二下载次数,确定测试结果。
3.根据权利要求2所述的方法,其中,所述对所述目标文档进行测试,获得在所述目标文档进行转图处理的情况下所述目标文档的第一下载次数,以及在通过第一转码方式对所述目标文档进行处理的情况下所述目标文档的第二下载次数之后,还包括:基于所述目标文档的真实标签以及所述第一下载次数,更新所述目标模型。
4.根据权利要求2所述的方法,其中,所述对所述初始模型进行训练,得到目标模型之后,还包括:
接收用户输入的修正信息;
根据所述修正信息,更新所述目标模型。
5.一种模型训练装置,该装置包括:
模型创建模块,用于建立初始模型,所述初始模型用于确定待转换为图片的文档;
训练模块,用于根据训练文档集的文档属性参数以及所述训练文档集的文档标签,对所述初始模型进行训练,得到目标模型;
其中,所述文档属性参数包括以下至少一项:
文档格式;
文档内容元素数量;
文档排版复杂度;
文档下载次数。
6.根据权利要求5所述的装置,其中,所述装置还包括:
第一确定模块,用于利用所述目标模型从测试文档集中确定目标文档;
测试模块,用于对所述目标文档进行测试,获得在所述目标文档进行转图处理的情况下所述目标文档的第一下载次数,以及在通过第一转码方式对所述目标文档进行处理的情况下所述目标文档的第二下载次数;
第二确定模块,用于比对所述第一下载次数与所述第二下载次数,确定测试结果。
7.根据权利要求6所述的装置,其中,所述装置还包括:
第一更新模块,用于基于所述目标文档的真实标签以及所述第一下载次数,更新所述目标模型。
8.根据权利要求6所述的装置,其中,所述装置还包括:
接收模块,用于接收用户输入的修正信息;
第二更新模块,用于根据所述修正信息,更新所述目标模型。
9.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1‑4任一所述的模型训练方法。
10.一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行权利要求1‑4任一所述的模型训练方法。
11.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1‑4中任一所述的模型训练方法。
一种模型训练方法、装置及电子设备
技术领域
[0001]本申请涉及计算机技术中的格式转换等技术领域,尤其涉及一种模型训练方法、装置及电子设备。
背景技术
[0002]伴随着移动化办公趋势的发展,在移动终端浏览文档的需求变的愈加普遍。通过移动终端阅读器的服务端对文档进行转码,移动终端加载文档转码后的数据进行展示,用户可通过在移动终端查看文档内容等。
[0003]目前,对文档的转码方式主要有两种,即通过阅读器的服务端将文档转码为版式Xreader(一种阅
读器,可支持任意大小点阵字体、支持html(HyperText Markup Language,超文本标记语言)读取以及支持编码转换等)数据或流式rtcs(Real‑Time Component Specification,实时构件描述)数据,将转码后的数据传给移动终端进行展示。
发明内容
[0004]本申请提供一种模型训练方法、装置及电子设备。
[0005]第一方面,本申请一个实施例提供一种模型训练方法,所述方法包括:
[0006]建立初始模型,所述初始模型用于确定待转换为图片的文档;
[0007]根据训练文档集的文档属性参数以及所述训练文档集的文档标签,对所述初始模型进行训练,得到目标模型;
[0008]其中,所述文档属性参数包括以下至少一项:
[0009]文档格式;
[0010]文档内容元素数量;
[0011]文档排版复杂度;
[0012]文档下载次数。
[0013]在本实施例的模型训练方法中,可先建立初始模型,再利用训练文档集的文档属性参数以及所述训练文档集的文档标签,对所述初始模型进行训练,得到目标模型。初始模型用于确定待转换为图片的文档,即筛选待通过转图方式进行处理的文档,利用训练文档集的文档属性参数以及所述训练文档集的文档标签对初始文档模型进行训练,且用于训练的训练文档集的文档属性参数可采用文档格式、文档内容元素数量、文档排版复杂度和文档下载次数中的至少一项参数,可提高训练得到目标模型的性能,从而可提高训练得到的目标模型筛选待转换图片的文档的准确性。
[0014]第二方面,本申请一个实施例提供一种模型训练装置,所述装置包括:
[0015]模型创建模块,用于建立初始模型,所述初始模型用于确定待转换为图片的文档;[0016]训练模块,用于根据训练文档集的文档属性参数以及所述训练文档集的文档标签,对所述初始模型进行训练,得到目标模型;
[0017]其中,所述文档属性参数包括以下至少一项:
[0018]文档格式;
[0019]文档内容元素数量;
[0020]文档排版复杂度;
[0021]文档下载次数。
[0022]第三方面,本申请一个实施例还提供一种电子设备,包括:
[0023]至少一个处理器;以及
[0024]与所述至少一个处理器通信连接的存储器;其中,
[0025]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本申请各实施例提供的模型训练方法。[0026]第四方面,本申请一个实施例还提供一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行本申请各实施例提供的模型训练方法。[0027]第五方面,本申请一个实施例提供一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现本申请各实施例提供的模型训练方法。
附图说明
[0028]附图用于更好地理解本方案,不构成对本申请的限定。其中:
[0029]图1是本申请提供的一个实施例的模型训练方法的流程示意图之一;
[0030]图2是本申请提供的一个实施例的模型训练方法的流程示意图之二;
[0031]图3是本申请提供的一个实施例的模型训练方法的流程示意图之三;
[0032]图4是本申请提供的一个实施例的模型训练装置的结构图之一;
[0033]图5是本申请提供的一个实施例的模型训练装置的结构图之二;
[0034]图6是用来实现本申请实施例的模型训练方法的电子设备的框图。
具体实施方式
[0035]以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0036]如图1所示,根据本申请的实施例,本申请提供一种模型训练方法,方法包括:[0037]步骤S101:建立初始模型,初始模型用于确定待转换为图片的文档。
[0038]该方法可以用于电子设备,可选的,电子设备可以是终端设备(例如,移动终端等)中阅读器的后台服务端。可以理解,初始模型为文档筛选模型或文档分类模型等,可用于筛选需要转换为图片的文档。
[0039]步骤S102:根据训练文档集的文档属性参数以及训练文档集的文档标签,对初始模型进行训练,得到目标模型。
[0040]训练文档集中包括多个训练文档,每个训练文档有对应的文档属性参数,每个训练文档有对应的文档标签(可以理解为训练文档的真实文档标签),文档的文档标签可用于指示该文档的类别,例如,可指示该文档为需要转换为图片的文档,即为待转换图片的文档,或者指示该文档为不需要转换为图片的文档,即不为待转换图片的文档。比如,文档的

本文发布于:2024-09-20 19:47:14,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/751407.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:文档   模型   训练   申请
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议