一种折线图数据提取的方法、装置及设备[发明专利]

(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 201810907436.7
(22)申请日 2018.08.10
(71)申请人 武汉优品楚鼎科技有限公司
地址 430000 湖北省武汉市东湖新技术开
发区光谷大道77号金融港后台服务中
心一期A1栋19层
(72)发明人 赵勇 
(51)Int.Cl.
G06F  16/904(2019.01)
G06Q  40/00(2012.01)
(54)发明名称
一种折线图数据提取的方法、装置及设备
(57)摘要
本发明公开了一种折线图数据提取的方法
及装置、设备,本发明通过获取折线图中的像素
坐标,利用像素坐标计算像素差值,并结合相应
的数据进行数据转换计算,从而获得折线图中各
点所对应的实际数据。本发明涉及研报自动化提
取中,研报折线图数据的还原,可以针对pdf格式
的研报,自动识别其研报内容中的折线图,并获
取所述折线图中的各折点及非折点处的数据关
系。权利要求书2页  说明书8页  附图3页CN 109189997 A 2019.01.11
C N  109189997
A
1.一种折线图数据提取的方法,其特征在于,包括:
获取待处理图片的所有数据的数据信息,所述数据信息包括像素坐标、文本数据;
遍历所述所有数据的像素坐标确定所述折线图的像素坐标范围
计算所述像素坐标范围内单位像素对应的单位数据值;
计算所述折线图内的任意点与所述折线图的坐标轴之间的像素差值,根据所述像素差值及对应的所述单位数据值计算所述任意点对应的数据值。
2.根据权利要求1所述的方法,其特征在于,所述遍历所述所有数据的像素坐标确定所述折线图的像素坐标范围为:
通过正则表达式获取所述待处理图片中的所有直线元素;
筛选出有共同起点的纵向直线段及横向直线段,获取所述直线段的各端点像素坐标确定所述折线图;
根据所述折线图对应的像素坐标,获取所述折线图的像素坐标范围。
3.根据权利要求2所述的方法,其特征在于,所述计算所述像素坐标范围内单位像素对应的单位数据值为:
获取所述像素坐标范围外最接近所述纵向或/和横向直线段的纵向或/和横向标注数值;
分析所述纵向或/和横向标注数值的最大值及最小值,得出对应的纵向或/和横向标注数值差值;
获取所述像素坐标范围内所述纵向或/和横向直线段的端点之间的纵向或/和横向像素差值一;
将所述纵向或/和横向标注数值差值除以对应的纵向或/和横向像素差值一计算出所述像素坐标范围内单位像素对应的纵向或/和横向单位数据值。
4.根据权利要求3所述的方法,其特征在于,所述计算所述折线图内的任意点与所述折线图的坐标轴之间的像素差值,根据所述像素差值及所述单位数据值计算出所述任意点对应的数据值为:
获取所述折线图内的任意点;
计算所述任意点与所述纵向或/和横向直线段之间的横向或/和纵向像素差值二;
将所述纵向或/和横向像素差值二乘以对应的所述纵向或/和横向单位数据值再加上所述纵向或/和横向标注数值的最小值,计算出所述任意点的对应的纵向或/和横向数据值。
5.根据权利要求1-4中任意一个所述的方法,其特征在于,所述像素坐标范围内的任意点为所述折线图中的折线段的端点及各折点中的任意一点,所述像素坐标范围为依所述折线图的外观而确定的方形区域。
6.一种折线图数据提取的装置,其特征在于,包括:
数据提取模块,用于获取待处理图片中所有数据的像素坐标及其像素坐标值并存储;
像素坐标范围确定模块,用于遍历所述所有数据的像素坐标确定所述折线图,建立所述折线图的像素坐标范围;
计算模块,用于计算所述像素坐标范围内单位像素对应的单位数据值及所述像素坐标范围内的任意点与所述像素坐标范围内折线图的坐标轴之间的像素差值,根据所述像素差
值及所述单位数据值计算出所述任意点的像素坐标对应的数据值。
7.根据权利要求6所述的装置,其特征在于,所述数据提取模块用于将所述待处理图片转换为SVG格式,获取所述待处理图片中所有数据的像素坐标及其像素坐标值、文本数据并存储。
8.根据权利要求6所述的装置,其特征在于,所述像素坐标范围确定模块还可用于:
通过正则表达式获取所述待处理图片中的所有直线元素;
筛选出有共同起点的纵向直线段及横向直线段,获取所述直线段的各端点像素坐标确定所述折线图位置;
根据所述折线图对应的像素坐标,获取所述折线图的像素坐标范围。
9.根据权利要求8所述的装置,其特征在于,所述计算模块还可用于:
获取所述像素坐标范围外最接近所述纵向或/和横向直线段的纵向或/和横向标注数值;
分析所述纵向或/和横向标注数值的最大值及最小值,得出对应的纵向或/和横向标注数值差值;
获取所述像素坐标范围内所述纵向或/和横向直线段的端点之间的纵向或/和横向像素差值一;
将所述纵向或/和横向标注数值差值除以对应的纵向或/和横向像素差值一计算出所述像素坐标范围内单位像素对应的纵向或/和横向单位数据值;
获取所述折线图内的任意点;
计算所述任意点与所述纵向或/和横向直线段之间的横向或/和纵向像素差值二;
将所述纵向或/和横向像素差值二乘以对应的所述纵向或/和横向单位数据值再加上所述纵向或/和横向标注数值的最小值,计算出所述任意点的对应的纵向或/和横向数据值。
10.一种折线图数据提取的设备,包括存储器及处理器,所述存储器用于存储指令,所述指令用于控制所述处理器执行所述权利要求1-5所述的方法。
一种折线图数据提取的方法、装置及设备
技术领域
[0001]本发明涉及一种计算机技术领域,尤其涉及一种利用SVG格式文件中的坐标参数对折线图中的数据进行提取、还原的方法、系统及装置。
背景技术
[0002]研报是机构对一家公司或者一个行业的研究报告,众多投资者做投资决策的重要依据。图表是研报中数据的一种重要的表现形式,其特点就是直观,便于理解和分析。折线图是研报中使用频率非常高的一种数据图表,折线图可以显示随时间(根据常用比例设置)而变化的连续数据,因此非常适用于显示在相等时间间隔下数据的趋势。在有很多数据点并且它们的显示顺序很重要时,折线图尤其有用。
[0003]现有技术中,对折线图的数据提取一般都是通过相关的文字说明获取折线图的准确图表数据或者人为对折线图的图表数据进行分析,然后预估出或计算出折线图的图表数据。提取方法存在一些弊端,不适合金融证券行业中机构针对大量研报的折线图图表数据的提取分析。
发明内容
[0004]针对上述背景技术中提到的一些技术上的弊端,本发明公开的一个方面是提供一种研报自动化提取、研报折线图数据还原的技术方案。解决了使折线图数据不能自动格式化处理的问题。
[0005]根据本发明的第一方面,提供一种折线图数据提取的方法,包括:获取待处理图片的所有数据的数据信息,所述数据信息包括像素坐标、文本数据;
遍历所述所有数据的像素坐标确定所述折线图的像素坐标范围;
计算所述像素坐标范围内单位像素对应的单位数据值;
计算所述折线图内的任意点与所述折线图的坐标轴之间的像素差值,根据所述像素差值及对应的所述单位数据值计算所述任意点对应的数据值。
[0006]结合第一方面,在第一方面可能的实现方式中的第一种情况为,所述遍历所述所有数据的像素坐标确定所述折线图的像素坐标范围为:
通过正则表达式获取所述待处理图片中的所有直线元素;
筛选出有共同起点的纵向直线段及横向直线段,获取所述直线段的各端点像素坐标确定所述折线图;
根据所述折线图对应的像素坐标,获取所述折线图的像素坐标范围。
[0007]结合所述第一方面可能的实现方式中的第一种情况,在第一方面可能的实现方式中的第二种情况
为,所述计算所述像素坐标范围内单位像素对应的单位数据值为:获取所述像素坐标范围外最接近所述纵向直线段的纵向标注数值或/和所述像素坐标范围外最接近所述横向直线段的横向标注数值;
分析所述纵向直线段的纵向标注数值的最大值及最小值或/和横向直线段的横向标注
数值的最大值及最小值,得出对应的纵向标注数值差值或/和横向标注数值差值;
获取所述像素坐标范围内所述纵向直线段的端点之间的纵向像素差值一或/和横向直线段的端点之间的横向像素差值一;
将所述纵向标注数值差值除以对应的纵向像素差值一或/和横向标注数值差值除以对应的横向像素差值一计算出所述像素坐标范围内单位像素对应的纵向单位数据值或/和横向单位数据值。
[0008]结合所述第一方面可能的实现方式中的第二种情况,在第一方面可能的实现方式中的第三种情况为,所述计算所述折线图内的任意点与所述折线图的坐标轴之间的像素差值,根据所述像素差值及所述单位数据值计算出所述任意点对应的数据值为:获取所述折线图内的任意点;
计算所述任意点与所述纵向直线段之间的横向像素差值二或/和所述任意点与所述横向直线段之间纵向像素差值二;
将所述纵向像素差值二乘以对应的所述纵向单位数据值再加上所述纵向标注数值的最小值或/和所述横向像素差值二乘以对应的所述横向单位数据值再加上所述横向标注数值的最小值,计算出所述任意点对应的纵向数据值或/和横向数据值。
[0009]结合所述第一方面可能的实现方式中的第三种情况,在第一方面可能的实现方式中的第四种情况为,所述像素坐标范围内的任意点为所述像素坐标范围内的折线图中的折线段的端点及各折点中的任意一点,所述像素坐标范围为依所述折线图的外观而确定的方形区域。
[0010]根据本发明的第二方面,提供一种折线图数据提取的装置,包括:数据提取模块,用于获取待处理图片中所有数据的像素坐标及其像素坐标值、文本数据并存储;
像素坐标范围确定模块,用于遍历所述所有数据的像素坐标确定所述折线图位置,建立所述折线图的像素坐标范围;
计算模块,用于计算所述像素坐标范围内单位像素对应的单位数据值及所述像素坐标范围内的任意点与所述像素坐标范围内折线图的坐标轴之间的像素差值,根据所述像素差值及所述单位数据值计算出所述任意点的像素坐标对应的数据值。
[0011]结合第二方面,在所述第二方面的可能的实现方式中的第一种情况为,所述数据提取模块用于将
所述待处理图片转换为SVG格式,获取所述待处理图片中所有数据的像素坐标及其像素坐标值、文本数据并存储。
[0012]结合第二方面,在所述第二方面的可能的实现方式中的第二种情况为,所述像素坐标范围确定模块还可用于:
通过正则表达式获取所述待处理图片中的所有直线元素;
筛选出有共同起点的纵向直线段及横向直线段,获取所述直线段的各端点像素坐标确定所述折线图;
根据所述折线图对应的像素坐标,获取所述折线图的像素坐标范围。
[0013]结合第二方面的可能的实现方式中的第二种情况,在所述第二方面的可能的实现方式中的第三种情况为,所述计算模块还可用于:
获取所述像素坐标范围外最接近所述纵向直线段的纵向标注数值或/和所述像素坐标

本文发布于:2024-09-22 06:51:33,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/759887.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:像素   数据   折线图   坐标   范围
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议