一种基于大数据的专利文章整合系统和方法

著录项
  • CN201710367316.8
  • 20170523
  • CN107273432A
  • 20171020
  • 合肥智权信息科技有限公司
  • 周钰徐
  • G06F17/30
  • G06F17/30

  • 安徽省合肥市高新区国家大学科技园创业孵化中心C区第一层大学生梦工厂9、10号工位
  • 安徽(34)
  • 合肥市长远专利代理事务所(普通合伙)
  • 段晓微;叶美琴
摘要
本发明公开了一种基于大数据的专利文章整合系统和方法,所述系统包括:数据获取模块,用于从网络大数据的数据库中下载专利领域的文章,得到专利文章集合Ai;广告隐藏模块,用于隐藏Ai中的广告信息,得到有效专利文章集合Bi;数据筛选模块,用于将Bi中的有效专利文章与本地数据库中文章进行重合度比较,删除Bi中有效专利文章的重合度值大于预设阈值的有效专利文章,得到目标专利文章集合Cj,将Cj中目标专利文章存入本地数据库;数据检索模块,用于向用户提供本地数据库检索界面,并向用户展示通过检索条件检索到的目标专利文章。
权利要求

1.一种基于大数据的专利文章整合系统,其特征在于,包括:

数据获取模块,用于从网络大数据的数据库中下载专利领域的文章,得到专利文章集 合A i;

广告隐藏模块,用于隐藏A i中的广告信息,得到有效专利文章集合B i;

数据筛选模块,用于将B i中的有效专利文章与本地数据库中文章进行重合度比较,删除 B i中有效专利文章的重合度值大于预设阈值的有效专利文章,得到目标专利文章集合C j,将 C j中目标专利文章存入本地数据库;

数据检索模块,用于向用户提供本地数据库检索界面,并向用户展示通过检索条件检 索到的目标专利文章。

2.根据权利要求1所述的基于大数据的专利文章整合系统,其特征在于,所述数据获取 模块,具体用于:通过互联网爬虫从网络大数据的数据库中下载专利文章。

3.根据权利要求1所述的基于大数据的专利文章整合系统,其特征在于,所述广告隐藏 模块,具体用于:

提取A i中一篇专利文章的句子,得到所述专利文章的句子集合D m;

将D m中各句子进行相互间相似度比较,隐藏所述专利文章中相似度低于预设相似度值 的句子;

当A i中所有专利文章均进行相互间相似度比较和隐藏操作后,得到有效专利文章集合 B i。

4.根据权利要求1所述的基于大数据的专利文章整合系统,其特征在于,所述数据筛选 模块,还用于:在将C j中目标专利文章存入本地数据库之前,将C j中各目标专利文章按照文 章标题建立索引;和/或,在将C j中目标专利文章存入本地数据库之前,将C j中各目标专利文 章按照技术领域建立索引。

5.根据权利要求1所述的基于大数据的专利文章整合系统,其特征在于,还包括任务分 配模块,与数据获取模块连接,用于当到达预设时间点时,启动数据获取模块开始工作。

6.一种基于大数据的专利文章整合方法,其特征在于,包括:

S1、从网络大数据的数据库中下载专利领域的文章,得到专利文章集合A i;

S2、隐藏A i中下载的专利文章中的广告信息,得到有效专利文章集合B i;

S3、将B i中的有效专利文章与本地数据库中文章进行重合度比较,删除B i中有效专利文 章的重合度值大于预设阈值的有效专利文章,得到目标专利文章集合C j,将C j中目标专利文 章存入本地数据库;

S4、向用户提供本地数据库检索界面,并向用户展示通过检索条件检索到的目标专利 文章。

7.根据权利要求6所述的基于大数据的专利文章整合方法,其特征在于,步骤S1,具体 包括:通过互联网爬虫从网络大数据的数据库中下载专利文章。

8.根据权利要求6所述的基于大数据的专利文章整合方法,其特征在于,步骤S2,具体 包括:

S21、提取A i中一篇专利文章的句子,得到所述专利文章的句子集合D m;

S22、将D m中各句子进行相互间相似度比较,隐藏所述专利文章中相似度低于预设相似 度值的句子;

S23、在A i中所有专利文章均进行步骤S21、S22操作后,得到有效专利文章集合B i。

9.根据权利要求6所述的基于大数据的专利文章整合方法,其特征在于,步骤S3中,在 将C j中目标专利文章存入本地数据库之前,将C j中各目标专利文章按照文章标题建立索引; 和/或,步骤S3中,在将C j中目标专利文章存入本地数据库之前,将C j中各目标专利文章按照 技术领域建立索引。

10.根据权利要求6所述的基于大数据的专利文章整合方法,其特征在于,步骤S1,还包 括:当到达预设时间点时,从网络大数据的数据库中下载专利领域的文章。

说明书
技术领域

本发明涉及数据处理技术领域,尤其涉及一种基于大数据的专利文章整合系统和 方法。

随着时代的发展,科技的进步,截至2014年,我国知识产权总体发展状况在全世界 40个主要国家中居第8位,总体实力与世界一流知识产权强国的距离进一步缩小,由此专利 领域的技术的文章数据的产出速度变得很快,专利信息已经正式进入大数据时代。但是一 般非专利领域的人员在互联网上搜索专利非常困难,当他们想要进行专利的申请或检索时 却无从下手,一些检索平台网上浏览和自主下载会浪费大量的时间,其次,随着互联网的发 展,文章中总是出现大量广告、链接等无用信息,这给人们阅读和使用时产生很大的困扰, 降低人们的使用体验。

基于背景技术存在的技术问题,本发明提出了一种基于大数据的专利文章整合系 统和方法;

本发明提出的一种基于大数据的专利文章整合系统,包括:

数据获取模块,用于从网络大数据的数据库中下载专利领域的文章,得到专利文 章集合Ai;

广告隐藏模块,用于隐藏Ai中的广告信息,得到有效专利文章集合Bi;

数据筛选模块,用于将Bi中的有效专利文章与本地数据库中文章进行重合度比 较,删除Bi中有效专利文章的重合度值大于预设阈值的有效专利文章,得到目标专利文章 集合Cj,将Cj中目标专利文章存入本地数据库;

数据检索模块,用于向用户提供本地数据库检索界面,并向用户展示通过检索条 件检索到的目标专利文章。

优选地,所述数据获取模块,具体用于:通过互联网爬虫从网络大数据的数据库中 下载专利文章。

优选地,所述广告隐藏模块,具体用于:

提取Ai中一篇专利文章的句子,得到所述专利文章的句子集合Dm;

将Dm中各句子进行相互间相似度比较,隐藏所述专利文章中相似度低于预设相似 度值的句子;

当Ai中所有专利文章均进行相互间相似度比较和隐藏操作后,得到有效专利文章 集合Bi。

优选地,所述数据筛选模块,还用于:在将Cj中目标专利文章存入本地数据库之 前,将Cj中各目标专利文章按照文章标题建立索引;和/或,在将Cj中目标专利文章存入本地 数据库之前,将Cj中各目标专利文章按照技术领域建立索引。

优选地,还包括任务分配模块,与数据获取模块连接,用于当到达预设时间点时, 启动数据获取模块开始工作。

一种基于大数据的专利文章整合方法,包括:

S1、从网络大数据的数据库中下载专利领域的文章,得到专利文章集合Ai;

S2、隐藏Ai中下载的专利文章中的广告信息,得到有效专利文章集合Bi;

S3、将Bi中的有效专利文章与本地数据库中文章进行重合度比较,删除Bi中有效专 利文章的重合度值大于预设阈值的有效专利文章,得到目标专利文章集合Cj,将Cj中目标专 利文章存入本地数据库;

S4、向用户提供本地数据库检索界面,并向用户展示通过检索条件检索到的目标 专利文章。

优选地,步骤S1,具体包括:通过互联网爬虫从网络大数据的数据库中下载专利文 章。

优选地,步骤S2,具体包括:

S21、提取Ai中一篇专利文章的句子,得到所述专利文章的句子集合Dm;

S22、将Dm中各句子进行相互间相似度比较,隐藏所述专利文章中相似度低于预设 相似度值的句子;

S23、在Ai中所有专利文章均进行步骤S21、S22操作后,得到有效专利文章集合Bi。

优选地,步骤S3中,在将Cj中目标专利文章存入本地数据库之前,将Cj中各目标专 利文章按照文章标题建立索引;和/或,步骤S3中,在将Cj中目标专利文章存入本地数据库 之前,将Cj中各目标专利文章按照技术领域建立索引。

优选地,步骤S1,还包括:当到达预设时间点时,从网络大数据的数据库中下载专 利领域的文章。

本发明从网络大数据的数据库中下载专利领域的文章,再隐藏文章中的无用广告 信息,得到有效专利文章,将有效专利文章与本地数据库中文章进行重合度比较,删除重合 度值大于预设阈值的有效专利文章,得到目标专利文章集合存入本地数据库,同时用户提 供本地数据库检索界面,并向用户展示通过检索条件检索到的目标专利文章。如此,对下载 的专利文章的进行广告隐藏,查重、整合、建立索引操作,使得用户可以在本地数据库中进 行文章的检索和阅读,方便用户使用,提高用户的使用体验,其次,便于专利公开数据的利 用和研究。

图1为本发明提出的一种基于大数据的专利文章整合系统的模块示意图;

图2为本发明提出的一种基于大数据的专利文章整合方法的流程示意图。

参照图1,本发明提出的一种基于大数据的专利文章整合系统,包括:

数据获取模块,用于从网络大数据的数据库中下载专利领域的文章,得到专利文 章集合Ai。

在具体方案中,数据获取模块通过互联网爬虫从网络大数据的数据库中下载专利 文章,根据预的设情报搜集目标与分析目标,采集专利领域的文章信息,得到专利文章集合 Ai。

广告隐藏模块,与数据获取模块连接,用于隐藏Ai中的广告信息,得到有效专利文 章集合Bi,具体用于:提取Ai中一篇专利文章中的句子,得到句子集合Dm;将Dm中各句子进行 相互间相似度比较,隐藏所述专利文章中相似度低于预设相似度值的句子;在Ai中所有专 利文章均进行相互间相似度比较和隐藏操作后,得到有效专利文章集合Bi。

在具体方案中,提取Ai中任一篇专利文章中所有的句子,将这些句子集合进行相 互间相似度比较,判断相似度低于预设相似度值的句子为广告信息,隐藏所述广告信息,得 到有效专利文章,当Ai中所有专利文章均进行相似度比较和隐藏操作后,得到有效专利文 章集合Bi:如此,隐藏文章中无用的广告信息和链接,方便用户的阅读和使用,进一步的,用 户可显示隐藏的句子。

数据筛选模块,与广告隐藏模块连接,用于将Bi中的有效专利文章与本地数据库 中文章进行重合度比较,删除Bi中有效专利文章的重合度值大于预设阈值的有效专利文 章,得到目标专利文章集合Cj,将Cj中目标专利文章存入本地数据库。

在具体方案中,在将Cj中目标专利文章存入本地数据库之前,将Cj中各目标专利文 章按照文章标题建立索引;和/或,在将Cj中目标专利文章存入本地数据库之前,将Cj中各目 标专利文章按照文章技术领域建立索引,建立索引的目的是方便用户快速查相关文章信 息,大多数用户一般通过文章标题或技术领域作为关键字进行检索。

数据检索模块,与广告隐藏模块连接,用于向用户提供本地数据库检索界面,并向 用户展示通过检索条件检索到的目标专利文章。

在具体方案中,用户可通过本地数据库检索界面进行目标专利文章的检索,检索 方法可以采用现有的从文章的检索方法,具体检索过程此处不再赘述。

任务分配模块,与数据获取模块连接,用于当到达预设时间点时,启动数据获取模 块开始工作。

参照图2,本发明提出的一种基于大数据的专利文章整合方法,包括:

S1、从网络大数据的数据库中下载专利领域的文章,得到专利文章集合Ai;本步骤 中,当到达用户预设的时间点时,通过互联网爬虫从网络大数据的数据库中下载专利文章。

在具体方案中,在到达用户预设的时间点时,通过互联网爬虫从网络大数据的数 据库中下载专利文章,根据预的设情报搜集目标与分析目标,采集专利领域的文章信息,得 到专利文章集合Ai。

S2、隐藏Ai中下载的专利文章中的广告信息,得到有效专利文章集合Bi;本步骤具 体包括:S21、提取Ai中一篇专利文章中文字信息的句子,得到文字信息的句子集合Dm;S22、 将Dm中各句子进行相互间相似度比较,隐藏所述专利文章中相似度低于预设相似度值的句 子;S23、在Ai中所有专利文章均进行步骤S21、S22操作后,得到有效专利文章集合Bi。

在具体方案中,提取Ai中任一篇专利文章中所有的句子,将这些句子集合进行相 互间相似度比较,判断相似度低于预设相似度值的句子为广告信息,隐藏所述广告信息,得 到有效专利文章,当Ai中所有专利文章均进行相似度比较和隐藏操作后,得到有效专利文 章集合Bi:如此,隐藏文章中无用的广告信息和链接,方便用户的阅读和使用,进一步的,用 户可显示隐藏的句子。

S3、将Bi中的有效专利文章与本地数据库中文章进行重合度比较,删除Bi中有效专 利文章的重合度值大于预设阈值的有效专利文章,得到目标专利文章集合Cj,将Cj中目标专 利文章存入本地数据库;

本步骤中,在将Cj中目标专利文章存入本地数据库之前,将Cj中各目标专利文章按 照文章标题建立索引;和/或,步骤S3中,在将Cj中目标专利文章存入本地数据库之前,将Cj 中各目标专利文章按照文章技术领域建立索引。

在具体方案中,在将Cj中目标专利文章存入本地数据库之前,将Cj中各目标专利文 章按照文章标题和/或文章技术领域建立索引,建立索引的目的是方便用户快速查相关 文章信息,大多数用户一般通过文章标题或技术领域作为关键字进行检索。

S4、向用户提供本地数据库检索界面,并向用户展示通过检索条件检索到的目标 专利文章;

在具体方案中,用户可通过本地数据库检索界面进行目标专利文章的检索,检索 方法可以采用现有的从文章的检索方法,具体检索过程此处不再赘述。本实施方式从网络 大数据的数据库中下载专利领域的文章,再隐藏文章中的无用广告信息,得到有效专利文 章,将有效专利文章与本地数据库中文章进行重合度比较,删除重合度值大于预设阈值的 有效专利文章,得到目标专利文章集合存入本地数据库,同时用户提供本地数据库检索界 面,并向用户展示通过检索条件检索到的目标专利文章。如此,对下载的专利文章的进行广 告隐藏,查重、整合、建立索引操作,使得用户可以在本地数据库中进行文章的检索和阅读, 方便用户使用,提高用户的使用体验,其次,便于专利公开数据的利用和研究。

以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此, 任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其 发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

本文发布于:2024-09-22 12:31:57,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/67910.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议