一种企业专利公告信息抓取与管理系统

著录项
  • CN201510539927.7
  • 20150831
  • CN105069585A
  • 20151118
  • 佛山市恒南微科技有限公司
  • 黄庆梅;其他发明人请求不公开姓名
  • G06Q10/06
  • G06Q10/06 G06Q50/18 G06F17/30

  • 广东省佛山市禅城区张槎三路35号德晖花园4号楼502室
  • 广东(44)
摘要
一种企业专利公告信息抓取与管理系统。本发明公开了一种基于专利公众公开的登记或变更公告数据的页面级别的通过getHTTPPage方法的抓取技术,再结合标记分析方法获得第一信息码、第二信息码和第三信息码,再通过上述信息码之间的对比,在相应程序下生成第四信息码,然后依对应的方法写入第一知识产权信息库和第二知识产权信息库,以备不同的场合使用的一种企业知识产权信息抓取与管理系统。
权利要求

1.一种企业专利公告信息抓取与管理系统,其特征包括,其主要包含以下结构:

企业信息库、编码管理程序、URLencode/URLDecod加密/解密程序、专利公布数据采集管理模块、信息码管理模块、第一比对信息库、第二比对信息库、企业专利公告信息库和接口管理模块;其中信息码管理模块由第一信息码、第二信息码和第三信息码组成;企业信息库包含企业信息数据和SQL语句管理模块,其通过SQL语句条件检索后返回值给编码管理程序确定编码方式,再通过URLencode/URLDecod加密/解密程序进行URLencode加密,输出加密后的企业名称,发送到专利公布数据采集管理模块生成相应的以上述加密后的企业名称为变量的URL,信息码管理模块通过getHTTPPage方式访问生成的URL,并将获得的页面HTML静态化,执行信息码管理模块中的标记识别截取页面信息以对应生成第一信息码、第二信息码和第三信息码;当第一信息码为空时,系统将返回重新执行企业信息库的SQL语句操作,并检查网络、数据可靠性以及各模块运作是否正常;当第一信息码不为空,第二信息码为空时,将第三信息码设置为“0”,然后写入第一比对信息库,同时写入企业专利产权公告信息库;当第二信息码不为空,通过信息码管理模块的标记识别截取页面信息,去杂后生成第三信息码,与辅助信息一并写入第二比对信息库,同时写入企业专利公告信息库;企业专利公告信息库通过SQL语句与存贮过程共同组成接口,通过接口管理模块供第三方系统调用。

2.根据权利要求1所述的一种企业专利公告信息抓取与管理系统,其特征包括,所述的企业信息库所包含的SQL语句管理模块,包括企业类型、企业成立时间、企业注册资金、企业注册地址和企业是否是高新技术企业分别或者组合作为条件检索筛选时所需要的SQL语句或SQL语句集合。

3.根据权利要求1和权利要求2所述的一种企业专利公告信息抓取与管理系统,其特征包括,企业信息库还可以包含采集比对记录字段集,将比对的结果、比对次数和比对时间进行记录。

4.根据权利要求1所述的一种企业专利公告信息抓取与管理系统,其特征包括,所述的辅助数据包括企业名、当前的系统时间、操作人员的session值或值的组合和数据对比的次数的信息的一种或多种的集合。

5.根据权利要求1和权利要求2所述的一种企业专利公告信息抓取与管理系统,其特征包括,每个企业信息库还可以设置一定数量的采样数据进行采样,采样数据包括拥有一定量的专利公告信息的企业,以及没有任何专利公告的一定量的企业,采样走完整个流程,查看相关采集是否正常,确定网络是否正常,官方公布数据格式是否发生变化和确定所设置的数据编码方式是否正确,采样数据通过独立的字段值进行标识,或者通过单独的表进行存放,在进行比对时,通过SQL语句检索获得相应的数据。

6.根据权利要求1所述的一种企业专利公告信息抓取与管理系统,其特征包括,所述专利公布数据采集管理模块包含手动设置URL、编码方式和采集规则的程序,当官方机构公布的URL、发布的编码方式、发布的数据结构发生变更时,专利公布数据采集管理模块的手动设置程序对所发生的变化进行容错更正。

7.根据权利要求1所述的一种企业专利公告信息抓取与管理系统,其特征包括,URLencode/URLDecod加密/解密程序进行数据加密输出时,其加密编码根据实际情况进行一次加密、二次和多次加密。

说明书
技术领域

本发明主要涉及一种企业专利公告信息抓取与管理的系统,尤其是通过专利公告公布网站的页面信息抓取、分析、整理和建档的系统。

目前,知识产权的信息获取大多基于通过相关部门所公开的数据接口来实现知识产权信息的同步,或者通过复杂的运算与抓取而获得信息量较少的信息。此方法对于经常性的、大数据的企业知识产权的信息获取显得难以胜任,并且应用成本高,风险大,不利于中小中介服务机构推广应用。

专利公告的信息,尤其是建立企业研发信用体系,更显得非常重要,同时也是中介服务机构提高自身服务质量的有力支持。

为了解决上述问题,本发明提出了一种基于专利公众公开的登记或变更公告数据的页面级别的通过getHTTPPage方法的抓取技术,再结合标记分析方法获得第一信息码、第二信息码和第三信息码,再通过上述信息码之间的对比,在相应程序下生成第三信息码,然后依对应的方法写入第一知识产权信息库和第二知识产权信息库,以备不同的场合使用的一种企业专利公告信息抓取与管理的系统。

一种企业专利公告信息抓取与管理系统,其主要包含以下结构:

企业信息库、编码管理程序、URLencode/URLDecod加密/解密程序、专利公布数据采集管理模块、信息码管理模块、第一比对信息库、第二比对信息库、企业知识产权公告信息库和接口管理模块;其中信息码管理模块由第一信息码、第二信息码和第三信息码组成;企业信息库包含企业信息数据和SQL语句管理模块,其通过SQL语句条件检索后返回值给编码管理程序确定编码方式,再通过URLencode/URLDecod加密/解密程序进行URLencode加密,输出加密后的企业名称,发送到专利公布数据采集管理模块生成相应的以上述加密后的企业名称为变量的URL,信息码管理模块通过getHTTPPage方式访问生成的URL,并将获得的页面HTML静态化,执行信息码管理模块中的标记识别截取页面信息以对应生成第一信息码、第二信息码和第三信息码;当第一信息码为空时,系统将返回重新执行企业信息库的SQL语句操作,并检查网络、数据可靠性以及各模块运作是否正常;当第一信息码不为空,第二信息码为空时,将第三信息码设置为“0”,然后写入第一比对信息库,同时写入企业专利产权公告信息库;当第二信息码不为空,通过信息码管理模块的标记识别截取页面信息,去杂后生成第三信息码,与辅助信息一并写入第二比对信息库,同时写入企业专利公告信息库;企业专利公告信息库通过SQL语句与存贮过程共同组成接口,通过接口管理模块供第三方系统调用。

所述的企业信息库所包含的SQL语句管理模块,包括企业类型、企业成立时间、企业注册资金、企业注册地址和企业是否是高新技术企业分别或者组合作为条件检索筛选时所需要的SQL语句或SQL语句集合。

企业信息库还可以包含采集比对记录字段集,将比对的结果、比对次数和比对时间进行记录。

所述的辅助数据包括企业名、当前的系统时间、操作人员的session值或值的组合和数据对比的次数的信息的一种或多种的集合。

每个企业信息库还可以设置一定数量的采样数据进行采样,采样数据包括企业拥有三种知识产权类别的一种、两种、三种及上述组合的一定量的企业,以及没有任何专利公告的一定量的企业,采样走完整个流程,查看相关采集是否正常,确定网络是否正常,官方公布数据格式是否发生变化和确定所设置的数据编码方式是否正确,采样数据通过独立的字段值进行标识,或者通过单独的表进行存放,在进行比对时,通过SQL语句检索获得相应的数据。

专利公布数据采集管理模块包含手动设置URL、编码方式和采集规则的程序,当官方机构公布的URL、发布的编码方式、发布的数据结构发生变更时,知识产权公布数据采集管理模块的手动设置程序对所发生的变化进行容错更正。

URLencode/URLDecod加密/解密程序进行数据加密输出时,其加密编码根据实际情况进行一次加密、二次和多次加密。

图1一种企业专利公告信息抓取与管理系统结构图。

图2一种企业专利公告信息抓取与管理的方法流程图。

如图1,一种企业专利公告信息抓取与管理系统,其主要包含以下结构:

企业信息库(A01)、编码管理程序(A02)、URLencode/URLDecod加密/解密程序(A03)、专利公布数据采集管理模块(A04)、信息码管理模块(A05)、第一比对信息库(A06)、第二比对信息库(A07)、企业知识产权公告信息库(A08)和接口管理模块(A09);其中信息码管理模块(A05)由第一信息码(B11)、第二信息码(B12)和第三信息码(B13)组成;企业信息库(A01)包含企业信息数据和SQL语句管理模块,其通过SQL语句条件检索后返回值给编码管理程序(A02)确定编码方式,再通过URLencode/URLDecod加密/解密程序(A03)进行URLencode加密,输出加密后的企业名称,发送到专利公布数据采集管理模块(A04)生成相应的以上述加密后的企业名称为变量的URL,信息码管理模块(A05)通过getHTTPPage方式访问生成的URL,并将获得的页面HTML静态化,执行信息码管理模块(A06)中的标记识别截取页面信息以对应生成第一信息码(B11)、第二信息码(B12)和第三信息码(B13);当第一信息码(B11)为空时,系统将返回重新执行企业信息库(A01)的SQL语句操作,并检查网络、数据可靠性以及各模块运作是否正常;当第一信息码(A11)不为空,第二信息码(B12)为空时,将第三信息码(B13)设置为“0”,然后写入第一比对信息库(A06),同时写入企业专利产权公告信息库(A08);当第二信息码(B12)不为空,通过信息码管理模块(A05)的标记识别截取页面信息,去杂后生成第三信息码(B13),与辅助信息一并写入第二比对信息库(A07),同时写入企业专利公告信息库(A08);企业专利公告信息库(A08)通过SQL语句与存贮过程共同组成接口,通过接口管理模块(A09)供第三方系统调用。

所述的企业信息库(A01)所包含的SQL语句管理模块,包括企业类型、企业成立时间、企业注册资金、企业注册地址和企业是否是高新技术企业分别或者组合作为条件检索筛选时所需要的SQL语句或SQL语句集合。

企业信息库(A01)还可以包含采集比对记录字段集,将比对的结果、比对次数和比对时间进行记录。

所述的辅助数据包括企业名、当前的系统时间、操作人员的session值或值的组合和数据对比的次数的信息的一种或多种的集合。

每个企业信息库(A01)还可以设置一定数量的采样数据进行采样,采样数据包括企业拥有三种知识产权类别的一种、两种、三种及上述组合的一定量的企业,以及没有任何专利公告的一定量的企业,采样走完整个流程,查看相关采集是否正常,确定网络是否正常,官方公布数据格式是否发生变化和确定所设置的数据编码方式是否正确,采样数据通过独立的字段值进行标识,或者通过单独的表进行存放,在进行比对时,通过SQL语句检索获得相应的数据。

专利公布数据采集管理模块(A04)包含手动设置URL、编码方式和采集规则的程序,当官方机构公布的URL、发布的编码方式、发布的数据结构发生变更时,知识产权公布数据采集管理模块的手动设置程序对所发生的变化进行容错更正。

URLencode/URLDecod加密/解密程序(A03)进行数据加密输出时,其加密编码根据实际情况进行一次加密、二次和多次加密。

其具体的执行方法的流程如图2:

一种企业专利公告信息抓取与管理的方法,其主要包含以下步骤:

步骤S101,进行企业信息查询中,进行企业类型等条件检索筛选出所需要检索的数据。

步骤S102,在企业信息库中读出企业名称的待查数据,设变量为“aa”。

步骤S103,根据三种类别将步骤S102所读出的企业名称通过函数转为UTF8方式进行数据编码。

其中UTF8编码的需要在文件头加入以下代码段:

步骤S104,在步骤S103生成的对应编码方式的数据后,通过URLencode/URLDecode加密/解密函数将上述步骤S103的数据进行加密,并输出为第一变量,其中软件著作权公告信息中,第一变量为明文,不进行加密;URLencode/URLDecode加密/解密函数将上述步骤S103的数据进行加密,其加密编码根据实际情况进行一次加密、二次和多次加密,其中一次加密的bb=ce(""&aa&""),两次加密的方式为cc=ce(""&bb&""),多次加密的方法类似。

步骤S105,以上述第一变量作为对应的URL的对应参数值生成第一URL,使用ASP开发语言分别表达如下第一变量假设为cname,专利公告信息公布网站假设为www.abcde:

http://www.abcde//txnQueryOrdinaryPatents.do?select-key%3Ashenqingh=&select-

key%3Azhuanlimc=&select-key%3Ashenqingrxm=<%=cname%>&select-key%3Azhuanlilx=&select-key%3Ashenqingr_from=&select-key%3Ashenqingr_to=&attribute-node:record_start-row=60&attribute-node:record_page-row=100&

本文发布于:2024-09-23 09:27:01,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/69315.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议