大数据时代档案信息资源共享平台数据采集系统设计与应用

数据时代档案信息资源共享平台数据采集系统设计与应用
作者:***
来源:《档案与建设》2020年第10期
        摘要:随着大数据、人工智能、移动互联网技术的不断成熟,档案信息资源共享平台的数据分析与研究已经成为档案信息管理工作关注的重点,而数据采集又是档案数据分析
与研究的基础,因此,高质量的数据采集对档案大数据分析与研究具有重要意义。文章在探索档案信息资源共享平台数据采集所涉及的技术基础上,结合数据采集需求,提出了采用自然语言处理技术采集档案数据的结论,通过该技术对档案数据收集的优化,可更准确地确保档案信息资源的数据采集质量。
        关键词:大数据;档案信息资源;共享平台;数据采集;自然语言处理技术
        分类号:G273
        Design and Application of Data Acquisition System of Archival Information Resource Sharing Platform in the Era of Big Data
        Bian Xianjie
        (School of Public Administration of Yancheng Teacher University, Yancheng,Jiangsu, 224007)
        Abstract:With the maturity of big data, artificial intelligence and mobile Internet te
chnology, the data analysis and research of archival information resources sharing platform has become the focus of archival information management. Data acquisition is the basis of data analysis and research of archives. Therefore, high-quality data acquisition is of great significance to large data analysis and research of archives. Based on the technology involved in data collection of archive information sharing platform, combined with the data collection requirements, this paper proposes the use of natural language processing technology to collect archive data. Through this technology, the data collection quality of archives information resources can be realized more efficiently and accurately after optimizing the collection of archives data.
雷击次数
        Keywords:Big Data; Archive Information Resource; Sharing Platform; Data Acquisition; Natural LanguageProcessingTechnology中国男体
        隨着网络和信息技术的不断普及,人类产生的数据量正呈指数级增长,以大数据、物联网、人工智能、5G为核心特征的信息化变革正风靡全球。档案信息资源的记录方式由传统的文本类型向文本与图像、声音、视频等多媒体并存转变,档案信息数据的来源更加广
泛、数量更加庞大。数据采集作为档案数据分析与研究的基础,其质量对档案信息资源共享平台数据分析与研究具有重要意义。
金属钝化剂        2015年9月,国务院印发《促进大数据发展行动纲要》,系统部署了大数据发展工作。2016年3月,《中华人民共和国国民经济和社会发展第十三个五年规划纲要》发布并提出:把大数据作为基础性战略资源,全面实施促进大数据发展行动,加快推动数据资源共享开放和开发应用,助力产业转型升级和社会治理创新。加快政府数据开放共享、促进大数据产业健康发展,成为大数据战略的重要部分。为推进大数据战略,全国各地纷纷成立大数据产业相关的数据管理部门[1]。在此背景下,档案信息资源共享平台建设步伐加快,“十二五”期间,我国初步建成以局域网、政务网、因特网为平台,以档案信息管理系统为支撑,以档案目录中心、基础数据库、档案利用平台、档案网站信息发布为基础的档案信息化体系[2]。大数据时代到来,数据的来源和生产机制发生了巨大变化,数据的意义急剧放大[3],其中,档案信息数据的采集是平台实现档案信息大数据应用的基础。
浙江省消防条例        在大数据平台下,由于档案信息数据源具有更复杂的多样性,数据采集的形式也更加多样。在数据采集阶段,增量档案信息数据同步,尤其针对那种可变(可删除、可修改)
的档案信息数据源处理更加困难。现阶段,档案信息数据采集要解决上述问题,可采用的方式主要包括以下三种:一是放弃同步,采用直连形式;二是放弃增量同步,选用全量同步;三是编写定期Job,扫描档案信息数据源以获得待处理数据,并进行增量同步。
金属锂
        现有的增量档案信息数据采集存在缺陷,为提升档案信息资源共享平台的数据处理性能,需定期将超过时间期限的历史数据清除,若希望保留档案信息历史数据以备数据挖掘与分析,就会影响数据采集的效率。对于多媒体档案信息数据源,根据某种识别算法,识别并提取多媒体文件的特征信息,并将其转换为业务场景需要的数据模型,这种情况会导致档案信息数据提取耗时相对较长,也需要较多内存支持。由于档案信息本身的涉密特性,加上硬件基础设施和大数据应用方面的投入限制,当前在档案信息资源共享应用方面还存在一定缺陷,因此应对档案信息数据采集加大研发投入力度[4]。
        1.1平台数据采集系统设计目标
        档案信息资源共享平台从数据源抽取出所需的数据,经过数据清洗,最终按照预先设定好的数据模型,将数据加载到档案信息资源共享平台数据仓库中[5],对数据仓库中的档案信息资源数据进行分析处理。数据采集作为档案信息资源共享平台大数据运用中最重要
的阶段,它通过传统互联网、移动互联网等方式,获得各种类型的结构化、半结构化及非结构化的档案信息资源数据[6]。由于采集的档案信息资源种类错综复杂,需对其进行数据分析,并从数据原始格式中提取出有用的档案信息资源数据。由于数据源头的采集有不准确现象,需对这些数据进行过滤、剔除,并要对数据结构进行语义分析,与目标数据结构比较,出数据源与数据结构的映射关系,从而使数据进入档案信息资源共享平台设定的数据库。
        1.2平台数据采集系统框架构建
        相较于传统的纸质档案信息采集,现代互联网方式采集档案信息数据资源响应速度更快,节省了大量的人工时间[7]。数据采集系统在整个数据共享系统中扮演着重要的角,数据采集系统技术架构可从物理层、逻辑处理层和网络层三个层次着手[8]。功能模块的构建应从档案信息的采集、审核、管理、共享和安全控制等多个方面去考虑,其中档案信息采集模块为最前端的,其任务是负责主动采集系统外部信息。采集方法有两种,一种是自动采集,一种是手工采集。这两种方法都是将在局域网、内网和互联网上索得的档案信息资源,纳入共享平台的数据库中[9]。由于档案信息资源数据源具有多样性,数据采集的形
式也变得更加复杂多样。在档案信息资源共享平台大数据的采集过程中,其主要特点是并发量高,即多个用户同时访问和操作服务器[10],如在高考时学生高考成绩集中入库,其并发的访问量在峰值时达上百万。这就要检查平台访问人数是否超过平台设计的极限值。若超过设定的极限值,那唯一方案就是升级平台的空间,以适应更多人的来访;若没有超过平台设定的极限值,就需要检查平台是否有占用CPU较高的可执行文本网页(一般指ASP、JAVASCRIPT、PHP、CGI等网页),优化程序结构和执行语句。因此,档案信息资源共享平台在设计数据采集架构时既要考虑数据采集的准确性,又要考虑数据采集的实时性与性能。对于档案形式为图片或者视频的数据,需在数据提取阶段加载数据后根据某种识别算法,识别并提取多媒体中的特征信息,并将其转换为业务场景需要的数据模型。采集流程整体框架如图1所示。
        1.3平台数据采集系统的技术选型
        档案信息数据采集系统是大数据档案研究的必要部分。由各种诊断系统、辅助系统和其他设备生成的信号通过各种数据数字化仪收集,最后以某种格式存储在磁盘上,以进行
永久存储[11]。档案信息资源数据采集是平台进行大数据应用的基石,数据采集主要分为两部分,一部分是通过爬虫等系统采集数据,一部分是现有的数字化数据[12]。对于其中的数字化的数据,传统的档案信息资源数据采集一般采用人工方式输入或者通过Excel等导入工具导入。从现有条件来看,档案信息资源数据采集来源并不复杂,存储、管理和分析的数据量也相对较小,采用关系型数据库基本可满足档案信息资源平台的数据处理需求。而进入大数据时代,档案信息资源数据来源比较广泛,从移动互联网平台到其它需要介入共享平台的不同类型档案信息资源服务平台,数据类型也扩展到多媒体相关的数据类型,数据采集方式亟待转变。基于此,下面对系统接口、开放数据库、第三方平台三种采集方式进行分析。
        (1)系统接口数据采集
        档案信息资源共享平台系统接口数据采集方式是指采用开发API的方式进行档案信息资源数据调用,有两种模式。一种是共享平台提供API并提供授权,这需接入共享平台的档案信息资源服务平台并通过调用授权的API进行数据写入;另一种是现有档案信息资源服务平台提供API,共享平台通过主动调用API拉取档案信息资源数据。接口对接方式的数
据可靠性与实时性较高,数据采集的质量也较高,然而缺点在于前期的分析与后期的开发维护成本较高,若平台的功能发生变化,就需要做相应修改和变动,这会间接导致交付周期变长。
        (2)开放数据库数据采集中国药理学通报
        如果档案信息资源平台采用的是相同类型的数据库,如SQL Server,开放数据库就是档案信息资源共享平台数据采集最便捷的工具;如果需要共享的平台在相同的服务器上,且只要用户名设置得没问题,就可相互访问;如果两个系统的数据库不在一个服务器上,就建议采用链接服务器的形式处理,这就需要对数据库的访问进行外围服务器的配置。开放数据库方式可直接从目标数据库中获取所需数据,准确性高,实时性也能得到保证,这是最直接、便捷的方式。

本文发布于:2024-09-23 01:40:32,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/91081.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:数据   档案   信息
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议