XX项目数据采集交换技术方案

一、项目背景
针对部队数据化、智能化建设中存在的问题拟研制XXX数据采集交换系统,解决由于系统间内置库表存在语义、结构、单位、编码等方面的不一致、数据多源管理复杂等原因导致的数据采集共享交换困难问题,需要对采集交换数据来源进行接入管理、对数据本身进行质量管理、资产管理等工作,为部队作战指挥决策提供高质量的数据支撑。
二、项目目标
XX项目拟通过数据采集交换系统,全方位提升数据智能化建设能力,通过数据接入数据清洗茶农技艺、数据转换数据加工、数据融合、资源目录管理、数据推送功能,同时适应业务需求,通过后台配置和少量的开发,实现系统平台的快速部署和使用伪随机数,实现以下目标:    
灵活性,通过编排插件组合形成流程,可以适应各种不同的数据处理应用场景;
兼容性,支持主流关系数据库、半结构化数据、Web服务、大数据平台等;
高效性,优化的传输技术和批量处理模式使得整体运转效率非常高;
扩展性,可根据需求快速开发相应插件,满足不断增长和变化的业务需求;
分布式,各个处理环节均可分布在不同机器上执行,方便负载均衡;
易用性,全Web化操作,可视化流程设计界面,界面简洁易懂;
移动商铺维护性,支持对任意节点的服务启停、版本升级、日志收集、性能监控;
易部署,对网络拓扑要求低,在有企业防火墙、VPN拨号接入等场景下均可使用。
三、项目周期
项目实施的主要时间节点要求如下:
阶段
周期
凯膜过滤技术工作内容
立项招标
项目招标、合同签订
需求调研
项目启动、业务梳理、需求分析
系统设计
蓝图制定、系统设计
开发测试
系统功能模块研制、集成测试
上线试运行
用户培训、上线试运行
四、总体架构
平台支持对分布式的海量结构化数据、结构化数据进行统一存储、统一管理,并提供灵活的权限管理和操作功能,平台总体架构如下所示:
平台总体架构包括以下层次:
应用层:建立门户应用,提供各类应用访问的统一入口。
管控层:提供平台的统一管理,包括接口管理、监控统计、目录管理等模块。
业务层:提供数据采集管理、加工处理、数据资源管理及信息交换管理等功能的实现。
数据资源层:是提供数据共享与交换的支撑机构,它主要实现数据聚合与分层集中管理,建立数据的共享资料库及资源目录,为上层业务提供数据服务。
基础设施层:主要包括基础网络资源、计算及存储资源、数据库系统等基础设施,还包括安全控制设备、认证授权设施等。
政策法规与标准规范体系:包括相应的国内标准、行业标准以及平台建设的相关标准。
安全保障体系:符合国家、相关安全管理部门,以及信息中心相关安全管理规定的要求,保障数据信息和数据服务的安全。
五、部署架构
本项目中,平台部署架构要求如下所示:
极低的网络拓扑要求:
只要求前置节点机能够主动连接管理中心,不需要从外部主动连接节点机,从而降低数据源侧的防火墙开放风险。
分布式负载架构:
通过部署多台服务器,可把数据流量分散到不同服务器上,相互之间不干扰,可应对数百个数据源的同时处理。  
去中心化运行
管理中心仅用于配置和查看,即使宕机也不影响数据处理流程。
六、平台功能设计
1
2
3
4
5
5.1数据采集管理
数据采集子系统由数据采集服务、采集应用服务、集成开发设计、统一管理平台等构成,系统逻辑架构图如下图所示
数据采集服务提供节点机设备管理、节点接入授权、数据传输及数据的异构管理等功能。
采集服务应用提供认证授权、监控管理接口、扩展接口、数据抽取、数据适配、处理流程、任务调度、转换引擎等。
集成开发设计包括数据源接入、流程开发、任务配置、任务部署、任务监控、任务执行、运行日志
统一管理平台主要实现数据采集过程中的监管与控制,包括设备、节点、权限的控制与管理以及采集过程中的运行及状态监控,数据采集的性能统计与日志分析等。
5.2数据存储管理
采用关系数据库技术、MPP分布式存储技术、Hadoop大数据处理技术和柔性多引擎检索技术构建数据存储系统,是预处理及过滤数据库内资料、读取资料来源、分析资料转换规则及载入系统,并将转换资料写入主资料库,最后完成跨域数据整合、存储及管理,是数据交换平台关键部分之一。
支持增量索引,采用集中索引和实时索引相结合的方式,集中索引针对批量更新的海量数据库,其索引的制作耗时较长,由管理员确定索引时间,如每天夜间等;实时索引适用于频繁更新的数据库,保证记录的添加、修改、删除都能实时地反映到搜索结果当中。
5.3数据处理管理
数据处理,也称ETL(Extract-Transform-Load), 主要是对各数据源单位采集的原始信息进行清洗、加工、转换、比对等,并按照统一的标准对数据进行串联和汇集,最后将处理完的数据加载到相关存储设备中。太阳能淋浴器
5.3.1 数据接入
系统提供多类型数据接入管理,主要包括结构化数据、半结构化数据等,对存在于系统中的大量EXCEL表格、json文件、数据库表、视图、CSV文件等具有良好的数据接入能力
为了满足不同的业务和数据形式的要求,在需求明确的情况下,可以制定不同的数据抽取规则接口,对数据源中分布的,异构的、关联的数据进行抽取。数据抽取的过程主要是从各个业务系统上根据约定的采集周期采集全量或增量数据。在采集过程中可能涉及系统内或跨系统的数据关联获取。
5.3.2 数据清洗
数据清洗是根据不同的业务情况制定清洗规则,针对不能满足业务需求的数据,如不完整、有重复的数据进行处理,最终达到应用要求的过程。数据清洗主要包括数据比对、过滤、关联、去重、转换及解析等过程,其目的就是保障数据的完整性、正确性和一致性。
5.3.3 数据转换
针对系统建设过程中没有采用统一的作战数据建设和作战系统研发标准,系统之间数据库表与数据内存存在很大差异,语义、结构、单位、编码等方面的不一致而导致数据共享交换困难,需要对共享交换数据进行存储结构转换、数据内容转换等工作,系统提供的数据转换主要包括表结构转换、字段匹配和字段类型转换、编码转换、格式转换、计量单位转换、特殊处理等内容。
5.3.4 数据加工
数据加工主要是两方面的工作:构建源数据处理体系和搭建数据资源池基础数据库。源数据处理系统分析源数据库数据特征,根据源数据特征和目标数据库结构安装配置ETL工具,进行数据抽取/清洗/转换/加载(即ETL过程),从数据采集到平台之后到建成可供分析应用的数据仓库,之间要经历繁琐的ETL过程(数据清洗、转换和整合)
>平板电脑支撑架

本文发布于:2024-09-25 08:33:34,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/316158.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:数据   管理   采集   系统   转换   平台
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议