大型港口数据治理实践研究分析

大型港口数据治理实践
芮成钢专访强化大数据在政府治理、社会管理等方面的应用,提升态势研判、科学决策、精准管理水平,降低外部环境不确定性,提升各类主体风险应对能力。强化大数据在制造业各环节应用,持续优化设计、制造、管理、服务全过程,推广数字样机、柔性制造、商业智能、预测性维护等新模式,推动生产方式变革。强化大数据在信息消费、金融科技等领域应用,推广精准画像、智能推介等新模式,推动商业模式创新。
加快数据要素化,开展要素市场化配置改革试点示范,发挥数据要素在联接创新、激活资金、培育人才等的倍增作用,培育数据驱动的产融合作、协同创新等新模式。推动要素数据化,引导各类主体提升数据驱动的生产要素配置能力,促进劳动力、资金、技术等要素在行业间、产业间、区域间的合理配置,提升全要素生产率。
一、大型港口数据治理实践
1、港口行业数据治理背景
为了加快推进智慧港的建设,港口这几年做了大量的工作,例如集装箱提重无纸化、智能理
货、网上营业厅、云数据处理中心等,但这些努力远远不够,港口需要投入更多的精力来实现智慧化港口的目标。
以集装箱和大宗商品运输为核心,并充分发挥港口对大宗商品交易、自由贸易、保税加工等拉动作用,将现在的传统运输港口,逐步打造成集贸易、产业、金融、物流等一体的综合性平台。切实发挥好港口一体化运营龙头和主力军的作用,为做强做优做大港口奠定坚实基础,为推进海洋港口一体化高质量发展,加快打造国际一流强港和世界级港口集作出积极贡献。
2、港口行业数据治理解决方案
(1)港口行业数据域规划
在建设大数据仓库时需要对采集的港口数据进行全面分析,充分理解数据仓库面向主题、集成性、相对稳定性等特点,将其与港口大数据中心应用实际相结合,建设成具备支撑和增强港口业务的核心服务、数据分析和探索、业务分析和决策等各种能力的大数据仓库。
数据域是在较高层次上将港口信息系统中的数据进行综合、归类和分析利用的一个抽象概
念,每一个数据域基本对应一个宏观的分析领域。面向主题的数据组织方式,就是在较高层次上对分析对象数据的一个完整并且一致的描述,能刻画各个分析对象所涉及的港口各项数据,以及数据之间的联系。
为保障数据中台体系的生命力,主题需要抽象提炼并且长期维护和更新,但不轻易变动。在划分主题时,既能涵盖当前所有的业务需求,又能在新业务进入时无影响地包含进来,保障良好的扩展性。
(2)港口行业数据开发标准
1)离线数据处理流程。
离线数据公共层模型层次分为4个层次,DWD、DWS属于中间层(CDM)。其中操作数据ODS层主要用于原业务系统的数据同步,保持与业务系统的一致性,同时基于同步策略,根据实际情况进行增量数据merge操作,需要有缓冲层进行存放。进入中台的数据根据维度建模的原则划分维度DIM层,及明细业务数据DWD层,后续根据公共维度进行聚合生成DWS层,也可以直接加工生成应用数据ADS层。原则上不允许ODS层数据直接加工至应用
层ADS,需要经过DWD的数据加工,但比如像一些EXCEL数据导入等情况可以特殊处理。
2)实时数据处理流程。
第一层ODS数据贴源层。
实时计算的第一层,一般存放原始数据,主要分两种情况:第一种是直接从数据库将操作日志采集出来,存放形成原始数据;第二种是上游系统直接将数据同步至本地,形成原始数据。
第二层DWD数据模型层。
trs实时计算订阅业务数据消息队列,以数据域的理念建设数据模型层,然后通过数据清洗、多数据源join、流式数据与离线维度信息等的组合,将一些相同粒度的业务系统、维表中的维度属性全部关联到一起,增加数据易用性和复用性,得到最终的实时明细数据。
第三层DWS公共实时汇总层。
与离线数仓不同的是,这里汇总层分为轻度汇总层和高度汇总层,并同时产出,且一般不在本地Kafka落地。轻度汇总层用于前端产品复杂的OLAP查询场景,满足自助分析和产出报表的需求。当应用端提供了明确的业务口径或者在做过多的数据处理的场景下,将轻度汇总层数据推送至Kudu落地,后续可以基于Kudu开发接口或者直接开放Kudu提供查询服务;当数据体量特别大,不适合在Kudu做数据开发或者应用端有类似自主分析需求的情况下,将轻度汇总层数据直接推送至应用端的Kafka落地;高度汇总层用于前端比较简单的KV查询场景,提升查询性能,比如实时大屏等。将数据推送至MySQL数据库落地,后续基于MySQL开发接口或者直接开放MySQL提供服务。
(3)港口行业数据管理标准
1)元数据管理。
通过元数据管理,用户需要基于元模型设计的规范约束,维护表的业务元数据信息,更规范地维护元数据信息,便于后续的元数据信息查询和利用。可以通过添加数据源的方式,自动解析出相关数据源下某个或者全部实例的元数据信息,再以人工的方式进一步完善缺漏的信息。
发现血缘关系缺失的表,如数仓下游层级的表、BI报表等。用户可以通过添加数据库,系统自动得出解析结果,统计库中血缘孤立的表。
度学
2)主数据管理。
主数据是企业中需要在多个部门或系统之间共享的,核心的、高价值且相对静态的数据。主数据是企业信息系统建设和大数据分析的基础,被认为是企业数字化转型的基石和企业中的黄金数据。主数据管理是一个长期持续的建设过程,需要一砖一瓦地打好基础,切勿急于求成,追求速成。
主数据的数据质量需要有高标准高要求,所有的字段必须为非空,所有字段的中文注释都必须齐全且统一。主数据往往存在并应用于多个业务系统之间,必须对多个业务系统间同一业务口径的主数据进行标准化整合,确保下游系统使用的统一业务口径的数据时都是唯一的。如果主数据的内容为编码类型,例如箱号CTN_NO,需要考虑到长期发展的扩展性。尽量使编码标准具备一定的特征含义,可初步进行解读。因主数据多被应用于跨系统间的关联,一个场景下经常多次作为外键或者主键使用,考虑到整体计算的高效性,除了数字和字母以外还可以考虑使用符号,整体编码长度不能过长。在上文中提到的主数据因
为业务的飞速发展,需要定期地进行标准的扩展。在扩展的同时还需要注意兼容性,新编码体系需要兼容旧编码体系。
3)数据标准管理。
建立数据标准,对存量数据进行后向管理,映射至已有元数据上,统一字段标准;对增量数据进行前向管理,利用数据标准进行建模,使模型字段更加规范统一。对词根信息进行线上化管理,词根信息可用于数据标准的定义,词根的管理有利于数据标准的长期维护,减少重复的维护成本。支持维护管理编码数据,编码可用于数据标准的定义。用于数据标准的建立基础,根据导入条件,将已存在的字段名转化为数据标准或者词根,丰富平台数据标准。完成上述基础的配置之后,最后需要人工进行查漏补缺。为了统一数据中台应用服务的输出出口,使用API平台提供数据服务。对于API平台的使用流程也需要制定统一的流程。
(4)港口行业数据安全标准
1)数据分级。
数据表分级的目标,在于通过设置合理的等级,加强对数据仓库平台下数据表的安全管理,确保敏感数据的增删改查操作都能够经过适合的授权。由于开发人员为使用便捷,数据表的安全等级通常存在安全等级设置偏低的情况,因而需要根据数据表中安全等级最高的字段进行表安全等级的设定。简而言之,根据业务重要程度及计算关联范围两个象限,可以简略地将数据表安全设置为四个等级。
实际上,可以根据自身公司的业务情况,设置更多的安全等级,以标示不同业务场景下的数据安全情况,上述标准仅提出一个可参考的案例。但很多情况下,大量的敏感数据是混杂在普通表中的,例如个别经常用到的S1级别的字段会夹杂在大量S3,S4中间,整张表从全局上看,应该设置为字段安全等级最高的级别,也就是S1。
一幅壮锦的故事不论是数据表,还是数据字段,通常都需要开发人员、管理人员甚至是使用人员介入进行人工的制定,但为了简化打标签的流程,通常是开发人员进行初步设定,指派一名数据负责人进行二次审核,最后文档落地持续优化维护。
2)数据管理委员会。
数据管理不仅仅是数据问题,它涉及业务、IT、管理等方方面面,仅仅依靠技术部门来推动和开展数据管理工作是无法取得成功的,只有来自更高层管理者的驱动力,建立自上而下的跨部门跨业务条线的组织体系,才能保证企业内部的高效协作。数据管理组织架构一般包括决策层、管理层、执行层三个层级。
决策层组织是公司数据管理最高决策机构,由公司董事长担任组长,分管信息化领导担任副组长,其余领导担任成员。
管理层组织是对数据管理日常工作进行直接管理的部门,由科研中心部门长担任组长,分管数据领导担任副组长,其他各部室科级领导担任成员。
执行层组织是数据运行操作的具体落实部室(班组)、相关方,按工作性质可分为业务执行层和技术执行层两类。
3)数据审批。
根据申请数据的级别不同,申请单位的性质不同,数据审批的流程需要具备区分性。
普鲁士蓝S1(保密)级别的数据申请&审批流程,第三方单位的数据申请需求原则上是不允许的,在执行层的人员审批阶段即可驳回。内部门单位的申请需要执行层和管理层的人员审批。外部门单位的申请需要执行层、管理层和决策层的人员审批。
S2(敏感)级别的数据申请&审批流程,内部门单位的申请只需要执行层的人员审批,外部门单位的申请需要执行层和管理层的人员审批,第三方单位的申请需要执行层、管理层和决策层的人员审批。
S3(次敏感)级别的数据申请&审批流程,除了第三方单位的数据申请需求只需要执行层的人员审批即可生效,第三方单位的数据申请需求还需要管理层人员再次审批。
S4(一般)级别的数据申请&审批流程,不管申请单位是什么性质,只需要执行层的人员审批即可生效。
3、港口行业数据治理建设成果
通过数据治理理念的传达以及实施的落地,将前期的规划设计,中期的开发实施以及后期的运营维护进行一体化建设,由数据中台统一提供数据采集、建模、开发、调度、治理等
一体化能力。在生产过程中对于任务上下线、建表等操作实现在线化、流程化操作,一方面减少人工提升效率,一方面完善数据治理的过程。西江月夜行黄沙道中翻译
二、大数据产业面临形势
抢抓新时代产业变革新机遇的战略选择。面对世界百年未有之大变局,各国普遍将大数据产业作为经济社会发展的重点,通过出台数字新政、强化机构设置、加大资金投入等方式,抢占大数据产业发展制高点。我国要抢抓数字经济发展新机遇,坚定不移实施国家大数据战略,充分发挥大数据产业的引擎作用,以大数据产业的先发优势带动千行百业整体提升,牢牢把握发展主动权。
呈现集成创新和泛在赋能的新趋势。新一轮科技革命蓬勃发展,大数据与5G、云计算、人工智能、区块链等新技术加速融合,重塑技术架构、产品形态和服务模式,推动经济社会的全面创新。各行业各领域数字化进程不断加快,基于大数据的管理和决策模式日益成熟,为产业提质降本增效、政府治理体系和治理能力现代化广泛赋能。
构建新发展格局的现实需要。发挥数据作为新生产要素的乘数效应,以数据流引领技术流
、物质流、资金流、人才流,打通生产、分配、流通、消费各环节,促进资源要素优化配置。发挥大数据产业的动力变革作用,加速国内国际、生产生活、线上线下的全面贯通,驱动管理机制、组织形态、生产方式、商业模式的深刻变革,为构建新发展格局提供支撑。

本文发布于:2024-09-22 23:28:21,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/470121.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:数据   需要   港口   进行   业务   标准   管理   要素
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议