一句话解读20个最新数据技术概念

一句话解读20个最新数据技术概念
最近几年数据技术发展迅速,很多新概念爬上了Gartner曲线,比如数据湖、数据网格、数据编织啥的,这些概念中的很多是舶来品,理解起来不易,但我们有时也不得不去理解,一方面是技术决策的需要,另一方面是来自于解释的需要,否则容易被人带偏。
这里特意挑了数据网格、数据编织、湖仓一体、存算分离、DataOps 等20个数据领域比较前沿的、抽象的概念来挑战,希望尽量能用一句话解释清楚。
1、数据网格
一种分布式的领域驱动的数据集成和服务架构,数据网格是分析系统的”微服务“。
2、数据编织
基于知识图谱(主动元数据为核心)的自动化、智能化数据集成架构。
3、数据仓库
具备结构化数据采集、存储、离线处理及分析能力的集中化平台,数据管理能力较强,比如在存储阶段即按预先定义好的格式写入平台,在使用的时候基于预定义的格式进行加工处理。
4、数据中台
基于沉淀的数据资产进行封装后对外提供数据服务(API等形式)的平台。
有机食品商城5、数据湖
具备结构化、非结构化、半结构化数据采集、存储及离线处理能力的集中化平台,数据湖是原始数据的一份镜像,数据管理能力很弱,比如数
据在存储阶段直接写入(不做格式规范),在应用需要的时候才进行数据格式的定义并进行加工处理。
6、湖仓一体
具备结构化、非结构化、半结构化数据采集、存储、共享、实时处理、实时分析及数据管理能力的集中化平台,相比于数据湖,湖仓一体能支持实时分析场景,相比于数据仓库,湖仓一体能支持多类型数据的实时处理能力。
注1:共享意味着针对各种类型数据可以互相访问,减少了搬迁成本。实时处理指支持实时的数据变更及事务处理能力,实时分析指诸如BI 等可以直接对接数据源进行分析,不用迁移数据到数据仓库,数据管理能力指模型的管理等能力。
注2:业界对于湖仓一体有两种实现模式,一种是横向打通方案,以阿里M axCompute 为代表,主要是针对数据湖和数据仓库进行网络、存储及元数据的横向打通,具备保护原有投资的优势,另一种是纵向整合方案,以Iceberg、Hudi和DeltaLake为代表,其在数据湖之上构建数据仓库。
7、流批一体
流批一体是一种架构思想,指在满足流处理计算的同时也可以同步满足批处理任务的计算,这样不仅可以降低成本,也可以保证数据一致性,因为理论上任何流处理都可以看成间隔极短的批处理。
8、存算分离
针对传统hadoop架构中计算资源和存储资源按某一比例强绑定,系统扩容必须按节点数目增加,导致内存或磁盘浪费的问题,提出的一种新架构,其解耦了计算和存储绑定关系,实现计算和存储单独弹性扩展、按需分配,降低了系统部署和扩展成本,解决了资源利用不均衡的问题。动植物检疫
9、隐私计算
隐私保护计算技术能够实现数据处于加密状态或非透明(Opaque)状态下的计算,在保护参与方隐私的基础上,实现数据“价值”和“知识”的流动与共享,真正做到“数据可用不可见”。隐私计算其实是一堆“数据可用不可见”技术集合,包括多方安全计算、联邦学习、机密计算、差分隐私及数据脱敏等等。
10、云原生数据仓库
云原生数据库是在公有云、私有云和混合云等新型动态环境中,基于存储与计算分离架构的、存储和计算可以独立弹性扩展的、松散耦合的数据仓库系统。
中国加入世贸组织注:一般分为三个层次,最上层是服务层,主要做查询解析、优化、元数据管理,包括安全控制等等,中间层是查询计算层,可以分成多个小的集,不同的用户可以使用不同的集,类似于多租户的概念,这样就带来了高并发等好处,底下是存储层,包括对象存储、HDFS等等,典型的产品包括Snowflake、阿里的AnalyticDB等。
11、HTAP 数据库
HTAP是对传统OLTP+OLAP+ETL 的数据架构的替代,能够在一份数据上同时支撑OLTP和OLAP运行的数据库,可以在保证事务处理性能的基础上,同时具备实时分析的能力,不仅避免 ETL 跨平台数据传输带来的高昂成本,同时具备分布式、弹性扩容及高并发的能力。
皇室的赏赐
12、DataOps
DataOps是一种面向数据全生命周期,以价值最大化为目标的实践、流程和技术。聚焦于从数据需求
输入到交付物输出的全链路过程,实现数据研发运营的一体化、敏捷化、标准化、自动化、智能化、价值显性化。注:参考了信通院DataOps成熟度框架,相对于维基抽象的定义,增加了标准化、智能化等的阐述。
13、图计算
基于图数据进行的分析计算都属于图计算,图计算的核心在于图算法,常用的算法包括最短路径算法、PageRank、PageRank等等。
注1:图(Graph)是用于表示对象之间关联关系的一种抽象数据结构,使用节点(Vertex)和边(Edge)进行描述:顶点表示对象,边表示对象之间的关系。
注2:图数据库(Graph Database)是一种以图结构进行存储和查询的数据库,相对于存储行列数据的关系型数据库,其在两个节点遍历的时候只需在这两个节点间局部数据进行检索,而关系型数据库则需要全局遍历,这使得以图结构存储的数据在涉及关系复杂的海量数据查询时速度有量级的提升。
14、增强分析
增强分析是指利用机器学习和自然语言处理(NLP) 等人工智能(AI) 技术实现增强的分析。机器学习技术能够让系统自动执行数据准备、自动分析、深化洞察等复杂的分析流程,自然语言处理技术则支持
用户(甚至是未经培训的业务用户)以会话形式提出数据问题,并轻松获取答案。阿比丹 艾山
注:有种说法说传统分析、自助分析和增强分析是分析的三个阶段,但我对于增强分析还是一脸懵逼,因为我认为自动数据准备、自动分析和会话式分析过于理想化,只要自动的规则还是人定义的,姑且不说这个规则能否制定出来,但制定这个规则的代价实在太大了,以至于后面的自动化失去了意义,只有深化洞察是大家现在都在做的,也有很多案例。自动执行数据准备:分析师80% 的时间都是在准备数据,包括导出、合并、清理和结构化处理,增强分析内嵌的机器学习技术能够自动执行这一流程
自动分析:机器学习模型可以自动执行复杂的分析,数据科学家不再需要花费数周时间来做分析。用户可以即时获取查询答案和可视化数据内容,减少数据挖掘的时间,将更多精力用于解读数据洞察
深化洞察:机器解读数据的能力远超人类。与人类相比,机器不仅能够从更多角度审视更大的数据集,还能挖掘人类靠肉眼无法识别的统计相关性、关系和模式
会话式分析:自然语言处理技术支持不了解查询语言或代码的业务用户采用会话方式进行提问,自然语言生成 (NLG) 技术则能以完整的书面或口头语句,对分析结果进行汇总或解释,为用户提供答案
15、对象存储
未来的文具盒
由于存算分离等架构都会用到对象存储,因此特意解释下对象存储。对象存储是一种数据存储,其中每个数据单元(称为“对象”)作为离散单元存储。这些对象实际上可以是任何类型的数据:pdf,视频,音频,文本,网站数据或任何其他文件类型。
注:相对于文件存储,对象存储中的所有对象都存储在单个平面地址空间中,通过一个全局唯一的标识符(即对象的ID)寻址(类似于键值管理),不需要像文件存储那样维护文件夹复杂的层次结构和丰富的元数据信息,意味着访问单个对象既快速又简单,而且具有极高的伸缩性,其缺点是由于简单的元数据无法维护每个对象的操作信息(比如保留修改、插入、删除文件中的某一小段数据而造成的复杂映射关系),导致没法像文件存储那样进行随意的增删改,比如网盘大多是对象存储,若要进行任何修改,只能把该对象对应的所有数据全部重新写入。
16、AutoML
AutoML即为Auto+ML,是自动化+机器学习两个学科的结合体;从技术角度来说,则是泛指在机器学习各阶段流程中有一个或多个阶段采取自动化而无需人工参与的实现方案,其覆盖了特征工程(Feature Engineering)、模型选择(Model Selection)、算法选择(Algorithm

本文发布于:2024-09-23 10:16:00,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/470221.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:数据   分析   进行   计算   对象   能力
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议