CDALEVELⅢ数据科学家考试大纲

CDA LEVELⅢ数据科学家考试大纲CERTIFIED DATA ANALYST LEVELⅢEXAMINATION OUTLINE 一、总则

「CDA数据分析师人才行业标准」是面向全行业数据分析及大数据相关岗位的一套科学化、专业化、正规化、系统化的人才技能准则。经管之家CDA数据分析师认证考试是评判「标准化人才」的唯一考核路径。CDA考试大纲规定并明确了数据分析师认证考试的具体范围、内容和知识点，考生可按照大纲要求进行相关知识的学习，获取技能，成为专业人才。

二、考试形式与试卷结构

包括两个阶段，通过第一个阶段，才有资格参加第二个阶段考试。

第一阶段：150分钟，客观题+主观题，闭卷，上机答题。

第二阶段：提供项目案例，1个月内完成，开卷。截止日前，提交项目过程和结果，60分钟，线上答辩面试。

考试成绩：分为A、B、C、D四个层次，A、B、C为通过考试，D为不通过。

三、知识要求

针对不同知识，掌握程度的要求分为【领会】、【熟知】、【应用】三个级别，考生应按照不同知识要求进行学习。

1．领会：考生能够领会了解规定的知识点，并能够了解规定知识点的内涵与外延，了解其内容要点和它们之间的区别与联系，并能做出正确的阐述、解释和说明。

2．熟知：考生须掌握知识的要点，并能够正确理解和记忆相关理论方法，能够根据不同要求，做出逻辑严密的解释、说明和阐述。此部分为考试的重点部分。

3．应用：考生须学会将知识点落地实践，并能够结合相关工具进行商业应用，能够根据具体要求，给出问题的具体实施流程和策略。

四、考试范围

◆PART1计算机科学技术（占比15%）

a.大数据的高级处理技术（占比5%）

b.高性能编程计算（占比6%）

c.常用机器学习框架（占比4%）

◆PART2大数据处理与架构设计（占比15%）

a.大数据架构设计的方法论概述（占比3%）

b.互联网场景的大数据解决方案设计（占比5%）

c.大数据存储与计算的方案选型（占比2%）

铁钢砂d.大数据指标系统与数据安全（占比2%）

e.集资源管理、调优（占比3%）

◆PART3机器学习（占比25%）

a.特征选择与稀疏学习（占比4%）

b.类别不平衡问题（占比4%）

c.决策规则（占比2%）

d.半监督学习（占比1%）

e.强化学习（占比2%）

f.文本挖掘（占比4%）

g.社会网络分析（占比4%）

h.区块链分析（占比4%）

◆PART4深度学习（占比20%）

a.感知机与神经网络（占比2%）

b.深度学习基础概念（占比3%）

c.深度学习模型训练与优化（占比3%）

d.深度学习神经网络-DNN/CNN/RNN/LSTM神经网络（占比6%）

e.生成式对抗网络（占比2%）

f.深度学习在物体检测与定位上的应用（占比1%）

g.深度学习在人脸识别上的应用（占比1%）

h.深度学习在语音识别上的应用（占比1%）

i.深度学习的未来发展趋势（占比1%）

◆PART5数据治理（占比15%）

整骨疗法a.大数据治理概述、大数据建模（占比3%）

b.元数据管理、数据体系建设（占比3%）

c.大数据隐私、安全、立法（占比3%）

95新歌d.大数据质量、热度（占比3%）

e.大数据生命周期模型（占比3%）

◆PART6项目管理（占比10%）

a.软件项目管理基础（占比2%）

b.敏捷开发（占比2%）

c.代码管理（占比2%）

d.构建大数据团队（占比2%）

e.项目管理相关知识及常用工具（占比2%）

五、考试内容

PART1计算机科学技术

◆大数据的高级处理技术

1．领会：Python、Java、Scala等编程语言的特点和应用场景。

2．熟知：Python、Java、Scala对大数据的多线程编程，并行计算，及第三方常用类库等高级处理技术。

◆高性能编程计算

1．领会：影响性能（运行时间及内存消耗）的因素，衡量性能的方法。

2．熟知：加速运行的常用方法，使用编译代码加快运行速度，将数据处理交给数据库系统，并行计算（模型并行、数据并行、混合并行）提升运行速度，使用GPU加快运行速

度，减少内存使用的常用方法，使用有限的内存处理大型数据集。

3．应用：搭建高性能计算环境及大数据处理的实作。

◆常用机器学习框架

1．领会：Tensorflow原理和系统架构、计算图、张量（Tensor）、会话、流（Flow）等基本元素，TensorBoard实现方式，理解Keras的易用性、灵活性等特点。

2．熟知：Tensorflow前端系统和后端系统，构建和运行计算图，Keras定义常见网络的方法及参数含义，Scikit-Learn、TFLearn等算法库使用方法。

3．应用：基于Tensorflow实现线性回归算法，并用TensorBoard记录图结构和各项运行指标；使用Keras实现LeNet网络的结构设计和训练，使用Scikit-Learn实现DBSCAN聚类，使用TFLearn实现CNN和RNN做分类并做预测。

哈尔滨水污染

PART2大数据处理及架构技术

◆大数据架构设计的方法论概述

1．领会：大数据分层架构设计的思想，技术架构视图的概念及涉及范围，大数据处理框架选择，服务总线思想，基于大数据的机器学习架构，大数据架构发展趋势。

2．熟知：分层架构设计的过程和内容、总体架构设计的工具和方法，通用大数据处理流程及主要环节（如采集、预处理、存储、处理、监控等）。

3．应用：能运用架构设计的方法体系进行企业信息化架构设计的实现。

◆互联网场景的大数据解决方案设计

1．领会：针对用户行为分析的架构设计。

2．熟知：了解收集用户的准备埋点规范、实施步骤，了解数据流采集、计算和可视化，了解。

3．应用：了解OLAP分析在企业级别应用的演进方式和工程效率提升。

◆大数据存储与计算的方案选型

1．领会：海量存储、离线计算、在线计算、流式计算四种常见的大数据分析场景的区别与联系。

2．知晓：HDFS、Hbase等常用海量存储工具，MapReduce、Hive、Dremel、Drill、Impala 等离线计算工具，Kylin、Redis、MongoDB等在线计算工具，Flink、Storm、Spark等流式

计算工具，Zookeeper、Spark、Kafka等常用大数据工具。

3．应用：实时流和离线数据整合的架构设计。

◆大数据指标系统与数据安全

1．领会：大数据资源管理通用架构，资源监控平台架构，集安全管理，标准化异常处理流程，数据的安全体系介绍。指标如何在元数据进行定义、规范化和准入的平台化设计。手推车艾青

2．熟知：数据脱敏动态和离线存储的安全设计方式。

3．应用：数据的使用审计、追溯，用户的授权功能最少、时间最短的实践方式。指标应用的热度，指标动态SQL指导。

◆大数据处理性能调优、集优化、实时计算

1．领会：存储性能优化，实时计算优化，Lambda架构思想，大数据组件化选型。

2．熟知：YARN和Impala、Spark的优化，缓存应用机制、资源硬件分配方案、资源动态调度等配置。

3．应用：可基于Hbase实现数据的存储和查询方案设计。

PART3机器学习

◆特征选择与稀疏学习

亲子沟通培训师1．领会：特征工程的目标，特征的构造及压缩、特征的选择、及特征提取的基本原理和思想。

2．熟知：不同特征构建、压缩及选择的方法，Pearson相关系数、信息价值法(Information Value)，基尼指数(Gini Index)、信息增益法(Information Gain)，增益比例法(Gain Ratio)，压缩感知方法及应用，主成分分析（PCA）降维算法，SVD降维算法。

3．运用：能利用工具针对不同类型样本进行特征的构建、压缩及选择。

◆类别不平衡问题

1．领会：不平衡数据定义，不平衡数据场景，传统学习方法在不平衡数据中的局限性，类别不平衡所造成的问题。

2．熟知：类别不平衡问题的检测方法，过采样技术(Over-sampling)，欠采样技术(Under-sampling)，模型惩罚技术。熟知EasyEnsemble算法，BalanceCascade算法，SMOTE 算法，Borderline-SMOTE算法，ADASYN算法，Ensemble算法，并对各种算法进行评价。

本文发布于:2024-09-22 03:28:02，感谢您对本站的认可！

本文链接：https://www.17tex.com/xueshu/470130.html

上一篇：2021五一杯c题数据驱动的异常检测与预警问题

下一篇：基于分类分级的数据安全防控策略研究

标签：数据应用学习方法计算架构设计考试

留言与评论（共有 0 条评论）