粤教版信息技术必修一第五章知识点梳理复习

    粤教版信息技术必修一《数据与计算》
第五章  数据处理与可视化表达
【知识结构体系
【知识梳理
一、认识大数据
(一)大数据的概念
大数据:无法在可承受的时间范围内用常规软件工具进行高效捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
(二)大数据的特征
1.从互联网产生大数据的角度来看(具有“4V”特征):
大量(Volume),多样(Variety)
低价值密度(Value),高速(Velocity)。
2.从互联网思维的角度来看:
样本渐趋于总体,精确让位于模糊,相关性重于因果
3.从大数据存储与计算的角度来看:
分布式存储,分布式并行计算。
(二)大数据的影响
1.大数据使人们日常生活更为便捷:
方便支付、方便出行、方便购物与产品推荐、方便看病与诊病。
2.大数据对人们日常生活产生的负面影响:
个人信息泄露、信息伤害与。
二、数据的采集
(一)数据采集的方法与工具
1.系统日志采集法:
监视系统中发生的事情
检查错误发生的原因
寻攻击时攻击者留下的痕迹
2.网络数据采集法:
网络爬虫:从初始网页的URL(统一资源定位器)获取对应的数据
网络公开API
Python网络数据采集程序使用扩展库时导入模块的方法:
import module
from module import name
3.其他数据采集法。
中频加热(二)数据的存储  
1.本地存储:把数据存在本地内部
2.云存储:把数据放在第三方公共或者私有的“云端”存储
分布式文件存储
N绝对值角度编码器osql数据库存储
(三)数据的保护肖秀丹
1.数据安全保护技术:拷贝、备份、复制、镜像、持续备份,加密
2.数据的隐私保护
(1)技术手段
数据收集时:精度处理
数据共享时:访问控制
数据发布时:人工干扰
数据分析时:匿名处理
2)提高自身意识
3)进行道德和法律约束
三、数据的分析
常见数据分析方法:特征探索,关联分析,聚类与分类,建立模型,模型评价
(一)特征探索
主要任务:对数据进行预处理,发现和处理缺失值、异常数据,绘制直方图,观察分析数据的分布特征,求最大值、最小值、极差等描述性统计量。
(二)关联分析
1.概念:分析并发现存在于大数据之间的关联性或相关性,从而描述一个事物中某些属性同时出现的规律和模式。
2.常见应用案例:超市某些商品捆绑促销,新高考选修学科的选择。
(三)聚类分析
1.概念:一种探索性分析,不必事先给出分类标准,从样本数据出发,自动进行分类,进而达到“物以类聚,人以分”的效果
2.常见的算法:k-means算法,自下而上的聚类分析方法
(四)数据分类
1.概念:基于样本数据先训练构建分类函数或分类模型(分类器)分类器将待分类数据映射到某一特点类别。
2.常见的分类技术:贝叶斯分类技术
四、数据的可视化表达
(一)数据可视化表达的方法
1.数据可视化的呈现类型
(1)探索类:帮助人们发现数据背后的价值
(2)解释类:简单明了地呈现数据
2.数据分析类型及对应的可视化呈现
(二)数据可视化表达的工具
1.Seaborn:主要关注统计模型的可视化,基于且高度依赖于Matplotlib.
2.Bokeh能实现交互式可视化,独立于Matplotlib,能通过浏览器与数据驱动文档的风格呈现。
【典型例题】
94crw
1.从互联网产生的大数据角度看,其最显著特征是(   
A.数据价值密度低        B.数据类型繁多
C.数据规模大            D.数据处理速度快
2某超市曾经研究销售数据,发现购买方便面的顾客购买火腿肠、卤蛋等商品的概率很大,进而调整商品摆放位置。这种数据分析方法是(        )
A.聚类分析            B.分类分析        C.关联分析            D.回归分析
3.小智通过网络问卷收集同学们课外阅读时间的百分比分布情况,下列可以用于分析调查数据的是(    )
A.饼图                B.折线图        C .动态热力图        D.词云图
4.下列关于大数据的特征,说法正确的是(  )。
A.数据价值密度高                  B.数据类型少       
C.数据基本无变化                D.数据体量巨大
电子导盲仪5.网络数据采集法,主要通过网络爬虫或网站公开API的方式获取,网络爬虫从网页的(    )开始获取。
A. URL              B. WWW      C. HTML        D. XML
6.利用Python采集网络数据时,导入扩展库的关键字是import。(    )
7.从互联网产生大数据的角度来看,大数据具有的特征是“4V”特征:大量、多样、高价值密度、低速。(    )
8.网络数据采集法主要通过网络爬虫或网站公开API的方式获取网络爬虫,从网页的URL开始获取。(    )
9.数据采集的基本方法包括系统日志采集、网络数据采集等方法。(   
10.数据特征探索的主要任务是对数据进行预处理,发现和处理缺失值、异常数据,绘制直方图,观察分析数据的分布特征。(  )
11.K-平均算法属于聚类分析方法。(  )
12.可以用于分析数据趋势的可视化呈现类型包括折线图、分组柱形图、堆叠柱形图和柱线混合图等。(  )
13.Seaborn基于且高度依赖于Matplotlib,可实现交互式可视化。(  )
【参考答案】
题号
1
2
3
4
5
6
7
8
9
10
11
12
13
答案
C
C
A
D
A
A
B
A
A
A
A
A
B
怎么扣出水指法图

本文发布于:2024-09-23 11:19:49,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/112446.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:数据   网络   可视化   分析   分类
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议