第一章概述
1.数据分析是指采用适当的统计分析方法对收集到的数据进行分析、概括和总结,对数据进行恰当地描述,提取出有用的信息的过程。
2.数据挖掘 (Data Mining,DM) 是指从海量的数据中通过相关的算法来发现隐藏在数据中的规律和知识的过程。
3.数据挖掘技术的基本任务主要体现在:分类与回归、聚类、关联规则发现、时序模式、异常检测 4.数据挖掘的方法:数据泛化、关联与相关分析、分类与回归、聚类分析、异常检测、离点分析、
5.数据挖掘流程:(1)明确问题:数据挖掘的首要工作是研究发现何种知识。(2)数据准备(数据收集和数据预处理):数据选取、确定操作对象,即目标数据,一般是从原始数据
库中抽取的组数据;数据预处理一般包括:消除噪声、推导计算缺值数据、消除重复记录、完成数据类型转换。(3)数据挖掘:确定数据挖掘的任务,例如:分类、聚类、关联规则发现或序列模式发现等。确定了挖掘任务后,就要决定使用什么样的算法。(4)结果解释和评估:对于数据挖掘出来的模式,要进行评估,删除冗余或无关的模式。如果模式不满足要求,需要重复先前的过程。
6.分类(Classification)是构造一个松下数码摄像机分类函数(分类模型),把具有某些特征的数据项映射到某个给定的类别上。
7.分类过程由两步构成:模型创建和模型使用。
8.分类典型方法:决策树,朴素贝叶斯分类,支持向量机,神经网络,规则分类器,基于模式的分类,逻辑回归pgm_430mei
9.聚类就是将数据划分或分割成相交或者不相交的组的过程,通过确定数据之间在预先指定的属性上的相似性就可以完成聚类任务。划分的原则是保持最大的组内相似性和最小的组间相似性
天津一浴池5人阳性10.机器学习主要包括监督学习、无监督学习、半监督学习等
第二章数据
1.数据的属性:(1)标称属性(nominal attribute):类别,状态或事物的名字(2)二元属性(binary attribute):布尔属性(3)序数属性(ordinal attribute):尺寸={小,中,大},军衔,职称【前面三种都是定性的】(4)数值属性(numeric attribute): 定量度量,用整数或实数值表示
●区间标度(interval-scaled)属性:温度
●比率标度(ratio-scaled)属性:度量重量、高度、速度和货币量
●离散属性
●连续属性
2.数据的基本统计描述三个主要方面:中心趋势度量、数据分散度量、基本统计图
●中心趋势度量:均值、加权算数平均数、中位数、众数、中列数(最大和最小值的平均值)
●数据分散度量:极差(最大值与最小值之间的差距)、分位数(小于x的数据值最多为k/q,而大于x的数据值最多为(q-k)/q)、说明(特征化,区分,关联,分类,聚类,趋势/跑偏,异常值分析等)、四分位数、五数概括、离点、盒图、方差、标准差
●基本统计图:五数概括、箱图、直方图、饼图、散点图
3.数据的相似性与相异性
相异性:
●标称属性:d(i,j)=【p为涉及属性个数,m:若两个对象匹配为1否则为0】
●二元属性:d(i,j)=
●数值属性:
欧几里得距离:
曼哈顿距离:
山西省测绘局
闵可夫斯基距离:
切比雪夫距离:
●序数属性:【r是排名的值,M是排序的最大值】
●余弦相似性:
第三章数据预处理
1.噪声数据:数据中存在着错误或异常(偏离期望值),如:血压和身高为0就是明显的错误。焓变>许沂光
2.产生噪声数据的原因:
●收集数据的时候难以得到精确的数据,收集数据的设备可能出现故障
●数据输入时可能出现错误
●数据传输过程中可能出现错误
●存储介质有可能出现损坏
3.噪声数据处理:分箱、聚类和回归
4.缺失值:由于实际系统设计时存在的缺陷以及使用过程中的一些人为因素,数据记录可能会出现数据值的丢失或不确定。
5.缺失值产生原因:
●有些属性的内容有时没有
●有些数据当时被认为是不必要的
●由于误解或检测设备失灵导致相关数据没有记录下来
●与其它记录内容不一致而被删除
●忽略了历史数据或对数据的修改
数据质量要求:准确性、完整性、一致性、时效性、可信性、可解释性
6.数据预处理任务:
●数据清理(清洗):去掉数据中的噪声,纠正不一致
●数据集成:将多个数据源合并成一致的数据存储,构成一个完整的数据集,如数据仓库