首页 > 学术百科

数据挖掘实验报告

数据挖掘实验报告学院名称计算机科学与技术学院

专业名称

学生

学号5

指导教师

二〇一六年十一月

实验容

实验一

一、实验原理

(1).缺省值的处理：用均值替换、回归查补和多重查补对缺省值进展处理

通过R语言提供的方法确定哪些有缺省值，哪些是异常值，并把异常置为缺失值来处理，通过表格形式打印出来。将数据集分成完整数据和缺失数据两局部。

(2).用均值替换：求变量未缺失局部的均值，用均值替换缺失。

回归查补：是把缺失属性作为因变量，其他相关属性作为自变量，利用他们之间的关系建立回归模型的来预测缺失值，以此完成缺失值插补的方法。

(3).多重查补：多值插补的思想来源于贝叶斯估计，认为待插补的值是随机的，它的值来自于已观测到的值。具体实践上通常是估计出待插补的值，然后再加上不同的噪声，形成多组可选插补值。根据某种选择依据，选取最适宜的插补值。

多重插补方法分为三个步骤：①为每个空值产生一套可能的插补值，这些值反映了无响应模型的不确定性；每个值都可以被用来插补数据集中的缺失值，产生假设干个完整数据集合。②每个插补数据集合都用针对完整数据集的统计方法进展统计分析。③对来自各个插补数据集的结果，根据评分函数进展选择，产生最终的插补值。

新疆大学学报二、实验目的

掌握数据预处理的根本方法。

三、实验容

1、R语言初步认识〔掌握R程序运行环境〕

2、实验数据预处理。〔掌握R语言中数据预处理的使用〕

对给定的测试用例数据集，进展以下操作。

1〕、加载程序，熟悉各按钮的功能。

2〕、熟悉各函数的功能，运行程序，并对程序进展分析。

对餐饮销量数据进统计量分析，求销量数据均值、中位数、极差、标准差，变异系数和四分位数间距。

对餐饮企业菜品的盈利奉献度〔即菜品盈利帕累托分析〕，画出帕累托图。

3〕数据预处理

缺省值的处理：用均值替换、回归查补和多重查补对缺省值进展处理

对连续属性离散化：用等频、等宽等方法对数据进展离散化处理

四、实验步骤

骑士

1. 将数据加载，通过函数计算所需的值

2. 对餐饮企业菜品的盈利奉献度〔即菜品盈利帕累托分析〕，画出帕累托图。

3. 数据预处理。分别采用等宽离散化，等频离散化，聚类离散化来实现，画出图示结果。

五、实验结果

1.销售数据的加载以及对于函数的计算

2.画出帕累托图

3.对数据的预处理

〔1〕缺省值的处理

〔2〕对连续属性离散化

六、思考与分析

1、异常值的存在会对挖掘结果带来什么样的不良影响？

对异常值分析是检验数据是否有录入错误以及含有不合常理的数据。无视异常值的存在是十分危险的，

不加剔除的把异常值包括进数据的计算分析过程中，会给结果带来不良影响2、为什么需要对数据进展规化？

进展规化的目地：规化目的是使构造更合理，消除存储异常，使数据冗余尽量小，便于插入、删除和更新

实验二

一、根本原理

分类算法是解决分类问题的方法。分类算法通过对类别训练集的分析，从中发现分类规那么，以此预测新数据的类别。分类算法的应用非常广泛，银行中风险评估、客户类别分类、文本检索和搜索引擎分类、平安领域中的入侵检测以及软件工程中的应用等等。

二、实验目的：

掌握CART决策树构建分类模型。

三、实验容

对所有窃漏电用户及真诚用户的电量、告警及线损数据和该用户在当天是否窃漏电的标识，按窃漏电评价指标进展处理并选取其中291个样本数据，得到专家样本，使用CART决策树实现分类预测模型。

注意：数据的80%作为训练样本，剩下的20%作为测试样本。

chineselady四、实验步骤

1、对数据进展预处理

2、把数据随机分为两局部，一局部用于训练，一局部用于测试。

3、使用tree包里的tree函数以及训练数据构建CART决策树模型，使用predict函数和构建的CART决策树模型分别对训练数据和测试数据进展分类。

4、使用nnet包里面的nnet函数以及训练数据构建神经网络模型，使用predict函数和构建的神经网络模型分别对训练数据和测试数据进展分类。

5、比照分析CART决策树和神经网络模型对数据处理的结果。

五、实验结果

1、划分后的决策树

2、运行的nnet脚本

六、思考与分析

1、尝试采用神经网络对数据进展分类，并与CART决策树的结果进展比拟。比拟结果如下列图显示

实验三

一、实验原理

K-means算法是硬聚类算法，是典型的基于原型的目标函数聚类方法的代表，它是数据点到原型的某种距离作为优化的目标函数，利用函数求极值的方法得到迭代运算的调整规那么。K-means算法以欧式距离作为相似度测度，它是求对应某一初始聚类中心向量V最优分类，使得评价指标J最小。算法采用误差平方和准那么函数作为聚类准那么函数。

二、实验目的：

1、利用R实现数据标准化。

2、利用R实现K-Meams聚类过程。

三、实验容尼尔雌醇

1、依据航空公司客户价值分析的LRFMC模型提取客户信息的LRFMC指标。对其进展标准差标准化并保存后，采用k-means算法完成客户的聚类，分析每类的客户特征，从而获得每

类客户的价值。编写R程序，完成客户的k-means聚类，获得聚类中心与类标号，并统计每个类别的客户数

四、实验步骤

1、对已有的数据进展数据清理，对处理后的数据进展保存。

2、数据探索，确定探索分析的变量，去掉日期型变量，最终输出变量最值、缺失情况。

3、将数据进展标准化处理。

4、进展聚类分析，得出类别分布。

五、实验结果

1、数据清理结果

2、聚类分析结果

六、思考与分析

1、使用不同的预处理对数据进展变化，再使用k-means算法进展聚类，比照聚类的结果。

k-means算法承受参数k；然后将事先输入的n个数据对象划分为k个聚类以便使得所获得的聚类满足：同一聚类中的对象相似度较高；而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个"中心对象〞〔引力中心〕来进展计算的。

早睡早起身体会有哪些变化优点：1. 计算时间段，速度快；2. 容易解释；3. 聚类效果还不错。

实验四

一、实验原理

Apriori算法是一种挖掘关联规那么的频繁项集算法，其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。该算法的根本思想是：首先出所有的频集，这些项集出现的频繁性

至少和预定义的最小支持度一样。然后由频集产生强关联规那么，这些规那么必须满足最小支持度和最小可信度。然后使用第1步到的频集产生期望的规那么，产生只包含集合的项的所有规那么，其中每一条规那么的右部只有一项，这里采用的是中规那么的定义。一旦这些规那么被生成，那么只有那些大于用户给定的最小可信度的规那么才被留下来。为了生成所有频集，使用了递归的方法。

二、实验目的

掌握R语言实现Apriori算法的过程。

三、实验容

天津市物资集团总公司

1、用R导入案例的事务集，每一行为一个事务集。调用其中的关联规那么算法函数，输入算法的最小支持度与置信度，获得中医症型系数与患者TNM分期的关联规那么，并将规那么保存。

四、实验步骤

本文发布于:2024-09-23 01:29:52，感谢您对本站的认可！

本文链接：https://www.17tex.com/xueshu/68515.html

上一篇：模式识别与数据挖掘期末总结

下一篇：数据挖掘练习题