数据挖掘报告

摘要

数据挖掘技术可以在浩瀚的数据中进行统计、分析、综合、推理，发现数据部关联，并作出预测，提供数据信息，为决策提供辅助支持。目前，数据挖掘技术已经广泛应用在商业领域，同样，可以将数据挖掘技术与国家教育项目相结合，对项目中的各类数据信息进行挖掘分析，提取隐藏的数据信息，为项目开发部门提供决策依据，进一步提高项目的科学性和高效性。

本文结合自身参与教育部指定的关于城市集竞争力项目的实践经验，分析数据挖掘技术在国家教育项目中应用的可行性，并以此为例，采用JAVA语言编写实现KNN算法。

在项目实施方案中，以城市集的数据为基础，完成数据挖掘的全过程：确定数据挖掘的对象和目标、数据清理和预处理，对某个指标缺失的数据引入神经网络方法进行预测填补，对缺失较多的数据引入对比和类比的方法进行预测填补，采用KNN算法实现数据分类，形成指标体系。利用数据挖掘的结果，通过对指标数据的分析，预测决定城市集竞争力的主要因素，从而为今后城市集的发展方向和职能定位提供参考，为城镇体系的总体发展指明方向，为提高我国城市集整体经济实力和综合竞争力提供一些有益的建议和对策，促进成熟集向一体化方向发展，同时也可以为国其他城市集的发展提供给一些有益的参考。

【关键词】数据挖掘 KNN算法数据分类 JAVA 城市集竞争力

摘要 (1)

目录 (2)

第一章绪论 (3)

1.1研究背景和研究意义 (3)

第二章数据挖掘技术的研究 (4)

2.1 数据挖掘的功能 (4)中国东盟自由贸易区

2.2 数据挖掘的对象 (6)

2.3 数据挖掘的过程 (7)

2.4 数据挖掘算法 (9)

第三章 KNN算法介绍与实现 (10)

3.1 KNN算法介绍 (10)

3.2 KNN算法的JAVA实现 (12)

第四章总结 (17)

百家讲坛周汝昌

第一章绪论龙感湖农场

1.1研究背景和研究意义

1、研究背景

随着信息社会的发展，计算机技术和数据库管理系统的应用，产生了大量的数据信息，数据库存储的数据量也在日益增长。但对于此数据却是“数据丰富，信息贫乏"，人们迫切需要从此类数据中获取信息，即将此类数据转换成有用的信息和知识，并且被广泛应用于事物管理、信息检索和数据分析中。这种需求导致了对数据分析工具的需求扩大，数据挖掘技术就是在此信息技术发展下产生的。

数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、

随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

数据挖掘涉及多学科技术的集成，包括数据库技术、统计学、机器学习、高性能计算、模式识别、神经网络、数据可视化、信息检索、图像与信号处理和空间数据分析等。通俗唱法的特点

数据挖掘技术在商业等赢利性领域中已经取得了广泛的应用。但在高校、政府等非赢利组织的应用并不广泛。结合自身参与项目的经验，利用数据挖掘技术快速而又准确的从浩瀚的数据资源中提取出所需信息，从而在实际应用中将管理信息转化为可供决策使用的知识，这不仅具有理论价值，更具有极大的现实意义。

2、研究意义

刘震云单位

本文利用数据挖掘的结果，通过对指标数据的分析，预测决定城市集竞争力的主要因素，从而为今后城市集的发展方向和职能定位提供参考，为城镇体系的总体发展指明方向，为提高我国城市集整体经济实力和综合竞争力提供一些有益的建议和对策，促进成熟集向一体化方向发展，同时也可以为国其他城市集的发展提供给一些有益的参考。

第二章数据挖掘技术的研究

2.1 数据挖掘的功能

数据挖掘的功能用于指定数据挖掘任务中要的模式类型。数据挖掘任务

一般分为两类：描述和预测。描述性挖掘任务记录数据库中数据的一般特性。预测性挖掘任务在当前数据上进行推断以及预测。

数据挖掘功能以及他们可以发现的模式类型为：

一、概念描述

数据可以与类或概念相关联，用汇总的、简洁的、精确的方式描述每个类或概念，概念描述就是产生数据特征化和比较的描述。

数据特征化是目标类数据的一般特征或特性的汇总。通常，用户指定类的

数据通过数据库查询收集。数据特征的输出可以用多种形式提供。包括饼图、条图、曲线、多维数据立方体和包括交叉表在的多维表。结果描述也可以用

概化关系或规则形式。

数据区分是将目标类对象的一般特性与一个或多个对比类对象的一般特性

比较。目标类和对比类由用户指定，而对应的数据通过数据库查询检索。输出的形式类似于特征描述，

但区分描述应当包括比较度量，帮助区分目标类和对比类。用规则表示的区分描述成为区分规则。

二、关联分析

关联分析发现关联规则，这些规则展示属性值频繁地在给定数据集中一起出现的条件。即两个或两个以上数据项的取值之间存在某种规律性，就称为关联，可以建立起这些数据项的关联规则。关联分析广泛用于购物篮或事务数据分析。包含单个谓词的关联规则称作单维关联规则。在多个属性或谓词之间的关联，采用多维数据库，每个属性称为一维，则此规则称作多维关联规则。

数据关联是数据库中存在的一类重要的、可被发现的知识，它反映一个事

件和其他事件之间依赖或关联。如果两项或多项属性之问存在关联，那么其中一项的属性值就可以依据其他属性值进行预测。在大型数据库中，关联规则可以产生很多，这就需要进行筛选。一般用“支持度"和“可信度"两个阈值来淘汰

那些无用的关联规则。

三、分类和预测

分类是指出描述并区分数据类或概念的模型(或函数)，以便能够使用模型预测类标记未知的对象类。

分类是数据挖掘中应用得最多的任务。分类就是出一个类别的概念描述，并用这种描述来构造模型。可采用多种形式如分类规则、判定树、数学公式或神经网络。等导出模型对训练数据集(即其类标记已知的数据对象)的分析。

分类可以用来预测数据对象的类标记。然而，在某些应用中，人们可能希

望预测某些空缺的或不知道的数据值，而不是类标记。当被预测的值是数值数据时，通常称之为预测。预测是利用历史数据出变化规律，建立模型，并由此模型对未来数据的种类及特征进行预测。

典型的预测方法是回归分析，即利用大量的历史数据，以时间为变量建立线性或非线性回归方程。预测时，只要输入任意的时间值，通过回归方程就可求出该时间的状态。尽管预测可以涉及数据值预测和类标记预测，通常预测限于值预测，并因此不同于分类。预测也包含基于可用数据的分布趋势识别。在分类和预测之前可能需要进行相关分析，它试图识别对于分类和预测无用的属性并排除。

四、聚类分析计委大院

与分类和预测不同，聚类(clustering)分析数据对象，而不考虑已知的类标记。一般情况下，训练数据中不提供类标记，因为不知道从何开始。聚类，可以用于产生这种标记。对象根据最大化类的相似性、最小化类问的相似性的原则进行聚类或分组。即对象的簇(聚类)这样形成，使得在一个簇中的对

象具有很高的相似性，‘而与其他簇中的对象很不相似。所形成的每个簇可以看作一个对象类，由它可以导出规则。聚类也便于分类编制，将观察到的容组织成类分层结构，把类似的事件组织在一起。

五、异常分析

数据中可能包含一些数据对象，他们与数据的一般行为或模型不一致，这些数据对象是异常的，大部分数据挖掘方法将异常数据视为噪声而丢弃，异常分析就是探测和分析那些不符合数据的一般模型的数据对象，并对其建模。然而，在

本文发布于:2024-09-23 09:20:50，感谢您对本站的认可！

本文链接：https://www.17tex.com/xueshu/68452.html

上一篇：简述python中利用数据统计方法检测异常值的常用方法和原理。

下一篇：温室气体排放数据处理方法研究