数据挖掘研究

2021年第1期

信懇与电胭

China Computer & Communication獻探專技术

数据挖掘研究

杜治涵

(长江大学文理学院，湖北荆州434000 )

摘要：数据挖掘是指借助数据挖掘算法从大量的数据中搜寻有价值的信息，包括问题定义、数据获取、数据预处理、建立模型、模型评价和模型应用等步骤。常用的数据挖掘方法有关联规则法、决策树法、模糊集法、粗糙集法、神经网络法和遗传算法。同时，数据挖掘过程中的道德和法律问题也值得关注。

关键词：数据挖掘；数据挖掘算法；步骤；数据安全

中图分类号：TP311.13 文献标识码：A文章编号：1003-9767 (2021) 01-169-03

Research on the Introduction of Data Mining步进电机驱动器

张鲁新

Du Zhihan

(School of A rts and Sciences,Yangtze U niversity,Jingzhou Hubei434000, China)

DANCE ME TO THE END OF LOVE

A b s tra c t:Data m in ing refers to searching fo r valuable inform ation from a large amount of data w ith the help o f data m ining alg o rith m s,in c lu d in g problem d e fin itio n,data a c q u is itio n,data preprocessing,m odel b u ild in g,m odel eva lu ation and model application.Commonly used data m ining methods include association rule method,decision tree method,fuzzy set method,rough set method,neural network method and genetic algorithm.A t the same tim e,the ethical and legal issues in the data m ining process are also worthy o f attention.

K e y w o rd s:data m ining;data m ining algorithm;steps;data security

〇引言

随着互联网的高速发展，信息爆炸带来的海量数据汇成了数据的“海洋”。“数据海洋”中蕴藏着的“宝藏”，吸引着无数的“海盗们”，数据挖掘技术就是“海盗们”的指南针，整个世界进人动荡混乱的“大数据时代”。

近年来，数据挖掘一直是热门的研究方向，各类场景产生的海量数据会保存在数据库中[1]〇数据挖掘

是基于集合论、统计学、模式识别、机器学习、人工智能和可视化等技术的决策支持过程，使用算法自动化处理海量的数据，帮助决策者制定并调整策略。数据挖掘的过程包括数据获取、数据预处理、规则挖掘和分析应用。数据获取和预处理步骤从相关的数据源中选取所需的数据，经过初步处理后得到适用于数据挖掘模型的数据，以便后续进行规则挖掘分析；规则挖掘步骤需要选择恰当的算法，输人预处理后的数据训练得到相应的数据挖掘模型；分析应用过程尽量以易于理解的方式（如可视化）展示数据挖掘得到的规律。

1常用数据挖掘算法

常用的数据挖掘算法有关联规则法、决策树法、模糊集法、粗糙集法、神经网络法和遗传算法等。

1.1关联规则法

关联规则法旨在确定不同事物之间的关联性。R A g ra w a l 等人首次提出了关联规则挖掘问题，并给出A p r io r i算法的核心思想：首先出重复出现次数至少达到预定意义阈值的所有关联项集合，然后根据该集合生成关联规则[2]。该算法提出了最小支持度和最小可信度两个阈值概念。假设有两个事件c x和P ，支持度为二者同时出现的概率，置信度指事件c t发生时，事件P同时出现的概率，即在c t出现的条件下，P也出现的条件概率[3]。而最小支持度和最小置信度则没有固定的计算公式，需要根据训练数据和具体的数据场景来确定。

1.2决策树法

决策树是根据变量的目标效用构建的树形流程图，通过固化的规则对数据进行分类。早在1986年，J R Q u in la n就提出了基于决策树的ID3算法，此后在ID3算法的基础上又提出了性能更好的C4.5算法[4]〇决策树法的构建过程简单且

作者简介：杜治涵（2000—)，男，湖北仙桃人，本科。研宄方向：计算机。

瓤据庫技术

信麵与电睡

China Computer & Communication2021年第1期

易于理解，决策过程可见、高效而迅速[5]。但是决策树法无法妥善处理存在组合变量的规律挖掘过程。决策树算法非常适合基于非数值型数据的数据挖掘过程，且对大数据进行集中处理的效率很高。

1.3模糊集法

都市艳情

现实中的很多问题可能无法用具体的数学公式进行描述，此时可以使用模糊集来描述这些模糊问题，模糊集由论域和隶属函数构成，使用隶属度来描述模事物的属性。所描述的问题越复杂，精确描述该问题的难度就越大，问题的模糊性就越强。对于数据掘过程中定义模糊不清的问题，采取基于模糊集合理论的数学工具判断其模糊程度，商定解决模糊问题的策略，对模糊问题中存在的模式进行识别并最终进行模糊聚类分析[6]。

1_4粗糙集法

粗糙集法也称为粗糙集理论，是波兰数学家Z P a w la k于 20世纪80年代初提出的，也是一种处理含义不明、无法精准描述问题的数学方法[7]。粗糙集法的处理过程可以不基于先验知识，支持自动归纳出问题的潜在规律，但是对于连续的属性值无法直接处理，需要对属性进行离散化预处理[8]。如何对连续属性进行恰当的离散化处理是粗糙集研究中的重点，该理论主要应用于近似推理、数字逻辑分析、构建预测模型等问题。

1.5神经网络算法

wald神经网络算法通过模拟生物大脑内的神经系统，设计算法模拟神经元的结构和功能，构造训练模型，使用大量数据来训练模型，并将模型中的每一个连接作为基本处理单元，实现特征挖掘、分类、聚类等各种基本功能[9]。神经网络的学习训练过程和人脑类似，主要通过修改中间神经层的权值来不

断完善和优化训练模型，获得符合预期拟合效果的模型。神经网络算法的抗噪音和异常值干扰性能非常好，适合非线性学习，具有自动联想功能，能够在复杂场景中得到精准的预测结果，但是不适合处理高维变量，且训练过程属于黑盒模型，不能观察中间的学习过程，输出结果不易于理解，且训练模型效果对数据规模依赖较大，学习时间也较长。

1_6遗传算法

遗传算法借鉴了生物进化规则，通过模拟自然选择过程和遗传中发生的繁殖、交配和基因突变现象，构造复制、交叉、变异三种算子完成求解过程。遗传算法的优势是可以处理各种类型的数据，并且支持对数据的并行处理；缺点是算法训练过程中需要调整的参数太多，需要花费大量的时间，数据和算法的编码过程也比较复杂，需要的数据量也很大，相应的计算量也比较大。遗传算法经常用于优化神经元网络模型，也经常用于解决其他方法难以解决的问题。2数据挖掘的步骤

2.1定义问题

数据挖掘的首要任务是明确需要处理的业务问题并界定业务范围，如得到某一类型目标客户的回购率以及同一产品在不同类型客户体中可接受的定价范围等。对于不同的业务目标，可能有完全不同的模型与之对应，需要事前考虑选择哪些模型进行分析。

2.2数据获取

现实生活中各类业务场景中获取到的数据，存在结构化的数据、半结构化的数据甚至是异构数据。在数据挖掘过程中，根据获取的数据类型，挖掘价值信息的方式可以是形式化的、非形式化的，也可以是总结归纳式的。最终被挖掘出来的价值信息可以用于信息管理、查询优化、决策支持及数据维护等。

数据挖掘的数据源来自任何渠道，可以是关系数据库中保存的结构化数据表，也可以是来自位置服务器保存的位置数据、视频网站保存的多媒体数据、通信系统产生的时序数据、门户网站的W e b数据等半结构化的数据，也可以是不同电信运营商的运营数据、不同媒介中保存的多媒体数据等异构的数据。对于不同类型的数据需要采用相对应的预处理方法和分析模型进行数据挖掘。

2.3数据预处理

数据质量可能会对数据挖掘模型产生重大的影响。一般来说，数据本身内置可以获取知识的上限，数据挖掘模型得到的分析结果仅能无限趋近知识上限。此时需要通过各种数据预处理技术，使输人的数据满足模型的输人要求，使得模型的分析结果更好地达到知识上限，并使得模型的优化过程更平滑。数据预处理包括数据清洗、数据转化和数据降维等。

2.3.1数据清洗

获得的原始数据格式往往不正确，需要进行清洗才能继续使用，通常情况下需要采取缺失值处理和异常值检测两个步骤。缺失值通常采用3种方法进行填充。第一，使用特殊值。缺失值本身代表特殊含义时可以使用特殊值进行表示，如使用-1表示某项体检指标异常。第二，统计信息。有时为了保持某些统计属性可以使用平均值、中位数、众数等表示缺失值。第三，使用预测值等方法进行填充，如使用线性拟合得到的线性表达式预测缺失值。

异常值表示与其他值存在很大差异的数据，通常是由记录错误或者测量问题造成的，在数据预处理过程中需要尽可能剔除这种异常的数据。在不预设数据分布的情况下，基于特定距离计算方法的异常值检测算法通过计算每两个样本的距离来判断是否是异常值，进而排除数据中的异常值。

2.3.2数据转换

数据挖掘过程中使用的数据挖掘模型有时对于数据类型

2021年第1期

信懇与电胭

China Computer & Communication獻探專技术

有特定的要求，因此需要对数据进行适当转化，包括但不限于以下几种情况。第一，数字化。分类型值不适合直接操作，需要进行数字化使得适用于各种模型。常用的编码方法有一键编码，即将分类值的每一个取值作为一个维度，有就是1没有就是0；顺序编码为每个可能的取值分配一个索引；定制编码则指定专门的编码规则表示想要表示的数据。第二，离散化。对于连续型输入数据，模型无法直接处理数据，需要离散化得到有限的数据后进行分析。通常可以采用连续取样的方法对原始数据进行离散化，对于有特殊分布规律的数据可以采用不同的取样方法进行数据离散化。第三，归一化。由于不同的属性通常采用不同的单位制，因此它们的平均值和标准偏差通常不相同。但是，数值上的差异会使某些属性看起来更“重要”，而其他属性则没有。经常使用的标准化方法有M in-m a x规范化、Z分数归一化和十进制缩放规范化。第四，数值变换。数值变换可以采用指数变换、线性变换、极大似然变换等方法对原始数据进行处理，可获得拟合更好的特征数据。

2_3_3数据降维

数据可能会有很多属性，但是这些属性可能是不相关的或者属性之间是相关的，数据降维可以提高模型的训练效率, 防止出现过拟合问题。借助降维技术能够降低数据样本的维数，从而减少数据的数量。

2.4建立模型

建立模型是一个迭代重复的过程，需要反复考量不同的模型，以选择能够解决实际问题的模型。先用一部分数据作为训练集并训练模型，再用剩余数据作为测试集来测试得到的模型。有时需要额外的验证集，因为测试集会受模型本身特性的影响，需要一个区别于原始测试数据的验证集来验证模型的准确性。

2.5评价模型和应用模型

通过数据挖掘可以得到有效的数据分析模型，但是该模型并不一定是正确的模型，模型建立过程中隐含的各种前提条件是造成这一现象的主要原因。模型建立完成后，需要根据一定的指标得到合理的结果，常用的指标有准确率、正确率、R O C值等，而测试集中得到的各种指标值仅对训练集有意义，还需要进一步对模型的适用性进行验证。

模型建立并完成验证后，主要有两种使用方法：第一，为专业数据分析人员提供参考，并应用到实际业务中；第二，将模型应用在不同的数据集上，以验证模型的普适性。在现实世界中测试模型的方法也很重要，一般会先在小范围内应用模型，评估模型的使用效果后，再判断是否进行大范围推广。

3数据挖掘存在的问题

数据挖掘过程往往涉及用户的隐私问题，例如：私营公司老板可以通过访问应聘职工的就诊记录来筛

除有糖尿病或者严重心脏病的人，从而节省保险支出。但是，此类行为会导致伦理道德以及法律问题。正确使用数据挖掘可以为社会产生非常大的价值，但也可能出现滥用医疗数据库的风险。例如，根据患者的医疗数据可以分析药物与副作用的关系。这种关系可能是非常偶然的情况，且可能会出现误判的情况。基于各种算法，数据挖掘方法可以获得用其他方法不可能发现的潜在信息，但同样面临着各种安全风险，必须进行规范。

4结语

综上所述，数据挖掘的研究重点在于数据挖掘算法的选择和数据处理方法对模型效果的影响。模型效果包括有效性和正确性两个方面，在挖掘商业数据的过程中，除了需要考虑正确性和有效性，还需考虑数据的安全性。

大气环流参考文献

[1]L i C.Preprocessing M ethods and Pipelines o f Data M in in g:

A n O vervie w[Z].2019.

[2] R A gra w a l,R Srikant.Fast A lg o rith m s fo r M in in g A ssociation

R ules[Z].1994.

[3] 钟晓，马少平，张钹，等.数据挖掘综述[J].模式识别与人

工智能，2001,14(1):48-55.

[4] 千靓，王宏，都利勇.粗糙集和模糊集在数据挖掘中的应

用[J].科海故博览,2011(4):104.

[5] 邹志文，朱金伟.数据挖掘算法研究与综述[J].计算机工

程与设计,2005,26(9):2304-2307.

[6] 刘红岩，陈剑，陈国青.数据挖掘中的数据分类算法综述[J].

清华大学学报,2002,42(6):727-730.

[7] 黄芳.基于数据挖掘的决策树技术在成绩分析中的应用研

究[D].济南：山东师范大学,2009.

[8] 张月童.变精度模糊粗糙集理论与应用研究[D].哈尔滨：

哈尔滨工程大学，2008.

[9] 宫夏屹，李伯虎，柴旭东，等.大数据平台技术综述[J].系

统仿真学报,2014,26(3):489-496.

本文发布于:2024-09-22 21:35:30，感谢您对本站的认可！

本文链接：https://www.17tex.com/xueshu/68513.html

上一篇：2015数据挖掘技术试卷A卷-参考答案

下一篇：模式识别与数据挖掘期末总结

标签：数据模型数据挖掘过程问题

留言与评论（共有 0 条评论）