首页 > 学术百科

mysql数据挖掘_数据挖掘（DataMining）概述

1.数据挖掘的定义

数据挖掘：指从⼤量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘在⾯向⽤户的互联⽹产品中发挥着及其重要的作⽤。

2 数据挖掘的对象

常见的数据挖掘对象有以下7⼤类

关系型数据库(MySQL)、⾮关系系数据库(NoSQL)；

数据仓库/多维度数据库(HDFS/Hive)；

空间数据(如地图信息)

⼯程数据(如建筑、集成电路的信息)

⽂本和多媒体数据(如⽂本、图像、⾳频、视频数据)

时间相关的数据(如历史数据或股票交换数据)

万维⽹(如半结构化的HTML、结构化的XML以及其他⽹络信息)。

3 数据挖掘的过程

数据准备：收集数据

数据集成：了解领域特点，确定⽤户需求，处理数据中的遗漏和清洗脏数据；

数据选择：从原数据库中选择相关数据或样本，从⽽辨别出需要需要分析的数据集合，缩⼩处理范围，提⾼数据挖掘的质量；

数据预处理：检查数据的完整性及⼀致性，消除噪声。

数据挖掘

确定挖掘⽬标：确定要发现的知识类型；

选择算法：根据确定的⽬标选择合适的数据挖掘算法

数据挖掘：运⽤所选算法，提取相关知识并以⼀定的⽅式表⽰。

结果表达与解释

根据⽤户的决策⽬的对提取的信息进⾏分析，把最有价值的信息区分出来，并且通过决策⽀持⼯具交给决策者。

模式评估：对在数据挖掘步骤中发现的模式(知识)进⾏评估；

知识表⽰：使⽤可视乎和知识表⽰相关技术，呈现所挖掘的知识。

4 数据挖掘的⽅法

数据挖掘的⽅法分类

挖掘任务：分类、预测、聚类、关联规则、异常和趋势发现；

人生这里挖掘⽅法：统计⽅法和机器学习学习⽅法。

统计⽅法

回归分析、判别分析、聚类分析、探索性分析；

机器学习⽅法

神经⽹络、集成学习、遗传算法

载体构建

角动量守恒定律分类

根据⼀些给定的已知类别标号的样本，训练某种学习机器(即得到某种⽬标函数)，使它能够对未知类别的样本进⾏分类。世代交叠模型

聚类

⽤于从数据及中出相似的数据并组成不同的组。与分类模型不同，聚类中没有明显的⽬标变量作为数据的属性存在。

关联分析世界人体之最

关联分析⼜称关联挖掘，就是在交易数据、关系数据或其他信息载体中，查存在于项⽬集合或对象集合之间的频繁模式、关联、相关性或因果结构。

5 数据挖掘的应⽤

互联⽹巨头

⾕歌和百度⽤数据挖掘算法对⼴告点击率进⾏预测；

沸点电⼦商务巨头

亚马逊和阿⾥巴巴通过数据挖掘来预测⽤户购买商品的可能性；

零售巨头

沃尔玛，通过分析客户购买记录寻不同商品之间的可能性，从⽽更合理上架不同品类商品；

本文发布于:2024-09-22 21:30:50，感谢您对本站的认可！

本文链接：https://www.17tex.com/xueshu/68484.html

上一篇：数据挖掘关联规则

下一篇：基于改进聚类算法的健康监测系统数据挖掘模型

标签：数据数据挖掘信息知识分析算法挖掘

留言与评论（共有 0 条评论）