首页 > 学术百科

数据分析与挖掘

⼀、数据分析与挖掘

⼀、数据分析与挖掘概述

1、数据分析与挖掘定义及关系

数据分析：对已知的数据进⾏分析，然后提取出⼀些有价值的信息。⽐如统计出平均数、标准差等信息，数据分析的数据量有时有时不会太⼤。

数据挖掘：是指对⼤量的数据进⾏分析与挖掘，得到⼀些未知的、有价值的信息等。⽐如从⽹站的⽤户或者⽤户⾏为数据中挖掘出⽤户潜在需求信息，从⽽对⽹站进⾏改善等。

数据分析与挖掘密不可分，数据挖掘是数据分析的提升。

2、数据分析与挖掘的应⽤场景

数据挖掘技术可以帮助我们更好的发现事物之间的规律。

si69

我们可以利⽤数据挖掘技术实现数据规律的探索，⽐如发现窃电⽤户、挖掘⽤户潜在需求、实现信

息的个性化推送、发现疾病与症状、甚⾄疾病与药物之间的规律等等。

3、数据挖掘的过程

1. 确定⽬标

2. 获取数据（⾃有数据、外部数据——常⽤的⼿段有通过爬⾍采集或者下载⼀些统计⽹站发布的数据）

3. 数据探索

4. 数据预处理（数据清洗（去掉脏数据）、数据集成（集中）、数据变换（规范化）、数据规约（精简））

5. 挖掘建模（分类、聚类、关联、预测）

6. 模型评价与发布

4、数据分析与挖掘的相关模块

1、相关模块的作⽤

1. numpy可以⾼效处理数据、提供数组⽀持、很多模块都依赖它。⽐如pandas、scipy、matplotlib都依赖它，所以这个模块时基础。

2. pandas⽤的最多的⼀个模块，主要⽤于进⾏数据探索和数据分析。

3. matplotlib作图模块，解决可视化问题

4. scipy主要进⾏数值计算，同时⽀持矩阵运算，并提供了很多⾼等数据处理功能，⽐如积分、傅⾥叶变换、微分⽅程求解等。

5. statsmodels模块主要⽤于统计分析

6. Gensim模块朱涛⽤于⽂本挖掘

7. sklearn模块⽤于机器学习，keras模块⽤于深度学习

2、相关模块的安装与技巧

模块安装的顺序与⽅式建议如下：

1. numpy、mkl（建议下载安装（包名规范：numpy-1.15.2+mkl-cp36-cp36m-win_amd64.whl））

2. pandas（建议⽹络安装：pip3 install pandas）

3. matplotlib（建议⽹络安装：pip3 install matplotlib）

4. scipy（建议下载安装（包名规范：scipy-1.1.0-cp36-cp36m-win_amd64.whl））

5. statsmodels（建议⽹络安装：pip3 install statsmodels）

6. Gensim（建议⽹络安装：pip3 install Gensim）

⼆、数据分析与挖掘相关模块使⽤

1、numpy的使⽤

import numpy

x = numpy.array(["a","33","4","12"])

print(x)

print(x[2])

print(x.sort())

print(x)

2、pandas的使⽤

import pandas as pda

import pymysql

conn = t(host="127.0.0.1", user="test", passwd="test", db="chaxun") sql = "select * from chaxun"

data = ad_sql(sql,conn)

des = data.describe()

动物乳腺生物反应器print(des)

i = ad_csv("/data/test.csv")

i.describe()

excel = ad_excel("/data/abc.xls")

3、matplotlib的使⽤

pearson相关分析直⽅图可以很⽅便知道数据的分部情况。徐妙锦

1、折线图/散点图plot

散点、颜⾊、线条是可以叠加使⽤的

import matplotlib.pylab as pyl

x = [1,2,3,4,8]

y = [5,7,1,9,2]

# 绘制：plot(x轴数据，y轴数据，展现形式) 默认是最基本的折线图

pyl.plot(x,y,'o')

# 展现

pyl.show()

设置成不同的颜⾊

1 c-cyan--青⾊

2 r-red--红⾊

3 m-magente--品红

4 g-green--绿⾊

5 b-blue--蓝⾊

6 y-yellow--黄⾊

7 k-black--⿊⾊

8 w-white--⽩⾊

设置线条的样式

1 - 直线

2 -- 虚线

3 -. -.形式

4 : 细⼩虚线

设置点的样式

1 s ⽅形

2 h 六⾓形

4 * 星形

5 + 加号

6 x x形

7 d 菱形

8 D 菱形

9 p 五⾓形

pyl.plot(x, y, '--*y')

pyl.show()

添加图表的标题，标题

pyl.plot(x, y, '--*r')

pyl.title('test')

pyl.xlabel("date")

pyl.ylabel('score')

pyl.show()

设定x与y轴的范围：在⼀个图中绘制多条

x1 = [4,15,9,17,20]

y1 = [2,3,7,19,21]

pyl.plot(x, y, '--*r')

pyl.plot(x1, y1, '-Hy')

pyl.title('test')

pyl.xlabel("date")

pyl.ylabel('score')

pyl.xlim(0,30)

pyl.ylim(0,25)

pyl.show()

2、直⽅图

import numpy as npy

data = npy.random.random_integers(1,20,1000) #在（最⼩值，最⼤值，个数）# print(data)

data2 = al(5.0, 2.0, 20) #(均数, 西格玛, 个数)

print(data2)

直⽅图

import numpy as npy

data3 = al(10.0, 1.0, 1000)

pyl.hist(data3)

pyl.show()

设置直⽅图的上下限、取消轮廓

import numpy as npy

data4 = npy.random.random_integers(10,30,1000)

防火墙pyl.hist(data4)

# 设置直⽅图的上下限

sty = npy.arange(2, 30, 1)

# 取消轮廓

pyl.hist(data4, sty, histtype='stepfilled')

pyl.show()

pyl.subplot(5, 3, 2) #(⾏, 列, 当前区域)

pyl.show()

import numpy as npy

pyl.subplot(2, 2, 1)

x1 = [1,2,3,4,5]

y1 = [5,3,5,23,5]

pyl.plot(x1, y1)

三次函数pyl.subplot(2, 2, 2)

x2 = [5,2,3,8,6]

y2 = [7,9,12,12,3]

pyl.plot(x2, y2)

pyl.subplot(2, 1, 2)

x3 = [5,6,7,10,19,20,29]

y3 = [6,2,4,21,5,1,5]

pyl.plot(x3, y3)

pyl.show()

excel表格处理

import pandas as pda

import numpy as npy

import matplotlib.pylab as py1

data = ad_excel(

"E:/Data/python_project/study/Linux_study/data_analysis_and_mining/hexun.xls"

)

# 查看excel表的⾏列数

# print(data.shape)

# 结果：(5697, 6)

# 查看指定单元格的数据：data.values[第⼏⾏][第⼏列]

# print(data.values) 显⽰所有的数据

# print(data.values[0][1])

# 数据转置

data1 = data.T

# print(data1)

y1 = data1.values[3]

x1 = data1.values[4]

# py1.plot(x1, y1)

# py1.show()

x2 = data1.values[0]

py1.plot(x2, y1)

py1.show()

三、导⼊数据并分析

1、导⼊csv数据

csv是⼀种常见的数据存储格式，基本上我们遇到的数据都可以转为这种存储格式。在Python数据分析中，使⽤pandas模块导⼊csv数据。

import pandas as pda

i = ad_csv("/data/test.csv")

i.describe()

2、导⼊excel数据

excel是⼀种表格⽂件，在Python数据分析，也可以使⽤pandas模块导⼊excel表格⾥⾯的数据。

import pandas as pda

excel = ad_excel("/data/abc.xls")

excel.describe()

3、分析DB（MySQL）数据

import pandas as pda

import pymysql

conn = t(host="127.0.0.1", user="test", passwd="test", db="chaxun")

sql = "select * from chaxun"

data = ad_sql(sql,conn)

des = data.describe()

print(des)

4、导⼊html数据

使⽤pandas，可以直接从html⽹页中加载对应table表格中的数据，但是在使⽤read_html()之前，需要安装html5lib模块和beautifulsoup4模块。

import pandas as pda

# 只读取⽹页中的表格

web_table = ad_html("book.douban/")

print(web_table)

5、导⼊⽂本数据

可以直接导⼊⽂本数据

import pandas as pda

txt_table = ad_table("")

四、数据探索与数据清洗

1、数据探索与数据清洗的⽬的与关系

数据探索的⽬的：及早发现数据的⼀些简单规律或特征。

数据清洗的⽬的：留下可靠数据，避免脏数据的⼲扰。

这两者没有严格的先后顺序，经常在⼀个阶段进⾏。

2、数据探索的核⼼

1. 数据质量分析（跟数据清洗密切联系）

2. 数据特征分析（分布、对⽐、周期性、相关性、常见统计量等）

3、数据清洗实战

数据清洗可以按如下步骤进⾏：

1. 缺失值处理（通过describe与len直接发现，通过0数据发现）

2. 异常值处理（通过散点图发现）

本文发布于:2024-09-24 05:30:21，感谢您对本站的认可！

本文链接：https://www.17tex.com/xueshu/68578.html

上一篇：浙江大学数据挖掘在线作业答案

下一篇：数据挖掘中数据预处理方法_数据挖掘中的数据预处理

标签：数据模块挖掘清洗发现

留言与评论（共有 0 条评论）