描述统计学:五数概括法、箱形图、协方差和相关系数

描述统计学:五数概括法、箱形图、协⽅差和相关系数
五数概括法
通俗的说就是最⼩,第⼀四分位,第⼆四分位,第三四分位,最⼤数
箱形图
箱形图是基于五数概括法的数据的⼀个图形汇总。
箱形图的说明:日志存储
(1)边界分别为第⼀四分位数和第三四分位数
(2)在箱体上中位数即第⼆四分数处画垂线
(3)利⽤四分位数间距IQR = Q3-Q1,到界限,超出即为异常值。
IQR左 = Q1 - 1.5×IQR
IQR右 = Q3 + 1.5×IQR
(4)虚线被称为触须线,触须线的端点为最⼩值和最⼤值
(5)每个异常值的位置⽤符号'*'来标出。
箱线图提供了另⼀种检测异常值的⽅法,但他和Z-分数检测出的异常值不⼀定相同,可选⼀种或两种。
练习
1. 数据集的第⼀四分位数为42,第三四分位数为50,计算箱形图的上、下界限。数据值65是否应该认为是⼀个异常值?
纸碗上限:50+1.5*8 = 62
65⼤于上限,是异常值
import numpy as np
import pandas as pd
from pandas import Series
data = [8408,1374,1872,8879,2459,11413,608,14138,6452,1850,2818,1356,10498,7478,4019,4341,739,2127,3653,5794,8305]
data_sale = Series(data)
data_sale
a
min        608.000000
25%      1872.000000
婴童车
50%      4019.000000
75%      8305.000000
max      14138.000000
b
下界限:1872-1.5*(8305-1872) = -7777.5
上界限: 8305+1.5*(8305-1872) = 17954.5
c. 最⼩最⼤值都在界限范围内,数据中没有异常值
d. 可以发现,因为最⼤上限只有179.54亿
e. 箱线图代码
import matplotlib.pyplot as plt
import matplotlib.pyplot as plt
Params['font.sans-serif'] = ['SimHei']
df = pd.DataFrame(data_sale,columns = ['销售业绩'])
光电烤箱df.boxplot()
plt.show()
prepar_data = [23.5,22.8,38.3,41.3,40.6,15.6,12.4,11.5,33.3,16.0,16.9,10.3,3.4,24.2,12.1,20.6,11.9,4.1,13.6,10.7,13.2,13.5,19.5,21.4,24.5,10.4,10.8,10.0,10.9,15.1,6.6,13.2,13.6,12.8,18.7,11.4,23.6,27.3,2 data_fund = Series(prepar_data)
data_fund.describe()
count    46.000000
mean    18.206522
std      9.102708
min      3.400000
25%      11.750000
50%      15.350000
75%      23.425000
max      41.300000
上限:11.75 - 1.5*(23.425-11.75) = -5.75
下限:23.425 + 1.5*(23.425-11.75) = 40.93
没有异常值,都在这个范围内。
变量间的关系度量
管理者或决策者最关⼼的两个变量之间的关系:协⽅差和相关系数。
协⽅差
样本协⽅差
总体协⽅差
协⽅差中x的平均数为垂直线,y的平均数为⽔平线,这样会把散点图分为四个象限。
协⽅差如果为正,说明在第⼀三象限,为正相关;如果为负,说明在第⼆四象限,为负相关;如果为0,则说明不存在线性关系。
这种做法有弊端,对x和y的计量单位依赖较⾼,相同的线性关系,度量单位不同,可能会出现协⽅差的值有⼤有⼩,为了避免这种情况,我们将使⽤相关系数对两变量间的相关关系进⾏量度。
相关系数
样本数据
----样本协⽅差
----x的样本标准差
----y的样本标准差
总体数据
----总体协⽅差
---- x的总体标准差
---- y的总体标准差
样本相关系数是总体相关系数的⼀个估计
相关系数的解释
的值为1,则表明
x和y之间存在完全正线性关系,如果值为-1,则表明存在完全负线性关系。
相关系数提供了线性但是不⼀定是因果关系的⼀个度量。并不是⼀个变量的变化会引起另⼀个变量的变化。
练习
import pandas as pd
import matplotlib.pyplot as plt
Params['font.sans-serif'] = ['SimHei']
p_x = [6,11,15,21,27]
p_y = [6,9,6,17,12]
data = pd.DataFrame([p_x,p_y], index=['x','y'])
data.T
data.T.plot.scatter('x','y')
# x和y的相关系数
(data.T.y)
热熔胶捏合机
26.5
# x和y的协⽅差
v(data.T.y)
0.6930621597798724
x和y中正相关关系,但是不是很强的线性关系
# 相关系数
(df.T.y)
-0.9103693792631485
基本接近-1,可以得知,有很强的负线性关系。
如下散点图更证实了这⼀点。
px = [30,50,40,55,30,25,60,25,50,55]
py = [28,25,25,23,30,32,21,35,26,25]
df = pd.DataFrame([px,py], index=['x','y'])
df.T.plot.scatter(x='x',y='y')
pdx = [0.20,0.82,-0.99,0.04,-0.24,1.01,0.30,0.55,-0.25]
pdy = [0.24,0.19,-0.91,0.08,-0.33,0.87,0.36,0.83,-0.16]
df = pd.DataFrame([pdx,pdy],index=['DJIA','S&P 500'])
df.T
df.T.plot.scatter(x='DJIA',y='S&P 500')
# 样本相关性
p = df.T['S&P 500']
df.(p)
0.9097954353933699
接近1,说明两者之间有强的线性关系,随着道琼斯指数的增加,标准普尔的股票价格也会上升,因此,必须审核这两个指数。加权平均数和使⽤分组数据
加权平均数
装备偏移就是在平均数的基础上加了每个值的数量。⽤数量*值/数量的和
分组数据
由于分组数据没有具体的值,可以取中间值*频数 / 样本总数算出分组数据的平均数。
同理可以算出分组数据的⽅差和标准差。
分组数据可以⽤组中值近似的代替每组的数据,但是这样的统计量并不太准确,尽可能使⽤原始数据⽽⾮分组数据。

本文发布于:2024-09-23 14:34:50,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/277488.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:数据   平均数   分组   变量   触须   关系
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议