智能科学系教材——数据分析基础定义12变异系数(Coefficientof

定义12变异系数(Coefficient of Variation)定义为:
CV s
¯x
×100%.(3.4)
变异系数是刻画数据相对分散性的度量。定义13偏度(Skewness)定义为:
g1
n
(n−1)(n−2)s3
n
i=1
(x i−¯x)3=
n2u3
(n−1)(n−2)s3
,(3.5)
其中u k 1n
n
i=1
(x i−¯x)k是k阶中心矩。除以那些怪怪的系数是为了使g1是总体偏度的无
偏估计。偏度是刻画数据对称性的指标。关于均值对称的数据其偏度为0;右侧更分散的数据偏度为正;左侧更分散的数据偏度为负。
图3.1:数据的偏度(说明:两幅图的均值大致是在峰值附近,左图较多的数据处于均值右边,所以偏度为正;右图同样解读)
定义14峰度(Kurtosis)定义为:
g2
n(n+1)
(n−1)(n−2)(n−3)s4
n
i=1
(x i−¯x)4−
3(n−1)2
(n−2)(n−3)
(3.6)
=
n2(n+1)u4
(n−1)(n−2)(n−3)s4
−3(n−1)
2
(n−2)(n−3)
健康心理学.(3.7)
除以那些怪怪的系数是为了使g2是总体峰度的无偏估计,减去那些怪怪的数是为了使数据的总体分布为正态分布时峰度为0。当数据的总体分布为正态分布时,峰度为0;大致来说,当分布较正态分布峰高时,峰度为正;否则为负。当峰度为正时,两侧极端数据较少;当峰度为负时,两侧极端数据较多。前几年时兴“长尾理论”,则说明其数据的峰度是负的。
铸铁工艺
例15[4]例1.1。
g 2<0
g
2
>0
g
2
=0
数据的峰度
上述数据的均值、方差等数字特征是总体相应特征值的一种矩估计,它们更适合于来自正态分布的数据的分析。若总体的分布未知,或者数据严重偏态、有若干异常值(极端值),上述分析数据的方法不甚合适,应改为计算中位数、分位数、三均值、极差等数据数字特征。计算这些特征需要用到次序
统计量。
设x1,···,x n是n个观测值。将它们按数值由小到大记为:
x(1),···,x(n).
这就是次序统计量。x(1)和x(n)分别称为最小和最大次序计量。
友商网在线会计定义16中位数定义为:
M
x(n+1
2
),n为奇数;
1
2
(
x(n
2
)+x(n
2
+1)
)
,n为偶数.
(3.8)
中位数是描述数据中心位置的数字特征。大体上比中位数大或小的数据个数为整个数据个数的一半。对于对称分布的数据,均值与中位数较接近;对于偏态分布的数据,均值和中位数不同。中位数的一个显著特点是不受异常值(特别大或特别小)的影响,具有稳健性。因此它是数据分析中相当重要的
统计量。
均值和中位数的联系:
¯x=argmin
x
n
i=1
(x−x i)2,M∈argmin
x
n
i=1
|x−x i|,(3.9)
即它们是数据在不同范数下的平均值。
定义17极差定义为:
R x(n)−x(1).(3.10)它是描述数据分散性的数据特征。数据越分散,极差越大。
定义18分位数定义为:
M p {
x([np]+1),np不是整数;
抽象函数1
2
(
motolorax(np)+x(np+1)
)
,np为整数,
(3.11)
其中[x]表示不超过x的最大整数。当p=1时,定义M1=x(n).
0.5分位数就是就是中位数。在实际应用中,0.75和0.25分位数比较重要。它们分别称为上、下四分位数,并简记为
Q3=M0.75,Q1=M0.25.
定义19上、下四分位数之差称为四分位极差(或半极差):
R1 Q3−Q1.(3.12)
四分位极差也是度量样本分散性的重要数据特征,特别是对于具有异常值的数据,它作为分散性度量具有稳健性,因此它在稳健性数据分析中具有重要作用。
如果知道总体分布F(x),0≤p≤1,则满足F(ζp)=p的ζp(假定唯一)称为分布F的p分位数,或称总体p分位数。当总体分布是正态分布N(µ,σ)时,其总体上、下四分位数为
ζ0.75=µ+0.6745σ,ζ0.25=µ−0.6745σ.
于是其总体四分位极差为
r1=ζ0.75−ζ0.25=1.349σ.
当样本存在异常值时,标准差s缺乏稳健性。可以利用上式给出总体标准差σ的一个具
有稳健性的估计:
ˆσ=
r1 1.349
.
它称为四分位标准差,可以作为数据分散性的稳健度量。
我们知道,均值¯x与中位数都是描述数据集中位置的数字特征。计算¯x时用到了样本的全部信息,而M仅用了数据的部分信息。因此,在正常情况下,用¯x比用M描述数据的集中位置为优。然而,当数据存在异常值时,¯x缺乏稳健性,而M具有极强的稳健性。如果想要充分利用样本的信息,又要具有较强的稳健性,可以用三均值ˆM作为数据集中位置的数字特征。
定义20三均值定义为:
ˆM 1
4Q1+
1
2
M+
1
4
Q3.(3.13)
在探索性数据分析中,有一种判断数据为异常值的简便方法。
定义21
Q1−1.5R1Q3+1.5R1(3.14)分别称为下、上截断点。
小于下截断值的数据为特小值;大于上截断值的数据为特大值。两者都是异常值。
例22[4]例1.7。
3.2数据的分布
数据的数字特征刻画了数据的主要特征。而要对数据的总体情况做全面的描述,就要研究数据的分布。对数据分布的主要描述方法有:直方图、数据的理论分布等。数据分析的一个重要问题是判断数据是否来自正态总体,这是分布的正态性检验的问题。
3.2.1直方图、经验分布函数和QQ图
对于数据分布,常用直方图进行描述,将数据的取值范围分成若干区间(bin,一般是等间隔的),在
等间隔区间的,每个区间的长度称为组距(bin size)。考察数据落入每一区间的频数与频率,在每一个区间上画一个矩形,它的宽度是组距,高度可以是频数、频率或频率/组距。在高度是频率/组距的情况,每一矩形的面积恰好是数据落入区间的频率,这种直方图可以估计总体的概率密度。组距对直方图的形态有很大影响,组距太小,每组的频率较少,由于随机性的影响,邻近区间上的频数可能很大;组距太大,直方图所反映的概率密度的形态就不灵敏。得到直方图后,可以拟合某些常用的概率分布。如:
1.正态分布:
f(x)=
1
2πσ
exp
(
−(x−µ)
2
2σ2
)
分离度
.
2.指数分布:
f(x)=
1
σexp
(
−x−θ
σ
)
,x>θ, 0,其他.
图3.3:数据的直方图及其拟合
直方图的制作适合于总体为连续型分布的场合。对于一般总体分布,若要估计它的总体分布函数F(x),
可以用经验分布函数做估计。设来自总体分布F(x)的样本是x1,x2,···,x n,其次序统计量是x(1),x(2),···,x(n),经验分布函数是:
F n(x)=
0,x<x(1),
i/n,x(i)≤x<x(i+1),i=1,···,n−1,
1,x≥x(n).
(3.15)
经验分布函数是非降的阶梯函数,在x(i)处的跃度是1/n(若x(i)重复取值k次,则跃度为k/n)。经验分布函数是总体分布函数的相合估计。因此,当n充分大时,F(x)≈F n(x).
图3.4:数据的经验分布函数
练习23利用[4]例1.12的数据做以上的数据描述性分析,包括求均值、方差、偏度、峰度、中位数、极差、上下四分位数、四分位极差、三均值、上下截断点、和以10为组距画出直方图。铅压铸件硬度数据如下:
53.070.284.355.378.563.571.453.482.567.369.573.055.785.895.451.174.454.1 77.852.469.153.564.382.755.770.587.550.772.359.5
不论是直方图还是经验分布图,要从图上鉴别样本是否近似于某种类型的分布是困难的。QQ图可以帮助我们鉴别样本的分布是否近似于某种类型的分布。在统计学

本文发布于:2024-09-22 04:02:23,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/367126.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:数据   分布   总体
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议