首页 > 学术百科

智能科学系教材——数据分析基础定义12变异系数（Coefficientof

定义12变异系数（Coeﬃcient of Variation）定义为：

CV s

¯x

×100%.(3.4)

变异系数是刻画数据相对分散性的度量。定义13偏度（Skewness）定义为：

(n−1)(n−2)s3

∑

i=1

(x i−¯x)3=

n2u3

(n−1)(n−2)s3

,(3.5)

其中u k 1n

∑

i=1

(x i−¯x)k是k阶中心矩。除以那些怪怪的系数是为了使g1是总体偏度的无

偏估计。偏度是刻画数据对称性的指标。关于均值对称的数据其偏度为0；右侧更分散的数据偏度为正；左侧更分散的数据偏度为负。

图3.1：数据的偏度（说明：两幅图的均值大致是在峰值附近，左图较多的数据处于均值右边，所以偏度为正；右图同样解读）

定义14峰度（Kurtosis）定义为：

n(n+1)

(n−1)(n−2)(n−3)s4

∑

i=1

(x i−¯x)4−

3(n−1)2

(n−2)(n−3)

(3.6)

n2(n+1)u4

(n−1)(n−2)(n−3)s4

−3(n−1)

(n−2)(n−3)

健康心理学.(3.7)

除以那些怪怪的系数是为了使g2是总体峰度的无偏估计，减去那些怪怪的数是为了使数据的总体分布为正态分布时峰度为0。当数据的总体分布为正态分布时，峰度为0；大致来说，当分布较正态分布峰高时，峰度为正；否则为负。当峰度为正时，两侧极端数据较少；当峰度为负时，两侧极端数据较多。前几年时兴“长尾理论”，则说明其数据的峰度是负的。

铸铁工艺

例15[4]例1.1。

g 2<0

数据的峰度

上述数据的均值、方差等数字特征是总体相应特征值的一种矩估计，它们更适合于来自正态分布的数据的分析。若总体的分布未知，或者数据严重偏态、有若干异常值（极端值），上述分析数据的方法不甚合适，应改为计算中位数、分位数、三均值、极差等数据数字特征。计算这些特征需要用到次序

统计量。

设x1,···,x n是n个观测值。将它们按数值由小到大记为：

x(1),···,x(n).

这就是次序统计量。x(1)和x(n)分别称为最小和最大次序计量。

友商网在线会计定义16中位数定义为：

x(n+1

),n为奇数;

(

x(n

)+x(n

+1)

)

,n为偶数.

(3.8)

中位数是描述数据中心位置的数字特征。大体上比中位数大或小的数据个数为整个数据个数的一半。对于对称分布的数据，均值与中位数较接近；对于偏态分布的数据，均值和中位数不同。中位数的一个显著特点是不受异常值（特别大或特别小）的影响，具有稳健性。因此它是数据分析中相当重要的

统计量。

均值和中位数的联系：

¯x=argmin

∑

i=1

(x−x i)2,M∈argmin

∑

i=1

|x−x i|,(3.9)

即它们是数据在不同范数下的平均值。

定义17极差定义为：

R x(n)−x(1).(3.10)它是描述数据分散性的数据特征。数据越分散，极差越大。

定义18分位数定义为：

M p {

x([np]+1),np不是整数;

抽象函数1

(

motolorax(np)+x(np+1)

)

,np为整数,

(3.11)

其中[x]表示不超过x的最大整数。当p=1时，定义M1=x(n).

0.5分位数就是就是中位数。在实际应用中，0.75和0.25分位数比较重要。它们分别称为上、下四分位数，并简记为

Q3=M0.75,Q1=M0.25.

定义19上、下四分位数之差称为四分位极差（或半极差）：

R1 Q3−Q1.(3.12)

四分位极差也是度量样本分散性的重要数据特征，特别是对于具有异常值的数据，它作为分散性度量具有稳健性，因此它在稳健性数据分析中具有重要作用。

如果知道总体分布F(x)，0≤p≤1，则满足F(ζp)=p的ζp（假定唯一）称为分布F的p分位数，或称总体p分位数。当总体分布是正态分布N(µ,σ)时，其总体上、下四分位数为

ζ0.75=µ+0.6745σ,ζ0.25=µ−0.6745σ.

于是其总体四分位极差为

r1=ζ0.75−ζ0.25=1.349σ.

当样本存在异常值时，标准差s缺乏稳健性。可以利用上式给出总体标准差σ的一个具

有稳健性的估计：

ˆσ=

r1 1.349

它称为四分位标准差，可以作为数据分散性的稳健度量。

我们知道，均值¯x与中位数都是描述数据集中位置的数字特征。计算¯x时用到了样本的全部信息，而M仅用了数据的部分信息。因此，在正常情况下，用¯x比用M描述数据的集中位置为优。然而，当数据存在异常值时，¯x缺乏稳健性，而M具有极强的稳健性。如果想要充分利用样本的信息，又要具有较强的稳健性，可以用三均值ˆM作为数据集中位置的数字特征。

定义20三均值定义为：

ˆM 1

4Q1+

M+

Q3.(3.13)

在探索性数据分析中，有一种判断数据为异常值的简便方法。

定义21

Q1−1.5R1Q3+1.5R1(3.14)分别称为下、上截断点。

小于下截断值的数据为特小值；大于上截断值的数据为特大值。两者都是异常值。

例22[4]例1.7。

3.2数据的分布

数据的数字特征刻画了数据的主要特征。而要对数据的总体情况做全面的描述，就要研究数据的分布。对数据分布的主要描述方法有：直方图、数据的理论分布等。数据分析的一个重要问题是判断数据是否来自正态总体，这是分布的正态性检验的问题。

3.2.1直方图、经验分布函数和QQ图

对于数据分布，常用直方图进行描述，将数据的取值范围分成若干区间（bin，一般是等间隔的），在

等间隔区间的，每个区间的长度称为组距（bin size）。考察数据落入每一区间的频数与频率，在每一个区间上画一个矩形，它的宽度是组距，高度可以是频数、频率或频率/组距。在高度是频率/组距的情况，每一矩形的面积恰好是数据落入区间的频率，这种直方图可以估计总体的概率密度。组距对直方图的形态有很大影响，组距太小，每组的频率较少，由于随机性的影响，邻近区间上的频数可能很大；组距太大，直方图所反映的概率密度的形态就不灵敏。得到直方图后，可以拟合某些常用的概率分布。如：

1.正态分布：

f(x)=

√

2πσ

exp

(

−(x−µ)

2σ2

)

分离度

2.指数分布：

f(x)=

σexp

(

−x−θ

)

,x>θ, 0，其他.

图3.3：数据的直方图及其拟合

直方图的制作适合于总体为连续型分布的场合。对于一般总体分布，若要估计它的总体分布函数F(x)，

可以用经验分布函数做估计。设来自总体分布F(x)的样本是x1,x2,···,x n，其次序统计量是x(1),x(2),···,x(n)，经验分布函数是：

F n(x)=

0,x<x(1),

i/n,x(i)≤x<x(i+1),i=1,···,n−1,

1,x≥x(n).

(3.15)

经验分布函数是非降的阶梯函数，在x(i)处的跃度是1/n（若x(i)重复取值k次，则跃度为k/n）。经验分布函数是总体分布函数的相合估计。因此，当n充分大时，F(x)≈F n(x).

图3.4：数据的经验分布函数

练习23利用[4]例1.12的数据做以上的数据描述性分析，包括求均值、方差、偏度、峰度、中位数、极差、上下四分位数、四分位极差、三均值、上下截断点、和以10为组距画出直方图。铅压铸件硬度数据如下：

53.070.284.355.378.563.571.453.482.567.369.573.055.785.895.451.174.454.1 77.852.469.153.564.382.755.770.587.550.772.359.5

不论是直方图还是经验分布图，要从图上鉴别样本是否近似于某种类型的分布是困难的。QQ图可以帮助我们鉴别样本的分布是否近似于某种类型的分布。在统计学

本文发布于:2024-09-22 04:02:23，感谢您对本站的认可！

本文链接：https://www.17tex.com/xueshu/367126.html

上一篇：变异系数一个衡量离散程度简单而有用的统计指标

下一篇：数学建模常见模型的解法

标签：数据分布总体

留言与评论（共有 0 条评论）