基本的统计量

简介

统计是与数据分析相关的数学领域。统计方法与方程可以应用于一组数据，用以分析与解读结果，解释数据中的变异，预测未来的数据。以下是一些我们可以计算的统计信息：

●平均的值（均值）

●一组数据中最频繁出现的数值（众数）

●平均意义上，单次量测结果与均值的偏离程度（标准误）

●一组数据中数值出现的范围（极差）

●按数值大小排列的一组数中，居于正中间的数值（中位数）

统计在工程领域中具有重要意义，它为分析所收集的数据提供工具与方法。比如，一位化学工程师想要分析一个搅拌桶的温度量测结果。统计的方法就可以用来决定：温度量测值的可靠度与再现性，在一组温度值内数值有多大变化，桶内温度将来会发生怎样的变化，以及这位工程师对量测结果有多大的信心。

此文将会涵盖基本的统计函数，包括：均值，中位数，众数，标准误，加权平均值，标准差，相关系数，Z值与P值。

什么是统计？

在统计学家的观念里，世界是由总体(populations)与样本(samples)组成的。一个“总体”的例子就是全美国的七年级学生，相对应的“样本”就是七年级学生里面的一人。在这个例子中，一位联邦健康关怀的官员想要知道七年级学生的平均体重，并且希望能与其它国家的数据相比较。遗憾的是，如果要测量全美国每一位七年级学生的体重将会耗资巨大。相反的，使用统计的方法，就可以通过测量一个样本或多个样本的体重来估计全美七年级学生的平均体重。

总体参数(parameters)对应于总休，统计量(statistic)对应于样本。

参数是总体的一个特征。如同在上述的例子中，多数情况下直接去测量总体参数是不可行的，这时就需要选取一个样本，并到样本的统计量。此统计量就可以用来估计总体参数。（有一个统计学分支被称为演绎统计学，它使用样本来推导总体的信息。）在这个例子中，总体参数就是全美七年级学生的平均体重，而样本统计量就是一组七年级学生的平均体重。

大量的统计演绎工具要求样本是单个随机样本，并且独立收集。总之，就是要统计量可以被视作随机

变量，在此不作深入分析。需要关注的是，统计量可能因为在采样过程中出现大的变异，偏差，及其它误差等而引入瑕疵。所以在进行统计分析时，要始终保持怀疑精神。

沈阳市装备制造工程学校统计量有很多不同的形式，下面是一些例子。

基本的统计量

当对一组数据进行统计分析时，均值、中位数、众数、标准差都是可以通过计算得到的有用的数值。均值、中位数、众数都可以用来估计一组数据的中点是在哪里。标准差是实际的数值与均值的平均距离。

均值(Mean)与加权平均值(weighted average)

均值的计算是由观测值的总和除以观测的次数n。尽管数值可以大于，小于，或等于均值，但是均值依然被认为是一个对预测后续数据有价值的估计值。计算均值的公式为：

(1)

在与单次量测相关的误差是相同的或未知的情况下，可以使用此公式来计算均值。否则，就要使用加权平均值，

加权平均值在计算时引入了标准差。计算公式如下：

(2)

其中：，xi 是单个数值。

中位数(Median)

中位数是包含奇数个数值的一组数据的中间的数值，或者包含偶数个数值的一组数据的中间两个数值的平均值。

众数(Mode)

一组数据的众数是指最频繁出现的数值。

考量

既然我们已经讨论过多种方式，可以用来描述一组数据，你可能想知道什么时候该用哪一种方式？如果所有的数据相对集中，平均值就会告诉你这些数据集中于哪一点。另一方向，如果大多数数据集中于某一个，或是一组数值，偶然有一些数值会明显的偏离，那么用众数来描述这一组数据就更精确，因为均值会引入这些偶然的偏离的数值。如果你对数据分布的范围感兴趣，那么中位数就是有用的，一半的数据会在中位数以上，另一半数据会在中位数以下，你就知道整个系统的中心在哪里。

标准差与标准差权重

标准差告诉我们整组数据与其均值相隔多近。如果一组数据的标准差比较小，说明这组数据相对集中；如果标准差比较大，说明这一组数据散布在一个相对较宽的数值范围内。计算标准差的公式如下：

(3)引向器

样本的标准差（方差的平方根）可以用来估计总体的真实方差。公式(3)是对总体方差的无偏估计。公式(3.1)是计算样本标准差的另一种常见方法，但是它是对总体方差的有偏估计。尽管它是有偏估计，在某些情况下，它还是有优势的。

(3.1)

当计算标准差的值与加权平均值相关时，需要使用公式(4)

(4)

抽样分布与标准误

老年人同居有啥好处总体参数服从所有类型的分布，一些是正常的，另一些是倾斜的，比如说F-分布。然而，许多统计方法，比如

Z检验，都是基于正态分布。大部分的样本数据不是正态分布的。

这里要说明一个刚接触统计推理的人常有的误解。总体参数的分布与抽样分布不是一回事。什么是抽样分布呢？

想像一位工程师正在估算一大批生产出的器械的平均重量。这位工程师称量了N个器械的重量，并计算了平均值。至此，采集了一个样本。这位工程师接下来采集了另一个样本，再一个，直至很多个，因为得到了很多个平均样本重量（假设这批被采样的器械接近无穷多个）。这位工程师因而得到了一个抽样分布。

由抽样分布的命名可以知道，抽样分布简单的说是特定总体的特定统计量（样本量是一定的）的分布。在这个例子中，统计量是器械的平均重量，样本量是N。如果这位工程师打算为平均器械重量绘制一张直方图，他就会看到一个钟形分布。这是因为中心极限定律(Central Limit Theorem) 确保了，随着样本量接近无穷大，由样本所计算的统计量的抽样分布接近于正态分布。

样本的标准差与抽样分布的标准差之间存在一种关系，抽样分布的标准差又被称作均值的标准差或者是标准误。这种关系如下：

(5)

标准误的一个重要特性是，它与样本量相关。随着样本量增加，样本标准差不会明显变化，而标准误却随之变小。

例子

假设你得到了以下数据{1,2,2,3,5}，并期望用基本的统计方法对它们进行分析。

计算平均值：数一数总共有多少个数据点：n = 5

计算众数：观察这组数据，你就会发现其中有两个2，而其它的数值都没有出现多次。所以众数就是2。

计算中位数：我们已经知道总的数据个数n = 5，所以这组数据按长升序或降序排列时，第3个数值就是中位数。这组数据已经是按升序排列，其第3个数值是2，所以中位数就是2。

计算标准差：

加权计算的例子

密歇根大学的同学们多次测量了同一个工艺控制课程的出勤率。三位同学的结果分别如下：

学生1：A = 100 ± 3

学生2：A = 105 ± 4

广东药学院学报

学生3：A = 102 ± 2

出勤率最准确的估计值是多少呢？

, , ,

因此,

A = 101.92 ± .65

高斯分布

高斯分布，也被称作正态分布，它的概率密度函数(probability density function)为：

这里μ是均值，σ是一个非常大的数据组的标准差。高斯分布是一个钟形曲线，以均值为对称中线。下面是一个高斯分布的例子：电视剧双城记

在这个例子中，均值为10，标准差为2。

耐热钢焊接概率密度函数表示的是数据的散布情况。对此函数在区间[x , x + a]求积分，是值x落在范围a内的可能性。概率密度函数的全积分是1。

误差函数

高斯分布也可以用误差函数来估算，如下面等式：

“erf(t)” 就是误差函数。下图显示了数值落在均值左右t倍标准差范围内的概率。

举例来说，如果你想知道一个点落在均值附近两倍标准差的概率，通过上图你就可以简单的到其概率为

95.4%。上图对于快速查相应概率。