统计学概念术语解释4

9.1 直线相关

9.1.1 直线相关概念

当所研究的两个事物或现象之间，既存在着密切的数量关系，又不象函数关系那样，能以一个变量的数值精确地求出另一个变量的数值，我们称这类变量之间的关系称为相关关系。直线相关分析目的是两个变量间是否有协同变化的关系，变化的趋势，变化的密切程度和方向。

直线相关的性质可由散点图(scatter diagram)直观地说明。通常以自变量(independent variable)X为横坐标，应变量(dependent variable)Y为纵坐标，在方格坐标中，每对变量值(X、Y)的交叉点处，描出一个点，就成为散点图。从散点图上可以粗略地看出，两个变量间相关的方向和密切程度以及两变量间是否呈直线关系。

例9-1 某医师研究某种代乳粉营养价值时，用大白鼠做实验，得大白鼠进食量与体重增加量的资料(表9-1)。

表9-1 大白鼠进食量与体重增加量的关系

编号	1	2	3	4	5	6
进食量(g)	800	780	720	867	690	787
增加量(g)	185	158	130	180	134	167

编号	7	8	9	10	11	12
进食量(g)	934	750	820	679	639	820
增加量(g)	186	133	165	145	120	150

图9-1大白鼠进食量与体重增加量的散点图

从例9-1资料的散点图上可看出，当X变量（进食量）增大时，Y变量（增加量）也相应增大，并且这种变化成线性趋势，也就是说X与Y变量间有直线相关关系。直线相关（linear correlation）又称简单相关(simple correlation)。根据其表现形态又可分为正相关和负相关。

图9-2(a)中，两变量的散点呈椭圆形分布，变化趋势同向，为正相关（positive correlation）,0< r<1；

图9-2(b)中，两变量之散点在一条直线上，即X与Y有函数关系，为完全正相关(perfect positive correlation)r=1；

图9-2(c)表示两变量的变化趋势反向，为负相关（negative correlation）；-1<r<0

图9-2(d)中两变量之散点亦在一条直线上，但趋势反向，为完全负相关(perfect negative correlation),r=-1；

图9-2(e)中散点呈圆形分布，无趋势，故X和Y无相关关系r=0；

图9-2(f)中散点分布平行于X轴，表示X增加或减少时，Y的取值范围并没有变化，故X和Y无相关关系r=0；

图9-2(g)中散点呈很规则的抛物线形，表示X和Y间有非线性的相关关系，但相应的r=0，这是因为，r所表示的仅仅是线性关系；

图9-2(h)与图9-2(f)相似，Y增加或减少时，X的取值范围并没有变化，故两者无相关关系。

在直线相关中，用直线相关系数r来描述两个变量间直线相关的方向和密切程度。

图9-2 相关系数示意

9.1直线相关

9.1.2 相关系数的计算与检验

(一) 相关系数的意义

相关系数（correlation coefficient ）又称为积差相关系数（coefficient of product-moment correlation），以符号r表示。它是说明具有线性关系在两个变量间，相关关系的密切程度和方向的指标。样本相关系数用符号r表示，总体相关系数用希腊字母ρ（读作rho）表示，计算公式为：

（9-1）

式中、分别为X、Y的均数；lXX为X的离均差平方和，lYY为Y的离均差平方和，lXY为X与Y离均差积和，其计算公式分别为：

（9-2）

（9-3）

（9-4）

（二）计算相关系数

例9-2　现仍用例9-1的资料，试分析大白鼠进食量与体重增加量之间有无直线相关关系？

1．作散点图，判断是否有线性趋势。从图9-1可知，两变量有线性趋势，成正相关。

2．列相关系数计算表（表），求基础数据、、、、，再计算X、Y

的均数、，X和Y的离均差平方和lXX、、lYY，X与Y离均差积和lXY。

表10-2 相关系数计算表

编号	进食量X(g)	增加量Y(g)	X2	Y2	XY
1	800	185	640000	34225	148000
2	780	158	608400	24964	123240
3	720	130	518400	16900	93600
4	867	180	751689	32400	156060
5	690	134	476100	17956	92460
6	787	167	619369	27889	131429
7	934	186	872356	34596	173724
8	754	133	562500	17689	99750
9	820	165	672400	27225	135300
10	679	145	641041	21025	98455
11	639	120	408321	14400	76680
12	820	150	672400	22500	123000
合计	9286	1853	7262976	291769	1451698

lxx= 7262976－(9286)2/12=77159.67

lyy= 291769－(1853)2/12=5634.92

lxy=

=1451698－(9286×1853)/12=17784.83

3．按公式9-1得相关系数 r

　（三）相关系数的假设检验

上面所求得的相关系数r是样本相关系数，它是总体相关系数ρ的估计值。和其他统计量一样，根据样本资料计算出来的相关系数也有抽样误差。在ρ＝0的总体中随机抽样，由于抽样误差的影响，所得r值常不等于零。因此，在计算得到相关系数后，还不能根据的大小对X、Y间是否有相关关系作判断，而应进行r是否来自ρ＝0的假设检验。相关系数的假设检验可用两种方法。

①t检验法.

H0：ρ=0 大鼠的进食量与体重增重之间无直线相关关系

H1：ρ≠0大鼠的进食量与体重增重之间有直线相关关系 α＝0.05

（9-5）

在本例中，r=0.8529，n=12，代入公式，得

查t界值表，得P<0.01，故可认为大白鼠进食量与体重增加量之间呈正相关。

②直接查表法相关系数的假设检验亦可按υ＝n－2，直接查相关系数r界值表（附表），当＜rα(υ)时，P＞α；当 ≥rα(υ)时，P≤α。本例r＝0.8529，按υ＝n－2＝12－2＝10，查r界值表，r0.01(10)=0.708，因r＞ r0.01(10)，故P＜0.01。

9.2 直线回归

9.2.1 直线回归的概念

直线回归(linear regression)是处理两变量(其中至少有一个是随机变量)间线性依存关系的一种统计分析方法。

与相关分析不同，回归分析中两变量的地位是不相同的，通常把一个变量称为自变量(independent variable)，用X表示；另一个变量称为应变量(response variable)，用Y表示。由图9-1可见，增加量Y有随进食量X的增加而增加的趋势，但并非12个点子恰好全都在一条直线上，而是散点图的带状分布有线性趋势。这与两变量间严格对应的函数关系不同，称为直线回归。直线回归分析在于出两个变量有依存关系的直线方程，以确定一条能代表这些数据关系的、最接近各实测点的直线，使各实测点的与该线的纵向距离的平方和为最小。为了区别于一般的函数方程，我们称之为直线回归方程，直线回归是回归分析中最基本、最简单的一种，故又称简单回归(simple regrssion)。

9.2.2 回归方程的建立与图示

直线回归方程的一般表达式为：

(9-6)

式中X为自变量， (读作Y hat)为应变量Y的估计值亦称回归值。a、b是决定回归直线的两个参数。a是回归直线在Y轴上的截距(intercept)，即X=0时的值；b为回归系数(regression coefficient)，即直线的斜率(slope)。b>0，表示直线从左下方走向右上方，即Y随X的增大而增大；b<0，表示直线从左上方走向右下方，即Y随X的增大而减少；b=0，表示回归直线与X轴平行，或随X改变无增减变化。

求回归方程的关键是要求a和b的值，根据数学上的最小二乘法(least square method)原理，使各实测值Y与回归直线上对应的估计值之差的平方和为最小，可导出a、b的最小二乘法估计(least square estimation)如下：

(9-7)

(9-8)

式中、、lXX、lXY同前。

例9-3 现仍用例9-1的资料，试分析大白鼠进食量与体重增加量的关系试作直线回归分析。

1．与相关分析一样，进行回归分析前要先作散点图，以判断两变量间是否线性趋势。由图9-1可见，大白鼠进食量与体重增加量间有线性趋势。

2．求直线回归方程。在例9-2中、，lXX、、lXY已经算得。按公式9-7，9-8求回归系数b及截距a。

b =

a =

由此，可列出直线回归方程：

3．绘制回归直线。在自变量X的实测范围内任取相距较远且易读的两个X 值，代入直线回归方程求得两点( 坐标，过这两点作直线即为所求回归直线。本例取X1=750，得；X1=850，得。所得直线见图9-3。

注意：所作回归直线一般不宜超过样本的自变量取值范围，因为回归直线是依据样本建立的，在样本的自变量取值范围外，两变量间的关系是否仍然是直线关系，尚不清楚。因此应该避免直线外延。本例应不超过186g。

图9-3 大白鼠进食量与体重增加量的关系

9.2 直线回归

9.2.3 回归系数的假设检验

1 回归系数假设检验的意义

前面所求得的回归方程是否能表达X、Y存在直线关系，这是回归分析首要考虑的问题。我们知道，即使X、Y的总体回归系数β为零（总体并不存在回归关系），由于存在抽样误差，其样本回归系数b也不一定为零。因此，当用样本求得不等于零的回归系数b后，我们还不能立即认为β≠0，即X与Y间存在回归关系，必须考虑回归系数的抽样误差问题，因此需对β是否为零进行假设，可用按Y服从正态分布的假定，回归系数的假设可用方差分析或t检验。

2 应变量总变异的分解

在进行假设检验之前，我们先对应变量y的离均差平方和lYY作一分析。

绘制应变量Y的平方和划分示意图(图9-4)，图中P点的纵坐标被回归直线与均数截成三个线段。

第一段(Y－ )，表示P点与回归直线的纵向距离，即实测值Y与之差，称为剩余或残差。

第二段( － )，即估计值与均数之差，它与回归系数的大小有关。越大，( － )差值越大，反之亦

然。

第三段是应变量Y的均数。

上述三线段的代数和为：Y= +( － )+(Y－ )

即，Y－ =( － )+(Y－ )

这里的P点是散点图中任取的一点，将全部点子都按上述处理，并将等式两边平方后再求和，则有：

上述用符号表示：

SS总=SS回+SS剩 (9-9)

式中，SS总即，为Y的离均差平方和lYY，又称总平方和(total sum of square)，它说明未考虑X与

Y的回归关系时y的变异。

SS回即，为回归平方和(regression sum of square )，它是反映在Y的总变异中由于X与Y的直线关

系而使Y变异减小的部分，也就是在总平方和中可以用X解释的部分。SS回越大，说明回归效果越好。

SS剩即，为剩余平方和(residual sum of square)，亦称为残差平方和。它反映X对Y的线性影响之外

的一切因素对Y变异的作用，也就是在总平方和中无法用X解释的部分。在散点图中，各实测点离回归直线越

近，也就越小，说明直线回归的估计误差越小。

上述三个平方和，各有其相应的自由度υ，并有如下关系：

υ总=υ回+υ剩

υ总=n－1，υ回=1，υ剩=n－2 (9-10)

式中n为样本例数。

SS总(即lYY)的计算前已叙述，SS回和SS剩的计算如下：

SS回=b blXY (9-11)

SS剩= SS杭州市城市总体规划总－SS回

3 回归系数的t检验和方差分析

(1) t检验

检验假设为：

H0：总体回归系数β=0，即大白鼠进食量与体重增加量间无回归关系。

H1：总体回归系数β≠0，即大白鼠进食量与体重增加量间有回归关系。

α=0.05。

(9-12)

式中Sb为样本回归系数的标准误：

(9-13)

Sy.x为剩余标准差(standard deviation regression)，亦称标准估计误差(standard error estimation)。

(9-14)

(9-15)

本例：

υ=12－2=10

查t界值表，t0.001(10)=4.587， > t0.001(10) ，P<0.001，按α=0.05水准，拒绝H0，接受H1，认为在某代乳粉营养价值试验中，大白鼠进食量与体重增加量之间存在直线回归关系，即所拟合的样本直线回归方程有意义。

(2) 方差分析

回归的假设检验还可以用方差分析，且了解此方差分析方法，将有助于理解多元回归及多元逐步回归。这里方差分析的基本思想是：将SS总分解为SS回与SS剩两部分，然后按公式9-16计算检验统计量F值。

υ回=1，υ剩=n-2 (9-16)

H0、H1、α同上。

将有关数值列成方差分析表，如表9-4。

表9-4 方差分析表

变异来源	SS	υ	MS	F
总变异	5634.92	11
回归	4099.40	1	4099.40	26.7010
剩余	1535.32	10	153.53	P<0.001

以υ1=1，υ2=10，查F界值表，得P<0.001，按α=0.05水准，拒绝H0，接受H1，认为在某代乳粉营养价值试验中，大白鼠进食量与体重增加量之间存在直线回归关系，即所拟合的样本直线回归方程有意义，结论同t检验。

读者不难验证在直线回归中，下面关系式成立：

说明在直线相关与直线回归中，相关系数r的t检验、回归系数的t检验与回归方程的方差分析是等价的。

9.2 直线回归

9.2.3 直线回归的区间估计

1. 总体回归系数的区间估计

估计公式：（）

其中，b为样本回归系数，Sb回归系数的标准误。

例9.3 试用例9.2所计算的样本回归系数0.2305估计总体回归系数的95%可信区间。

由例9.2已算得Sb=0.0446,υ=12-2=10,查t界值表得t0.05(10)=1.228.按上式计算可信区间为：

（0.2305-2.228×0.0446, 0.2305+2.228×0.0446）=（0.1311，0.3299）

2. 总体条件均数的区间估计

条件均数是只当X取定值X0时Y的均数，X0代入回归方程得到的是样本条件均数，对总体条件均数 (也可用μY|X表示)的估计可计算其可信区间。其标准误为：

其1-α可信区间可由下式计算。

例9.4 用例9.2所求直线回归方程，计算当X0=750时, 的95%可信区间

X=750代入回归方程,得

SY.X＝12.3921

LXX=77159.67 计算得到

t0.05(10)=1.228

（148.9278-2.228×3.7321, 148.9278-2.228×3.7321）=（140.6113，157.2443）

3. 观察值Y的条件容许区间估计

总体中当只当X取定值X0时，个体Y值的波动，其标准差为

X取定值X0时观察值的1-α的容许区间按下式计算

例9.5 用例9.2所求直线回归方程，计算当X0=750时,Y的95%容许区间.

。X=750代入回归方程,得

SY.X＝12.3921

LXX=77159.67 计算得到

t0.05(10)=2.228

（148.9278-2.228×12.9418, 148.9278-2.228×12.9418）=（120.0935，177.7621）

9.2.4 回归方程的应用

1．描述两变量间的依存关系通过回归系数的假设检验，若认为两变量间存在着直线回归关系，则可用直线回归方程来描述两变量间的依存关系。如由例9-3 算得的回归方程就是大白鼠进食量与体重增加量之间的定量表达式。

2.利用回归方程进行预测(forecast) 这是回归方程的一个重要的应用。所谓预测就是把预报因子(自变量X)代入回归方程对预报量(应变量Y)进行估计，其波动范围可按求y值容许区间的方法计算。

例9-5　某防疫站根据10年来乙脑发病率(1/10万，预报量y)与相应前一年7月份日照时间(小时，预报因子X)建立回归方程，将乙脑发病率作平方根反正弦变换，即，求得回归方程， Sy.x=0.0223, =237.43, lxx =5690，n=10，已知1990年7月份日照时间X =260小时，估计1991年该地的乙脑发病率(设α=0.05)。

y值的1-α容许区间可按下式计算

，可简写成

(9-17)

(9-18)

本例

按α=0.05，υ=10-2=8，查t界值表得t 0.05(8)=2.306，又 =-1.197+0.0068×260=0.571，按公式（9-17），95%容许区间为

(0.571-2.306×0.0243，0.571+2.306×0.0243)=(0.5150，0.6270)，取原函数，y=(sinY)2, 得95%容许区间为(0.0000808，0.0001197)。

故可预测该地1991年乙脑发病率有95%的可能在8.08~11.97/10万之间。

3. 利用回归方程进行统计控制统计控制是利用回归方程进行逆估计，如果要求应变量Y在一定范围内波动，可以通过控制自变量X的取值来实现。

例9-6 某医师以20例糖尿病病人研究血糖水平(mmol/L)与胰岛素(mu/L)的关系，建立了血糖(Y)与胰岛素(X)的回归方程为 =18.965-0.463X，剩余标准差SY.X=1.672。现欲使某糖尿病病人的血糖保持在正常范围上限6.72mmol/L附近，问应将患者血中的胰岛素控制在什么水平上?

取95%的控制水准，按公式（9-17），以SY.X代替SY，将6.72作为单侧预测区间的95%的上限，则有：

6.72= +单侧t0.05(18)Sy.x

已知Sy.x=1.672，查t界值表得：单侧t0.05(18)=1.734，则：

6.72=(18.965-0.463X)+1.734×1.672=21.864-0.463X

解方程得X=32.71。即只要把胰岛素水平控制在32.71mu/L以上，就有95%可能使血糖不超过正常范围上限6.72mmol/L。

9.3 直线相关与回归应用时的注意问题

9.3.1 直线相关与回归的区别与联系

1．区别：

(1) 在资料要求上，如果X可以精确测量和严格控制，回归只要求应变量Y作为随机变量且服从正态分布，此种回归属于Ⅰ型回归；如果X和Y需要相互推断，则要求X、Y为随机变量且都要服从双变量正态分布，此资料类型属于Ⅱ型回归。可以计算两个回归方程：由X推Y的回归方程；由Y推X的回归方程；

而相关分析要求资料服从双正态分布。

(2)在应用上，相关分析用于说明两变量间的相互关系，描述两变量X、Y相互之间呈线型关系的密切程度和方向；回归分析用于说明两变量间的依存关系，可以用一个变量的数值推算另一个变量的数值。

2．联系：

(1)正负符号：在同一资料中，计算r与b值的符号应该相同。

(2)假设检验：在同一资料中，r与b值的假设检验的统计量t值相等，即 tr=tb。

(3)r与b换算关系如下：b= 。在Ⅱ型回归中：

(4)用回归解释相关：相关系数r的平方称为决定系数，也称为相关指数。公式为：

其值在0-1之间。决定系数表示Y的变异中可由X解释的部分占总变异的比例。因此r2越接近于1，说明应用相关分析的意义越大，即贡献越大；相反的意义亦成立。

9.3.2 设计与应用直线相关与回归的注意事项

1．作相关与回归分析要有实际意义。不要把毫无关联的两个事物或现象用作相关、回归分析，如儿童身高的增长与小树的增长，作相关分析是没有实际意义的；如果计算由儿童身高推算小树高的回归方程，更无实际意义。又如，事先不管两个变量间是否相关，只凭散点图上一些杂乱的散点来配一条回归直线，也是毫无意义的。

2．对相关分析的作用要正确理解。相关分析只是以相关系数来描述两个变量间直线关系的密切程度和方向，并不能阐明两事物或现象间存在联系的本质；即使存在相关关系，也并不能证明是因果关系。事物间的内在联系尚未被认识时，可根据相关分析的数量关系给理论研究提供线索。但是要证明两事物间的内在联系，必须凭借专业知识从理论上加以阐明。

3．相关和回归都是分析两变量间关系的统计方法。相关表示相互关系，回归表示从属关系。在相关分析和回归分析前都必须先作散点图，以判断两变量间的关系是否为线性趋势，有无离点等。

4．积差和法相关与等级相关。积差和法相关计算相关系数r适用于双正态分布资料；当资料明显呈偏态分布或者原始资料只能用等级划分或难以判定资料属何种分布的，宜按等级相关处理。（见非参数统计一章）。

5．回归系数的统计学意义。不能仅根据回归系数假设检验之P值判断回归效果的优劣，因P值除与回归系数的大小有关外，还与样本含量有关。对于判断大样本回归系数的统计学意义尤其要谨慎。要想说明回归的贡献大小，需用决定系数r2作定量的度量。

6．回归方程的使用范围为自变量X原观察数据的范围；而不能随意外推，因为我们并不知道在这些观察值的范围之外，两变量间是否也存在同样的直线关系。

复习思考题

简答题：

1. 相关与回归的联系与区别？

2. 应用直线回归和相关分析应注意哪些问题？

3. 举例说明如何用直线回归方程进行预测和控制？

4. 进行回归分析时怎样确定自变量和应变量？

5. 剩余标准差的意义与用途？

6. 某资料的x与y的相关系数r=0.8，可否认为X与Y有较密切的相关关系？

选择题:

1.|r|>r0.05(v)时，可认为两变量之间：

A．有一定关系Ｂ．有正相关关系

C．大豆糖蜜有直线关系 D．一定有直线关系

2．相关系数假设检验的无效假设为:

A．r来自ρ=0的总体Ｂ．r有高度相关性

C．r来自ρ≠0的总体 D．r来自ρ>0的总体

3．Syx 和 Sb 分别表示：

A． Y的离散程度和b的抽样误差 B. Y对Y的离散程度和标准估计

C.Y和X的离散程度和b的抽样误差 D. Y对Y的离散程度和b的抽样误差

4.下列式可出现负值。

A B

C D

5． =14+4X 是1-7岁儿童以年龄（岁）估计体重（市斤）的回归方程，若体重换算成国际单位千克，则此方程式有：

A 截距改变 B 回归系数改变C 两者都有改变 D 两者都不改变

6.用最小二乘法确定直线回归方程的原则是各实测点

A距直线的纵向距离相等 B距直线的垂直距离相等

C 距直线的纵向距离的平方和最小 D距直线的垂直距离的平方和最小

7.已知r=1，则一定有

A b=1 B a=1 C Syx =0 D F=0

8.直线回归分析中，当x一定时，y值的波动范围愈大，则愈大。

A B C D

计算分析题:

.某监测站拟用极谱法( )替代碘量法(mg/l)来测定水中溶解氧含量。今对13个水样同时用两种方法测定，结果如下，请进行相关回归分析。

编号	极谱法	碘量法
1	5.3	5.84
2	4.8	5.00
3	5.3	5.85
4	5.2	5.80
5	2.1	0.33
6	3.0	1.96
7	3.3	2.27
8	2.8	1.58
9	3.4	2.32
10	2.3	0.76
11	6.8	7.79
12	6.3	7.56
13	6.5	7.98

查看答案

简答题

1. 查看内容9.3.1

2. 查看内容9.3.2

3. 查看内容9.2.3

4. 回归分析中自变量一般为原因，预测因子，因变量一般为结果，预报量。例如，身高是体重的重要决定因素，回归分析中以身高作为自变量，体重作为因变量。再如在临床诊断中一般自变量为易测量的指标，因变量为不易测量的，有创伤的，昂贵的测量指标，这样通过建立两类指标的回归方程可以通过自变量指标来预测因变量指标的可能范围。

5. 剩余标准差，亦程标准估计误差。是在扣除自变量的影响后因变量的变异程度。可用于衡量回归方程估计的精度。

6.不能.相关系数r=0.8只是样本相关系数,不能得出对两变量总体的相关关系确认，必须通过相关系数的假设检验。其检验假设为ρ=0。当检验结论拒绝H0时方可根据较大的相关系数（0.8）认为两变量存在较密切的相关关系。

选择题：

1.C2.A3.C4.D5.C6.C7.C8.D

计算分析题:

解：直线相关分析

r=0.99759

假设检验A．r来自的总体Ｂ．r有高度相关性

C．r来自的总体 D．r来自ρ>0的总体

H0：ρ=0 两种方法的测量值有直线相关关系

H1：ρ≠0两种方法的测量值无直线相关关系 α＝0.05

tr=|r|/{√(1-r2)/(n-2)}=67.49 v=11

P<0.0001,拒绝H0,接受H1,两种方法的测量值有直线相关关系。

直线回归分析

回归方程为：Yhat=-3.16425+1.68433x

假设检验

H0：β=0 两种方法的测量值无直线相关关系

H1：β≠0两种方法的测量值有直线相关关系 α＝0.05

方差分析法F=2277.63p<0.0001

t 检验法 t=47.72

p<0.0001, P<0.0001,拒绝H0,接受H1,两种方法的测量值有直线回归关系。

前面几章介绍的医用统计方法，只对单因素或最多两个因素（如直线回归、两因素方差分析等）的关系进行研究。这种研究方法，在实验设计方面，要求除所研究的因素外，其他因素都应具有均衡和可比性。然而，影响人的生理、病理变化和疾病发生发展过程的因素很多。如心血管疾病的发生与年龄、工种、饮食习惯、精神状态等都有关系。这些因素间可能互相有联系。如果用单因素分析方法处理，只能孤立地、局部地反映各个因素对疾病的影响。为此，应考虑多因素和多指标问题的统计分析方法。这些统计方法在医学研究中能较全面地、整体地反映多个因素对人的生理、病理变化和对疾病发生发展的影响，并能分析各因素间的交互作用。近年来，随着电子计算机及软件的普及，多因素分析方法已在医学研究的病因分析、疾病辅助诊断和疾病的预测等方面都有广泛的应用。本章仅介绍多元线性回归分析。

10.1 多元线性回归的意义

直线回归是描述一个因变量Y(如儿童的体重)与一个自变量X(如儿童的年龄)间的线性依存关系。当影响因素Y变化的因素不止一个时，要进一步研究一个因变量与多个自变量X1,X2,…,Xm间的线性依存关系，则称为多元线性回归（multiple linear regression）。其一般形式为：

= b0+b1X1+b2X2+……+bmXm

其中是因变量Y的估计值，X1,X2,…,Xm是自变量，m是自变量个数，b0为回归方程的常数项，bi是自变量Xi的偏回归系数，它表示在其他自变量固定的条件下，自变量Xi改变一个单位时，因变量Y的改变量。

多元线性回归模型应满足：（LINE）

Y与X1，X2，。。。，Xm之间具有线性关系

各个观测结果Yi相互独立

残差e服从均数为0，方差为σ2的正态分布

等方差性：任一组自变量X1，X2，。。。，Xm值，应变量Y具有相同方差。

10.2 求多元线性回归方程的基本步骤

例10．1 表10.1是27名糖尿病人的血清总胆固醇、甘油三酯、空腹胰岛素、糖化血红蛋白、空腹血糖的测量值，试建立血糖与其它几项指标关系的多元线性回归方程。

计算步骤：

（1）计算各自变量和因变量的和、平方和、离均差平方和及离均差积和

离均差积和：

lij= ; lij=lji

liy= ; liy=lyi

当i=j时，即为离均差平方和

表10.1 27名糖尿病人的血糖及有关变量的测量结果

病人编号 i	总胆固醇 X1(mmol/L)	甘油三酯 X2(mmol/L)	胰岛素 X3(μU/ml)	糖化血红蛋白 X4（%）	血糖 Y（mmol/L）
1	5.68	1.90	4.53	8.2	11.2
2	3.79	1.64	7.32	6.9	8.8
3	6.02	3.56	6.95	10.8	12.3
4	4.85	1.07	5.88	8.3	11.6
5	4.60	2.32	4.05	7.5	13.4
6	6.05	0.64	1.42	13.6	18.3
7	4.90	8.50	12.60	8.5	11.1
8	7.08	3.00	6.75	11.5	12.1
9	3.85	2.11	16.28	7.9	9.6
10	4.65	0.63	6.59	7.1	8.4
11	4.59	中国饮食文化的发展1.97	3.61	8.7	9.3
12	4.29	1.97	6.61	7.8	10.6
13	7.97	1.93	7.57	9.9	8.4
14	6.19	1.18	1.42	6.9	9.6
15	6.13	2.06	10.35	10.5	10.9
16	5.71	1.78	8.53	8.0	10.1
17	6.40	2.40	4.53	10.3	14.8
18	6.06	3.67	12.79	7.1	9.1
19	5.09	1.03	2.53	8.9	10.8
20	6.13	1.71	5.28	9.9	10.2
21	5.78	3.36	2.96	8.0	13.6
22	5.43	1.13	4.31	11.3	14.9
23	6.50	6.21	3.47	12.3	16.0
24	7.98	7.92	3.37	9.8	13.2
25	11.54	10.89	1.20	10.5	20.0
26	5.84	0.92	8.61	6.4	13.3
27	3.84	1.20	6.45	9.6	10.4

（2）建立正规方程，并解正规方程

正规方程是根据最小二乘法原理求解偏导数得到的

l11b1+l12b2+ l13b3+l14b4=l1Y

l21b1+l22b2 +l23b3+l24b4=l2Y

l31b1+l32b2+ l33b3+l34b4=l3Y

l41b1+l42b2 +l43b3+l44b4=l4Y

本例为：

66.0103b1+67.3608b2-53.9523 b3+31.3687 b4=67.6962

67.3608b1+172.3648b2-9.4929 b3+26.7286b4 =89.8025

-53.9523b1-9.4929b2+350.3106 b3-57.3863 b4= -142.4347

31.3687b1+26.7286b2-57.3863 b3+86.4407 b4=84.5570

以上解可通过计算机软件实现。

（3）建立多元线性回归方程，先求b0

b0= — b1 — b2 — b3 — b4 = 5.9433

= 5.9433+0.1424X1+0.3515X2-0.2706 X3+0.6382 X4

偏回归系数b1说明总胆固醇含量每升高1mmol/L，血糖浓度升高0.1424mmol/L;胰岛素每升高1μU/ml，血糖浓度降低0.2706mmol/L；依次类推。

10.3 多元线性回归方程的假设检验

1 回归方程的假设检验

用方差分析法，同简单直线回归

这里R为R2=SS回/SS总的开方，称复相关系数

2 各自变量的假设检验

（1）偏回归平方和法

某一自变量Xj的偏回归平方和是指模型中剔除该变量引起模型回归平方和减少的量或引进该变量使原有模型的回归平方和增加的量。见表10.2

表10.2 回归分析部分中间结果

方程中变量	方程外变量	偏回归平方和 SS回（Xj）	平方和
方程中变量	方程外变量	偏回归平方和 SS回（Xj）	SS回	SS剩
X1，X2，X3，X4			133.7107	88.8412
X2，X3，X4	X1	133.7107-133.0978=0.6129	133.0978	89.4540
X1， X3，X4	X2	133.7107-121.7480=11.9627	121.7480	100.8038
X1，X2， X4	X3	133.7107-113.6472=20.0635	113.6472	108.9047
X1，X2，X3	X4	133.7107-105.9168=27.7939	105.9168	116.6351

自变量Xj的偏回归平方和的检验

H0：βj=0 H1:βj≠0

检验公式：Fj=[SS回(Xj)/1]/[SS剩/(n-m-1)]

本例F1=[0.6129/1]/[88.8412/(27-4-1)]=0.152，F2=2.962，F3=4.968，F4=6.883

F0.05(1,22)=4.30

结论为胰岛素（X3）与糖化血红蛋白（X4）与血糖Y有线性回归关系，且从偏回归平方和看糖化血红蛋白的回归贡献更大些。

（2） t检验

该检验同简单线性回归假设检验中的t检验

（3）标准化偏回归系数

由于各个自变量的单位不同，因此不能仅从求得的偏回归系数大小来衡量某一自变量对因变量的影响大小，需要对各个自变量的测得值进行标准化，即

由这些新的观察值进行回归分析得到的偏回归系数称为标准偏回归系数，各自变量标准偏回归系数可以进行排队，如本例4个自变量的标准偏回归系数依次为0.0776,0.3093,-0.3395,0.3977可以说对血糖影响大小的顺序依次为糖化血红蛋白（X4）、胰岛素（X3）、甘油三酯（X2）、和总胆固醇（X1）

10.4 变量的筛选

多元线性回归分析中，常常通过专业知识或实践经验去挑选那些对因变量有影响的自变量与因变量Y建立回归方程。但是，所选择的自变量间可能彼此有联系，以致于有些自变量单独的看，对因变量有作用；而与另一些自变量组合在一起时，在回归方程中对因变量所起的作用，却会被其它的自变量所代替。那么，要从为数众多的因素中选择自变量，以建立效果最优的回归方程，只能从m个自变量所有组合所建立的2m-1个方程挑选出最好的一个，显然当m很大时，这种选择方法是不可取的，为此，统计中常用方法之一是逐步选择法。

计算思路

引入：

剔除：

引入、剔除：

10.5 应用

1 可以描述某些自变量与某一因变量间的数量关系；

2 分析某些因素对疾病发生、发展及预后的影响程度。

练习题

1为什么要作多变量分析？

答：医学研究中许多疾病都有多种原因，而且预后是由多种因素决定的。即使对那些忆知是由单一病原体导致的感染性疾病，也有许多因素影响易感个体是否发病，如遗传特征、感染途径及程度、自身免疫力等。由于各因素间往往相互联系，多变量回归分析可以帮助我们分析变量间的数量依存关系，出危险因素的多面性本质，以及它们对结果变量的相对作用大小。同时多变量回归还可以在医学干预研究中，对混杂因素进行校正。

2你认为在逐步选择法中哪种方法更好些？

答：回归方程中引入什么变量，理想的做法是由研究者根据理论和经验决定，在缺乏专业依据的情况下，可以采用回归筛选技术。在自变量数目较多的情况下可选择逐步选择法。在前进法、后退法和逐步回归法三种方法中，相比较而言后退法考虑了变量的组合作用，理论上更好些，但变量数目不能太多，而逐步回归法适合多种情况，更实用一些。

美丽的传统的耶稣降生的故事开头的诗句：在这些日子里，奥古斯塔斯大帝颁诏书，全世界人民须纳税。为了这次纳税登记，jensus and mary去bethlehem,耶稣就是在哪里降生的。

以列人出埃及地后，第二年二月初一，耶和华在西乃的旷野，会幕中晓谕摩西说，你要按以列全会众的家室，宗族，人名的数目计算所有的男丁。凡以列中，从二十岁以外能出去打仗的，你和亚伦要照他们的军队数点。新旧约全书，南京，1982

以上叙述大约在公元前1500年。人口调查的目的是为征兵和纳税提供基本数据。公元前三千年中国和埃及都已进行过人口调查。十六世纪早叶，伦敦出现死亡公报。死于瘟疫受洗礼的人十六世纪末，死于其他疾病的数据。由此可以看到，包含了出生,疾病，死亡等的生命统计是统计学比较古老的渊源之一。

11.1 医学人口统计常用指标

静态人口统计即人口数和年龄性别等构成

动态人口统计出生，死亡

11.1.1 医学人口统计资料的来源

1. 人口普查census

对一个国家或一定地区内的全部人口，在特定时点上，进行调查以及资料整理和公布的全过程。它是在一国政府主持下，在国家规定的统一时间内，用统一的方法，统一的项目，对标准时点上的全体人口状况进行的专门的全面调查。

① 方法：

实际制：采用一年的中点即七月一日零时为标准时刻，统计全国实际存在的人数，包括临时

在该地居住的人；

法定制：统计常住人口。

普查一般都是由政府主持，通常每5～10年进行一次。我国在53、64、82、90和00进行了五次人口普查。

② 意义：

提供最基本的人口数据和社会经济方面的资料，是计算人口学和社会经济学指标的基础；同时为卫生部门提供出生、死亡和生育等情况信息。

2. 人口抽样调查

按随机原则从被研究的人口中抽选一部分单位作为样本进行调查，并根据调查所得资料，推断全部人口相应各项指标值的一种非全面调查。人口抽样调查的方式主要有纯随机抽样、机械随机抽样、分类随机抽样和整随机抽样等。

没有普查的年份里，一般用人口抽样调查来获取人口及社会经济资料；用于普查的质量控制和误差估计可以用抽样复查的方法。

3. 人口登记

① 生命事件登记简称生命登记，指对生命事件包括出生、死亡、胎儿死亡、结婚、离婚、收养、生育、认领、离弃等的法定登记，记录和报告生命事件的发生，收集、整理和分析生命事件的有关资料。

对出生后死亡的婴儿要登记一次出生、一次死亡。

② 人口迁移变动登记包括国内和国际迁移。

③ 户口登记我国和少数几个国家采用

1 6.1.2 人口数与人口构成-静态统计

1. 人口总数

年平均人口数用

① 年初（上年末）人口与年末人口的均数 12.31；

② 年中人口数某年7.1零时。

2. 人口构成及其分析指标

① 基本人口学特征性别、年龄、文化、职业等特征。

② 人口年龄构成指标

a. 人口系数

ⅰ老年人口系数：

老年人口系数＝	65岁及以上人口数	×100%
老年人口系数＝	人口总数	×100%

ⅱ少年儿童系数

少年儿童系数＝	14岁及以下人口数	×100%
少年儿童系数＝	人口总数	×100%

b.负担系数：burden coefficient又称抚养比或抚养系数，人口中非劳动年龄人数与劳动年龄人数之比。劳动年龄指15～64岁；分总负担系数、老年负担系数和儿童负担系数三类

总负担系数＝	14岁及以下人口数＋65岁及以上人口数	×100%
总负担系数＝	15~64岁人口数	×100%

c.老少比：65岁及以上人口数： 14岁及以下人口数

③ 性别比 sex ratio 包括：出生婴儿性别比、年龄别性别比、婚龄人口性别比等。

④ 人口金字塔图11.1 利用几何图形形象表示人口性别年龄构成的方法。

四种基本类型：

① 正金字塔：

② 倒金字塔：

③ 圆锥式金字塔：上下几乎相等，中间稍有变化。为静止型或稳定型。

④ 缺陷型金字塔：瑞典人口学家桑德巴人口类型划分标准：

年龄	增长型	静止型	缩减型
0～14	40	26.5	20
15～49	50	50.5	50
50以上	10	23.0	30

11.1.3 生育与计划生育统计

11.1.3.1. 资料来源

公安、卫生、民政和计划生育等部门

11.1.3.2. 统计指标

（1）生育水平指标

① 粗出生率

活产总数/年平均人口数×1000%0

优点：资料易获得，计算简单；

缺点：受年龄，性别，婚姻状况构成的影响。

② 总生育率

活产总数/15~19岁妇女数×1000%0

优点：消除了年龄性别构成不同对生育水平的影响。

缺点：受育龄妇女内部年龄构成影响。

③ 年龄别生育率

活产总数/某岁组妇女数×1000%0

优点：消除了育龄妇女内部年龄构成不同对生育水平的影响。

缺点：不能概括反映所有育龄妇女的概括生育水平。

④ 终生生育率

实际的生育水平

终生生育率	＝	该批妇女生育的活产子女数
终生生育率	＝	经过整个育龄期的某批同龄妇女总数

优点：消除了育龄妇女内部年龄构成不同对生育水平的影响。

优点：反映了一批妇女的实际生于水平；缺点：需要健全的登记制度，获得资料较难。

⑤ 总和生育率

总和生育率＝n*∑各年龄组生育率：

若某妇女按某年的年龄别生育水平度过其一生的生育历程后，可能生育的子女总数。预期生育水平

优点：反映的是调查年横断面上的生于水平，排除了年龄构成影响的综合指标。

（2）人口再生育的统计指标

① 自然增长率natural increase rate NIR

粗生育率与粗死亡率之差。

优点：资料易获得，计算简单；

缺点：受年龄，性别的影响较大

② 粗再生育率 gross reproductive rate GＲＲ

女婴的总和生育率。

粗生育率	＝	该批妇女生育的活产女婴数
粗生育率	＝	经过整个育龄期的某批同龄妇女总数

优点：消除了性别和育龄内部年龄构成不同对再生育水平的影响。

缺点：没有考虑育龄期以及育龄期前死亡再生育水平的影响。

③ 净再生育率 net reproductive rateNＲＲ

确切能替代母亲一代执行生育职能的女婴数。即粗再生育率扣除在0～49岁期间的死亡数

表11.1 GRR,NRR,LG计算

年龄组	组中值	每1000名妇女每年所生女婴数	每名妇女期内生存人年数5Lx/lx	每1000名妇女期内所生女婴数	女婴生存总人年数
(1)	（2）	（3）	（4）	（5）＝（3）*（4）	(6)=（5）*（2）
15~	17.5	9.59	4.69452	45.02	787.86
20~	22.5	111.55	4.66742	520.63	11714.19
25~	27.5	72.35	4.63415	335.28	9220.22
30~	32.8	30.98	4.59802	142.45	4629.52
35~	37.5	9.10	4.55405	41.44	1554.07
40~	42.5	2.78	4.49746	12.50	531.37
45~49	47.5	0.59	4.41931	2.61	123.85
合计	-	236.94	-	1099.93	28561.08

NRR=∑ASDR(F)*5Lx/lx＝1099.93

④ 平均世代年数Mean length of generation, LG

母亲一代所生女婴取代母亲执行生育职能时平均所需的年数。

育龄妇女生存总人年数/净再生育率=25.966

注：净再生育率和平均世代年数都是都是较好的较好的反映再生育水平的综合指标，不受年龄，性别，死亡情况等影响。

11.1.4 人口死亡统计

1.资料来源

公安部门。注意婴儿死亡的漏报。

2.统计指标及分析

（1）测量死亡水平的指标

① 粗死亡率

粗死亡率＝	同年内死亡人数	×1000%0
粗死亡率＝	某年平均人口数	×1000%0

② 年龄别死亡率

年龄别死亡率＝	同年内死亡人数	×1000%0
年龄别死亡率＝	某年某年龄组平均人口数	×1000%0

③ 婴儿死亡率反映卫生状况和婴儿保健的重要指标

婴儿别死亡率＝	同年内不满一周岁婴儿死亡数	×1000%0
婴儿别死亡率＝	某年活产总数	×1000%0

④ 新生儿死亡率活产数28天。

⑤ 围产儿死亡率28周到７天

⑥ 5岁以下儿童死亡率

⑦ 孕产妇死亡率

⑧ 死因别死亡率

死因别死亡率＝	同年内某类死因死亡人数	×1000%0
死因别死亡率＝	某年平均人口数	×1000%0

注意：以上各指标的优缺点分析同前生育水平测量指标。优缺点从是否受人口基本构成特征影响和是否可以综合反映所测量的人口统计特征方面来分析。

（2）死因构成与死因顺位

① 死因构成或相对死亡比

某类死因构成比＝	同年内某类死因死亡人数	×1000%0
某类死因构成比＝	某年死亡总人数	×1000%0

死因顺位：按各类死因构成比的大小由高到低排列的位次。

11.2 疾病统计常用指标

11.2.1. 资料来源

① 疾病报告和报表资料法定传染病、地方病、职业病和某些慢性病等，这样一些国家或部门规定要报告的资料。

② 医疗卫生工作记录病历

③ 疾病调查资料体检、普查和疾病抽样调查。

11.2.2. 疾病和死因分类

疾病命名与分类

ICD国际疾病分类，每10年修订一次，93年1月1日起执行ICD－10。

11.2.3. 常用统计指标

（1）反映疾病发生水平的指标

① 发病率

一定时期内，人中某病的新发病例数。

② 患病率

现患率，指某时点上受检人数中现患某种疾病的人数。用于描述病程长或发病时间不易确定疾病的情况。

（2）反映疾病构成情况指标某病构成比

（3）反映疾病危害程度和防治效果的指标

① 某病死亡率同死因别死亡率

② 某病病死率

③ 治愈率

④ 有效率

⑤ 生存率

11.2.4. 残疾统计略

11.3 寿命表

11.3.1. 寿命表Life table的概念

Graunt 发展了现在保险公司所用的死亡率表。

直观的理解：记录一批人的死亡过程的表格。

人的死亡过程和年龄有关的死亡。通过不同年龄的死亡来体现。

其基础指标是年龄别死亡率。

定义：根据特定人的年龄组死亡率编制出来的一种统计表。通过计算预期寿命等统计指标来评价人的健康状况。

类别：

现时寿命表

从一个断面看问题，假定有同时出生的“一代人”，按照某人现时人口实际年龄组死亡率陆续死去，计算出来的这一代人按年龄的尚存人数、死亡人数、生存人年数及预期寿命。

1. 完全寿命表以一岁一组进行计算的寿命表

2. 简略寿命表除零岁组外每五岁一组计算的寿命表。

定寿命表

队列寿命表，是对某特定人中的每人从进入该人中直到最后一个人死亡，记录的实际死亡过程。

说明：

①两种寿命表各有优缺点。现时寿命表不是实际的死亡情况的描述，是以某一断面为依据，当各年龄组死亡率随时间变动不大时，结果比较可信；定寿命表要根据实际的死亡情况，所以需要的时间长

②寿命表做为一种综合评价方法可以广泛推广。如计算某手术后生存情况的寿命表等。凡是涉及事物的寿命现象的问题，都可以用寿命表来分析研究。

11.3.2. 寿命表的编制原理与方法（主要指标的概念与计算）表11.2

表11.2 我国某地1982年男性简略寿命表

年龄组	平均人口数	实际死亡人数	年龄组死亡率	死亡概率	尚存人数	死亡人数	生存人年数	生存总人年数	平均期望寿命
X~	nPx	nDx	nmx	nqx	lx	ndx	nLx	Tx	eX
①	②	③	④	⑤	⑥	⑦	⑧	⑨	⑩
0~	30005	429		0.0142980	100000	1430	98785	6891747	68.92
1~	86920	105	0.001208	0.0048200	98570	475	393330	6792962	68.91
5~	102502	81	0.000790	0.0039434	98095	387	489508	6399632	65.24
10~	151494	113	0.00075	0.0037226	97708	364	487630	5910123	60.49
15~	182932	157	0.00086	0.0042820	97344	417	485678	5422493	55.70
20~	203107	215	0.001059	0.0052788	96927	512	483355	4936815	50.93
25~	190289	221	0.001161	0.0057901	96415	558	480680	4453460	46.19
30~	147076	181	0.001231	0.0061344	95857	588	477815	3972780	41.44
35~	99665	160	0.001605	0.0079948	95269	761	474443	3494965	36.69
40~	90891	234	0.002575	0.0127902	94508	1209	469518	3020522	31.96
45~	105382	417	0.003957	0.0195914	93299	1828	461925	2551004	27.34
50~	86789	602	0.006936	0.0340907	91471	3118	449560	2089079	22.84
55~	69368	919	0.013248	0.0641173	88353	5665	427603	1639519	18.56
60~	51207	1328	0.025934	0.1217745	82688	10069	388268	1211916	14.66
65~	39112	1691	0.043235	0.1950876	72619	14167	327678	823648	11.34
70~	20509	1561	0.076113	0.3197264	58452	18689	245538	495970	8.49
75~	9301	1126	0.121062	0.4646748	39763	18477	152623	250432	6.30
80~	3463	631	0.182212	0.6259300	21286	13324	73124	97809	4.59
85~	834	269	0.322542	1.0000000	7962	7962	24685	24685	3.10

11.3 寿命表

年龄

① X 指刚满年龄，而非实足年龄年龄分组 0岁组0～，1岁组，从五岁以上均为5岁一组

年龄组死亡率

根据年龄组死亡率求得。表示X岁尚存者在今后一年或n 年内死亡的可能性。

两个下标的意义：x为刚满年龄，n为在今后n年内

年龄组死亡率 mx＝Dx/Px 或nmx＝nDx/nPx

Dx：年龄组死亡数 Px：年龄组人口数

例如一岁到五岁前死亡率

m1 ＝105/86920=0.00128(０岁组为新生儿死亡率)

年龄组死亡概率

0岁组的死亡概率用婴儿死亡率代替

qx=2mx/(2+mx) 或nqx=2n nmx/(2+n nmx)

4q1=2nnmx/(2+n4m1)

=2*4*0.00128/(2+4*0.001208)=0.004820

尚存人数与死亡人数

lx表示X岁尚存人数，指在同时出生的一代人中活满X岁的人数。

dx表示X岁死亡人数，指在同时出生的一代人中在X岁期间的死亡人数。

dx=lx qx 或 ndx＝lx nqx

lx+1=lx－dx 或lx+n=lx－ndx

d0=l0*q0=100000*0.014298=1430

l1=l0 - d0=100000-1430

4d1 =l1*4q1=98570*0.00482=475

l5= l1-4d1=98570-475=98095

生存人年数

Lx(nLx) 指X岁尚存者在今后一年（或n年）内的生存人年数，即曲线下的面积。当n小时近似梯形面积。

Lx=(lx+lx+1)/2 或nLx=n(lx+nlx共享)/2

婴儿组的L0=l1+a0 d0 a0：0岁组死亡者的平均存活年数，我国的经验系数为0.15； d0:0岁组预期死亡数

L0=98570+0.15×1430=98785

4L1=4(98570+98095)/2=393330

5L5=5(98095+97708)/2=489508

最后一组的Lw=lw/mw lw:生存人数；mw:死亡率

本例，L85（＋）＝l85/m85(＋)＝24685

生存总人年数

X岁的尚存者在X岁及以上各年龄组生存人年数的总和，即

Tx=ΣLx 或Tx=∑nLx

T85=∑nLx =L85(＋)＝24685

T80=∑nLx = L85(＋)＋5L80=24685+73124=97809 余类推.

平均预期寿命

X岁尚存者预期还能存活的人年数 ex=Tx/lx

E0＝T0/l0=6891746/100000=68.92

e1=T1/l1=6792961/98570=68.91

11.3.3. 寿命表的分析与应用

一、常用分析指标

1. 尚存人数

用线图表示，要注意曲线的高度和曲度，尤其是头部的曲度变化。插入图11.1

生存率或生存比（lX+n/lX）

寿命表中位年龄（尚存半数年龄）l0/2

2. 死亡人数与尚存人数意义相反。

3. 死亡概率：用半对数线图表示。健康水平高则曲线低。图11.2

4. 预期寿命：综合评价指标，反映X岁的人受其后各年龄组死亡情况的影响而呈现的生命过程。e0也称平均寿命，可概括说明某人的健康水平。图11.3

用线图表示，主要注意起点、曲线头部的曲度。

注意：

①一般ex随年龄的增加而减少，但由于受年龄组死亡情况的影响，有时当婴儿死亡率较高时，会发生eo＜e1的现象。这主要是因为婴儿死亡率过高导致的。

②平均寿命与平均死亡年龄的区别。平均寿命的计算只与各年龄组死亡率有关，不受构成影响，可以不同地区直接比较；平均死亡年龄是一批人实际的死亡年龄的平均值。不但受年龄组死亡率影响，还与年龄构成有关。两者概念不同，不能混淆。

二、寿命表应用

1. 评价国家或地区居民健康水平。寿命表的各项指标根据某年的实际年龄别死亡率计算得到，可以说明人的死亡水平，而且不受年龄构成影响，具有良好的可比性。而诱导指标如平均期望寿命，既能综合反映各年龄组的死亡水平又能以预期寿命的长短来说明人的健康水平。是评价不同国家地区局民健康状况的主要统计指标之一。

寿命表不受年龄构成的影响，是居民健康水平的总和评价指标。

2. 利用寿命表研究人口再生产情况。净再生育率是测量人口再生育的确切指标，计算需要女性寿命表中的尚存人数和生存人念书。

3. 利用寿命表进行人口预测。（参看有关人口统计专著）。

4. 研究人的生育、发育及疾病发展规律。例如在慢性病研究中，随访一批已确诊的慢性病人，观察每个病人的结局，用定寿命表方法分析这批病人在确证后不同时期的生存率及平均生存期。

4.1 研究设计的意义

一、医学研究的基本过程

医学科学研究的过程可以划分为下列五个阶段：

二、研究设计的意义

研究设计的概念：在医学科学研究实施前，应用医学专业知识和研究设计的原理、原则和方法，对将要进行的研究项目的目的与意义、目标与内容、对象与观察指标、研究方法与设计路线等有一个全面的计划和安排，并制定出一个具体的方案。一份良好的研究设计应该是专业设计与统计设计的有机结合。专业设计是保证研究课题的先进性与有用性社会经济效益、应用前景以及对本学科的推动作用），统计设计是保证研究课题的可重复性与经济性。

研究设计的意义：根本违约

1、可用较少的人力、物力和财力获得丰富可靠的资料；

2、能较好地控制试验误差和混杂，并作出估计，保证结果的可靠、可重复；

3、利用多因素试验设计方法，在一个试验中按排多个研究因素，提高试验的效率；

4、一份良好的设计是整个科研过程的依据。

三、医学研究的类型

1、医学研究类型

医学科学研究按照其研究因素是人为给予还是客观存在的，可以分为实验研究与调查研究。

实验研究：在严格控制实验条件下，研究因素由研究者主动给予受试者（研究对象）按排的一种研究。如新药临床试验，这里研究因素为药物，是研究者主动按排给研究对象的。

调查研究（观察性研究）：是指研究因素不受研究者主观控制，而是对现场或人中已经客观存在的现象、差别和联系进行观察和调查。如调查烧伤病人不同时期体内某些微量元素含量，这里微量元素是研究因素，是烧伤病人客观存在的，不是研究者给予的。

临床研究中可以是实验研究，也可以是调查研究；习惯上将以人为研究对象的实验，称为试验。

2、调查与实验研究的特点

4.2 实验研究中的基本要素

一个实验研究一般由研究因素（处理因素）、受试对象（研究对象）和实验效应（研究观察指标）三个基本要素组成。实验研究的目的是阐述研究因素作用于研究对象后所产生的实验效应。因此，在研究设计中首先确定这三个基本要素，这是研究设计中主干框架结构的设计。例如，在新的降压药的临床试验中，试验所用的降压药为处理因素，高血压病人为受试对象，血压值等指标为实验效应。

一、处理因素

处理因素的概念：处理因素又称研究因素，是指实验研究中研究者感兴趣的对试验有影响的试验条件或因素，一般指外部施加，如降压药临床试验中的药物就是研究者施于研究对象的因素；研究因素也可以是研究对象本身具有某些特征，如性别、年龄、疾病类型、研究对象的某些生理生化指标；在研究烧伤病人不同时期体内某些微量元素含量的变化中，微量元素是研究对象本身具有的研究因素。

设立处理因素的注意事项：

1、确立和区分研究因素与非研究因素。一个研究中对实验效应有影响的因素很多，研究者应根据研究目的抓住一个或几个需要阐述的主要因素作为研究因素进行研究，一般一个研究中研究因素不宜过多。除处理因素外，其他对试验有影响的因素，称为非处理因素（又称混杂因素），实验设计的目的就是控制非处理因素影响，显示处理因素的效应。因此，对试验有影响的主要的非处理因素必须有清醒的认识，才能在设计中加以控制。

2、研究因素的标准化。处理因素的准标化就是保证处理因素在整个实验过程中始终如一保持不变。

3、确定因素的水平和因素的个数。在研究中要确定一个或风个处理因素，如研究中只有一个处理因素，称为单因素试验，实验中有两个或两个以上的研究因素，称为多因素试验；单因素和多因素试验均有相应的实验设计方法。实验中除确定因素的个数以外，还要确定因素的水平，所谓水平就是指因素所处状态或等级。如降压药的临床试验，设立新药组与常规药对照组两组，那么，药物是研究因素，它分为新药与常规药两个水平。

二、受试对象

概念：研究对象可以是人、动物、微生物和寄生虫及其它们的一部分，可以是正常的，也可以病理状态的。

动物试验：要考虑动物的同质性、敏感性、反应稳定性和是否来源容易。

人体试验（病例选择）：首先要诊断明确，其次考虑疾病的分型、分期，再考虑病人的年龄、性别、民族等因素以及服药史和依从性（门诊与病房病例）。在一个研究中，对研究对象都要制定纳入和排除标准。

三、实验效应

实验效应的设计就是选择实验田观察指标，设计时要求：

1、指标的针对性与研究问题有本质联系。

2、指标的客观性观察指标有主观指标与客观指标之分，应仅可能选择客观指标。

3、指标的灵敏性选择对研究因素反应灵敏的指标。

4、指标的精确性指标的精确性就是指准确性与精密性。准确性就是指结果的真实性，主要受系统误差的影响，精密性就是指结果的离散度，属于随机误差范畴。选择指标时，首先考虑准确性，同时又要考虑精密性。

5、定量指标观察指标有定量指标和定性指标之分，应多选择定量指标。

4.3 实验设计的三个基本原则

实验设计中应遵循三个基本原则，即对照原则、随机化原则和重复原则。

一、对照原则

(一) 对照的概念：有比较才有鉴别，因此，在医学研究中一般要设立对照组，对照原则就是在研究时要设立合理的对照组。

(二) 对照的意义设立合理的对照组，其意义在于：

1、鉴别处理因素与非处理因素的作用

2、控制和减少试验误差

(三) 合理对照的原则：各组例数相等各组间均衡可比

(四) 组间均衡性

1、什么叫组间均衡性比较各组间除研究因素外，对试验有影响的非研究因素和试验条件均应相同或相近。

2、在研究设计和试验过程中应从下列四个方面考虑组间均衡性：

(1)研究对象性质相同，选择同质的研究对象，并进行随机化分组

(2)试验条件要一致实验环境仪器试剂等

(3)研究者或操作者要一致研究者或操作者在各组间要交叉，并随机分配

(4)时间或试验次序要一致实验中各组试验要同时、交叉进行。

3、实现均衡可比的手段或方法：

(1)随机化在研究对象分配、操作者的分配和试验次序的分配都要随机化。

(2)配对与分层通过配对、配伍组设计达到组间均衡（配对和配伍组设计详见4.4节）。分层随机就是先对研究对象进行分层，再进行随机化分组，一般是对离散度较大研究对象，通过分层，使得分层后各层内的个体离散度变小，增加同质性，再行随机分组，可增加组间的均衡性。

(3)双盲 ①盲法的概念。盲法有单盲和双盲两种，双盲是指研究对象和研究者或操作者都不知道研究对象属于实验组还是对照组，从而可以避免研究者或操作者、研究对象心理因素或倾向对试验结果的影响；单盲是指研究者不知道研究对象属于哪一组，而研究对象不需要盲法，一般是指动物试验。②安慰剂。由于不同组间接受处理的差别，如两组药物外型上的差别，难以使得研究者和研究对象达到盲法的效果，就需要专门制作在大小、颜和外型上与试验药物一致的但无任何药效的“假药”，此“假药”称为安慰剂(五) 对照类型

1、空白对照对照组不施加任何处理措施

2、标准对照公认有效的药物、现有的标准方法或常规方法

3、相互对照各比较组互为对照

4、实验对照在对实验组实施处理因素时必须伴随一个对试验有影响的因素，此因素称为实验因素，对照组必须施加实验因素。举例说明

5、自身对照对照与实验措施在同一实验对象身上实施

6、安慰剂对照对照组施加安慰剂

7、阳性对照采用已肯定疗效的药物为对照，如标准对照、弱阳性对照

8、阴性对照不含研究中处理因素的对照，如空白对照、安慰剂对照、（实验对照）

9、历史对照不能实验研究中的对照

　二、随机化原则

意义：保证各组间均衡可比的重要手段。

概念：在实验研究中，研究对象有同等的可能被分到比较各组中去。

在调查研究中，总体中每个个体有同等的可能被抽到样本中来。

方法：随机数字表、随机排列表和计算机产生的随机数，随机数字表可以用于研究对象的随机抽样和随机分配，而随机排列表一般用于研究对象的随机分配且较随机数字表方便。具体的各种随机化方法在各种实验设计方法和各种抽样方法中介绍。

三、重复原则

意义：重复原则是批在实验研究和抽样研究中需重复试验或抽取多少研究对象，即样本含量（大小）。样本含量少，抽样误差大，不易发现本来有差别的事物；样本含量大，非抽样误差也可能大，影响研究结果；因此，重复原则是保证实验结果的可靠性和重现性的重要手段，也是保证组间均衡性的基础。

样本含量概念：保证研究结论具有一定可靠性的前提条件下，所确定的最少样本含量；因此，统计学上所估计的样本含量是研究中所需的最基本数量，在实际研究中，还要考虑研究结果的应用范围与人力、物力和财力的容许。

方法：可以通过查表法或计算法实现。

4.4 实验设计的类型（方法）

一、完全随机设计

1、设计方法

⑴ 确定研究因素与水平。这种设计方法只能安排一个因素，对这个因素可以根据研究目的分成两个或多个水平，即两组或多组。

⑵ 确定研究对象。根据研究目的和研究问题的特性选择合适的研究对象，必要时须制定研究对象的纳入与排除标准。

⑶ 随机分组。将研究对象随机分到各组。如在调查研究中是从不同的总体中（两个或多个）随机抽取样本进行比较

⑷ 试验、测定或调查观察。

2、随机化分组

例：试将18个病人随机分成3组

先对研究对象进行编号，然后从随机排列表中，任取一行随机数（每一行均为0~19的20个数，这20个数的排列均是随机的，本随机排列表最多只能用于20个研究对象的分配，其他统计学专著中还有n=30~60），如本例取第一行，由于本例只有18个病人，所以取0~17，舍取18和19两个数, 按随机数的前后出现顺序抄录到病人下，预先确定随机数为0~5的病人编号为A组，随机数6~11的病人编号为B组，随机数12~17的病人编号为C组。分组结果如下：

3、优缺点：设计与分析简单，只能单因素

　二、配对设计

1、设计方法

⑴ 确定一个处理因素和两个水平(实验组与对照组)。

⑵ 确定研究对象和配对条件，将对象按配对条件相同的原则配成对子。

⑶ 随机将每对对象分到两组中去。

⑷ 一个试验由若干对组成。

配对设计的概念：将研究对象按一定的配对条件先配成对子，然后随机地将每对中的两个对象分配到两组中去，一个试验由若干个配对组成。

(5) 配对条件主要的非处理因素（研究对象的特征、实验环境或条件），动物试验中条件可严些，临床上条件不可过多。

(6) 配对设计变型前后的比较，同一批标本分别用两种方法检测，同一批病人分别用两种方法诊断，局部试验中人体左右侧的对比；

2、随机分组。可用上述完全随机设计中研究对象随机分配的方法，将每对中的一个对象随机分配到实验组或对照组，即可实现随机分配，具体见书本。

3、优缺点 (1) 组间可比性好，节省样本大小，试验效率高； (2) 对研究对象有一定的要求，临床上实施配对设计有一定难度。三、配伍组设计（随机区组设计）

1、设计方法

(1) 确定一个研究因素，并根据研究需要设立多个水平（多个处理组或对比组）；

(2) 确定研究对象和匹配条件，将研究对象按匹配条件一致的原则配成区组或配伍组，区组内由若个对象组成，其数量由对比组数决定；

(3) 每一区组内的个体随机分到各处理组或对比组；

(4) 一个试验由若干个区组组成。

(5) 区组的定义：实验条件相同，实验对象性质相近的组称为区组（配伍组）。

(6) 随机区组设计的三个条件：

a 一个试验由若干个区组组成

b 区组内研究对象的个数等于处理组数

c 区组内对象随机分到各处理组

(7) 随机区组设计的变型：前后不同时间的比较，同一批样品不同方法或不同实验室检测进行比较。

2、随机化分组

例已按动物特征配成6区组,每个区组4个体, 现进行随机化分组。

先对研究对象进行编号，按区组顺序，区组不能打乱；然后对每一个区组内的四个个体从随机排列表中抄录一行随机数，只取1~4，舍取0和5~19；预先确定随机数分别为1~4的编号的个体分别分到a、b、c、d组。随机分组结果如下：

3、优缺点

(1) 可安排一个因素，也可安排两个因素，即将区组间也作为一个因素；

(2) 误差小、均衡性好、节省样本含量，统计效率高；

(3) 不能分析交互作用

(4) 区组内的对象在试验中易发生意外，影响整个试验。4.5 四种常见的随机抽样方法

在调查研究中，从研究对象的总体中进行随机抽样，其基本方法常见的有单纯随机抽样、系统抽样、分层随机抽样和整抽样四种。在大规模调查研究中，根据现场的特性，常将这些基本的抽样方法结合使用，抽样阶段分为多个，此称为多阶段抽样。本节主要介绍四种基本的抽样方法。

一、单纯随机抽样

1、抽样方法对调查总体的全部观察单位编号，然后随机抽取部分观察单位组成样本，此即单纯随机抽样。下面通过实例介绍。

例14.1 欲调查某农村小学学生的蛔虫感染率，该校有学生2000名，取100名学生作为样本，试作单纯随机抽样

(1) 编号。先对研究对象进行编号，如 0 1 2 3 4 5 6 … 1999

(2) 近海风荷载抄随机数。从随机数字表中任一行任一列开始抄录100个四位数的随机数（因为对象编号最大的为四位数1999），如从第5行第9列开始横向取数0873，3732，0405，6930，0588，… ，由于这些随机数有超过1999的，作如下处理：将大于等于8000的数减去8000，将大于等于6000小于8000的数减去6000，将大于等于4000小于6000的数减去4000，将大于等于2000小于4000的数减去2000，上述随机数处理后依此为：873，1732，405，930，1609，588，…。属于这些编号的学生为样本。

2、参数估计。前面介绍的均数、标准差和率等指标的计算方法都是单纯随机抽样下的参数估计方法。

3、优缺点与适用范围

(1) 抽样方法与参数估计方法简单

(2) 总体大时，编号烦

(3) 适用于总体小、个体间均匀的总体

(4) 是其他抽样方法的基础

二、系统抽样

1、抽样方法。系统抽样又称机械抽样或等距抽样。将总体的观察单位按某一顺序分成n个（样本大小）部分，再从第一部分随机抽取第k号观察单位，依次用相等间隔从每一部分各抽取一个观察单位组成样本。

3、优缺点与适用范围

(1) 适用于大规模的抽样调查，多阶段抽样的后阶段抽样，便于操作，节省人力、物力；

(2) 一般其抽样误差大于单纯随机抽样；

(3) 抽样中不宜太大，越小，抽样误差越小。

四、分层随机抽样

1、抽样方法。先按某一特征将总体划分为若干个类别（层），再从每一个层内随机抽取一定数量的观察单位，组成样本。各层样本含量的估计方法：

(1)按比例分配.。将样本含量根据各层的总体内个体数在整个总体中的比例进行分配。其公式为： ni=n(Ni/N)

(2)最优分配。既考虑各层总体的大小，又考虑各层内个体的变异进行样本含量在各层间的分配。进行均数与率的抽样时，各层样本含量的估计公式为：

2、优缺点与适用范围

(1)抽样误差小

(2)便于对各层采用不同的抽样方法

(3)便于对各层进行独立分析

(4)适用于总体内个体变异较大的总体

(5)在多阶段抽样中使用

复习思考题

1、配对设计中实验对象经配对后，分组时为何仍需随机化？

2、何为对照？其意义和形式是什么？

3、实验研究的基本要素是什么？它们间的关系如何？

4、试述常用的几种随机抽样方法及其适用场合。

5、用三种可疑化学致癌物对小鼠进行“三致”试验，每组拟用5只小白鼠，共15只小白鼠，试将其随机分入各组。

6、何为分层抽样的最优分配？

7、什么叫组间均衡性？在研究设计和实施过程中如何实现？

常用统计表与统计图来表达分析数据，分析结果以代替冗长的文字叙述，表达清楚，形象直观，便于理解。

13.1 统计表

统计表（statistical tab le）是以表格的形式列出统计分析的事物及其指标。

13.1.1 统计表的结构及列表的基本要求

表13.1 某医院（1979~1988年）住院死亡病人死因构成

统计表的结构要求简洁，一张表一般只包括一个中心内容，使人一目了然；表的标目的安排及分组要层次清楚，符合专业逻辑。表的基本构成包括标题及编号、标目、线条及数字等。基本要求是：

（1）标题及编号概括地说明表的内容，必要时要注明资料的时间和地点；编号用表加阿拉伯数字表示，如表13.1；当文中仅有一张表时，可写成“附表”。标题及编号应写在表的上端中央。

要求：明确，简洁，概括。

常见的缺点是：过于简单，甚至不写标题；过于繁琐以及标题不确切。

（2）标目表格内的项目。标目有横标目与纵标目。横标目说明表中被研究事物的主要标志及其分组的各项内容，是表的主语，如表13.1的横标目为死因及其死因的七种分组，列在表的左侧；纵标目说明横标目的各项统计指标是表的谓语，列在表的上端；主语和谓语连贯起来能读成一句完整而通顺的话。如表13.1可读成某医院1979~1988年住院死亡病人中因恶性肿瘤死亡174人，占死因构成的26.9%。有单位的标目要注明单位，如某病死亡率后注明（1/10万），表示每10万人口的死亡人数。必要时在横标目或纵标目之上还冠以总标目。

要求：重点突出，主谓分明，安排得当。常见的缺点是：标目过多，层次不清。

（3）线条不宜过多，除上面的顶线，下面的底线，以及纵标目下面与合计上面的分隔线外，其余线条一般均省去。尤其是表的左上角不宜有斜线。如一张表中标目的内容较多时或有分层时可适当留有空行。

（4）数字表内数字一律用阿拉伯数字表示，同一指标的小数位数应一致，位次对齐。

表内不宜留空格：暂缺或未记录可用“…”表示；无数字用“—”表示；数字若是“0”，则填明“0”。

（5）备注一般不列入表内，必要时可用“*”号标出，写在表的下面。

13.1.2 统计表的种类

根据表格的结构分为简单表和组合表

只含一个分组变量的统计表称简单表（simple table）,如表13.1，按不同死因分为七组。

含两个或两个以上变量的统计表称组合表（combinative table），如表13.2将学生的年级和性别两个变量结合起来分组，可以分析不同年级、不同性别的吸烟率

表13.2 1990年某县高中生吸烟率（%）抽样调查结果

13.1.3 统计表的修改

实际工作中，有的统计表由于未遵循制表原则和要求，未能起到应有的作用。举例说明如下：

例13.1 指出表13.3缺陷，并作修改。

表13.3 益胃片的疗效观察（原表）

表13.3的主要目的在于表达益胃片溃疡病的疗效。缺点是：标题不明确，主谓语安排不当，标目重复，数据未能对应，不便于比较，表的线条过多，可修改如表13.4.

表13.4 某地某年益胃片溃疡病疗效观察（修改表）

例13.2 指出表13.5的缺陷，并作修改。

表13.5 HBsAg（+）的年龄分布（原表）

表13.5主要目的在于表达各年龄别HBsAg的阳性率。缺点是：主谓语倒置，同一指标的小数位数不一致，线条过多，修改如表13.6

表13.6 某地某年不同年龄人的HBsAg阳性率（修改表）

13.2 统计图

13.2.1 制图通则

（1）适合性根据资料性质、分析目的选择适合的图形。

（2）标题和编号写在图的下方。标题要扼要说明资料的内容，必要时注明时间、地点；编号一般用图加阿拉伯数字表示，如图13.1或附图1

（3）图如有纵轴和横轴，横轴尺度自左而右，纵轴尺度自下而上，数值一律由小到大，等距或有一定的规律性地标明。条图与直方图纵坐标从0开始，要标明0点。纵横轴应有标目，注明单位。纵横坐标长度的比例一般约为5∶7。如图13.4 图13.5

（4）在同一图形内比较几种不同事物时，须用不同的线条或颜表示，并附图说明。如图13.1

13.2.2 常用统计图及绘制方法

1.条图（bar graph）条图是用等宽直条的长短来表示相互独立的各指标的数值大小。常用的有单式（如图13.2）和复式（如图13.1）两种。

制图方法：

①纵轴尺度必须从0开始，如图13.2。甲乙两直条的高度本为2∶1，但若纵轴尺度从2开始，将给人4∶1的错误印象。

②各直条（或各组直条）间应有相等的间隙，其宽度一般与直条的宽度相等或为直条宽度的一半。

③为了便于对比，一般将比较的指标大小顺序排列。

④复式直条图的制图要求与单式相同，但每组的直条最好不要过多，同组直条间不留空隙，组内各直条的排列次序要前后一致，如将表13.7资料绘成的图13.1。

表13.7 1989年某市婴儿、新生儿、幼儿死亡率（‰）

地区	婴儿	新生儿	幼儿
市区	11.68	7.35	0.58
郊县	13.62	9.24	1.24

图13.1 1989年某市婴儿、新生儿、幼儿死亡率（‰）图13.2 条图的纵轴尺度起点必须为零的示意

2.圆图（circle garph）用以表示全体中各部分的比重。以圆面积为100%，用圆的半径将圆面分割成多个大小不等的扇形来表达构成比。

制图方法：如将表13.1资料绘成图13.3，先将各类构成百分比分别乘以3.6度得圆心角度，按其自然顺序或按其大小顺序排列，“其它”排在最后。从0时开始，用量角器顺时针方向划分为一系列扇形。

3.线图（line graph）适用于连续性资料。用线段的上升和下降来表示某事物随时间的变化趋势，或某现象随另一现象变迁的情况。

制图方法：①横轴常用以表示某事物的连续变量如时间，纵轴多表示率、均数或频数。② 纵轴采用算术尺度，从0开始。如果图形的最低点与零差距很大，则可在纵轴基部作折断口，使线段降低，以求美观。横轴可以不从零开始，如果以组段为单位，则每组均以组段下限为起点，但绘制的坐标点则应以组段的中点为宜。如将表13.8资料绘成图13.4，以横轴表示年份，以纵轴表示死亡率，相邻两点用直线连接，反映两种疾病不同年度差值的变化的趋势。③纵横尺度的比例要恰当，避免给人以夸大或缩小的印象。同一图内不宜有太多曲线，以免混淆不清。如有几条线作对比，则用不同的线形来区别，并用图例说明。

表13.8 某地居民1950~1966年伤寒与结核病死亡率（1/10万）

年份	伤寒死亡率	结核病死亡率
1950	31.3	174.5
1952	22.4	157.1
1954	18.0	142.0
1956	9.2	127.2
1958	5.0	97.7
1960	3.8	71.3
1962	1.6	59.2
1964	0.8	46.0
1966	0.3	37.5

（4）半对数线图（semilogarithmic graph）通常用比值来反映变化速度，因此常用半

对数线图来表示事物的相对水平即变化速度。

制图方法：在横轴为算术尺度，纵轴为对数尺度的半对数坐标纸上绘制线图，即纵轴的数值大小为原观察值的对数值。故称为半对数线图。

由于0没有对数，所以半对数线图的纵坐标没有零点，起点根据资料的情况可为0.1，1，10…等。0.1~1，1~10，10~100等各单元距离相同，但同一单元内不等距，如图13.5，可根据需要标出相应的尺度。

如将表13.8资料绘制成半对数线图（图13.5），并与图13.4比较，可见图13.4显示结核病死亡率下降较大（这是死亡率前后的差值得到的印象，结核病人的死亡率下降幅度较伤寒病人大），而图13.5显示伤寒死亡率下降速度较快（这是死亡率前后对比的比值得到的印象），说明线图只可反映事物的变化趋势，半对数线图可用来反映事物的变化速度。

（5）散点图（scatter diagram）用点的密集程度和趋势表示两种现象间的相关关系。制作方法：以横轴与纵轴各代表一种事物，横轴表示自变量，纵轴表示因变量，在坐标轴上标出每个个体对应的点则得到散点图。纵轴与横轴尺度的起点，均不一定从0开始。

例：调查了某地一年级12名女大学生的体重与肺活量的数据如下，肺活量（L）Y与体重（kg）X的相关关系可以用图13.6图示。

体重	X	42	42	46	46	46	50	50	50	52	52	58	58
肺活量	Y	2.55	2.20	2.75	2.40	2.80	2.81	3.41	3.10	3.46	2.85	3.50	3.00

必要时还可以添加趋势曲线或直线，如图13.7。

复习思考题

1.a.条图 b.圆图 c.线图 d.半对数线图

（1）描述某地1975~1980年肝炎发病率的变动趋势，应绘制。

（2）比较甲、乙、丙三地两种传染病的发病率时，宜绘制。

（3）根据某医院对急性白血病患者构成调查所获得的资料应绘制。

（4）比较某地10年间结核与白喉两病死亡率的下降速度，宜绘制。

2.根据列表原则，指出表F13.1的缺点，并作改进：

表F13.1 1964~1968年急性心肌梗塞患者的病死率

年份	病例数	存活数	住院期死亡总例数	急性期死亡数	住院期总病死率（%）	急性期病死率（%）
1964	17	9	8	7	47.1	41.2
1965	13	8	5	4	38.5	30.8
1966	15	8	7	6	46.7	40.0
1967	15	9	6	6	40.0	40.0
1968	12	8	4	4	33.3	33.3
合计	72	42	30	27	41.7	37.5

3.表F13.2目的旨在分析中小学近视性眼底改变（弧形斑眼底）与年级高低、视力不良程度的关系。此表是否符合列表原则，请作改进：

表F13.2

视力不良分度年级	轻			中			重
视力不良分度年级	近视眼眼数	弧形斑眼数	%	近视眼眼数	弧形斑眼数	%	近视眼眼数	弧形斑眼数	%	备注
小学生	217	20	9.69	143	43	30.06	60	33	55.00	X2=27.27 P<0.01
初中生	173	30	19.07	157	62	39.89	121	62	51.23	X2=16.68 P<0.01
高中生	90	37	40.11	78	51	63.65	70	62	81.14	X2=46.01 P<0.01
X2=29.17 P<0.01				X2=15.53 P<0.01			X2=21.97 P<0.01

4.图示表F13.3资料，并作简要分析：

表F13.3 某市某年男女学生各年龄组的身高均数

年龄组（岁）	男	女	年龄组（岁）	男	女
7~	115.41	115.51	13~	138.36	141.17
8~	118.33	117.53	14~	145.14	147.21
9~	122.16	121.66	15~	150.84	150.03
10~	126.48	125.94	16~	154.70	153.06
11~	129.64	131.76	17~	161.90	156.63
12~	135.50	138.26

5.将表F13.4资料中两种传染病死亡率的历年变动，分别绘制普通线图及半对数线图，并说明两种图示法的不同意义。

表F13.4 某市1949~1957年15岁以下儿童结核病和白喉死亡率（1/10万）

年份	结核病死亡率	白喉死亡率
1949	150.2	20.1
1950	148.0	16.6
1951	141.0	14.0
1952	130.0	11.8
1953	110.4	10.7
1954	98.2	6.5
1955	72.6	3.9
1956	68.0	2.4
1957	54.8	1.3

6.某地1952年和1972年三种死因别死亡率如表F13.5，试将该资料绘制成统计图。

表F13.5 某地1952年和1972年三种死因别死亡率（1/10万）

死因	1952年	1972年
	165.2	27.4
心脏病	72.5	83.6
恶性肿瘤	57.2	178.2

查看答案

1.cabd

2.缺点：题目不清

线条繁多

内容不明确

修改表

表F13.1 1964~1968年某医院急性心肌梗塞患者的病死率

年份	病例数	住院期死亡总例数	住院期总病死率（%）	急性期死亡数	急性期病死率（%）
1964	17	8	47.1	7	41.2
1965	13	5	38.5	4	30.8
1966	15	7	46.7	6	40.0
1967	15	6	40.0	6	40.0
1968	12	4	33.3	4	33.3
合计	72	30	41.7	27	37.5

3.无题目

层次不清

线条繁杂

备注列入了表中

修改表

表F13.2 中小学近视性眼底改变（弧形斑眼底）与视力不良程度

年级	视力不良分度
	轻		中				重
	近视眼眼数	弧形斑眼数	眼底改变比例%	近视眼眼数	弧形斑眼数	眼底改变比例%	近视眼眼数	弧形斑眼数	眼底改变比例%
小学生	217	20	9.69	143	43	30.06	60	33	55.00
初中生	173	30	19.07	157	62	39.89	121	62	51.23
高中生	90	37	40.11	78	51	63.65	70	62	81.14
合计

备注：＊P<0.01

第一章：绪论

一、试区分以下资料属于哪种类型？

1.某地一批人的血红蛋白值资料

比法测得的具体值（如135g/L），为何类资料？

根据测得值进行分类（如"贫血"，"正常"），为何类资料?

2.某疫苗皮下注射后免疫测试结果如下:

观察对象	抗体滴度	目测判断抗体水平	免疫效果观察
1	1：40	++	无效
2	1：60	++++	有效
...	...	...	...
...	...	...	...

3.数据类型在一定条件下是可以相互转换的,下面的资料是如何转换的:

年龄（岁）转换为"未成年、成人",再转换为"婴幼儿、青年、中年、老年",分别给予编码0,1,2,3。

第二章：统计资料的整理与描述

一、名词解释

1、频数表 2、算术均数 3、几何均数 4、中位数 5、极差 6、百分位

7、四分位数间距 8、方差 9、标准差 10、变异系数

二、选择题

1、某农村144名妇女生育情况如下：

生育胎次 0 1 2 3 4

妇女人数 5 25 70 30 14

该资料的类型是：

A ．有序资料 B．计数资料 C．计量资料 D．等级资料

2、测得五人接种某疫苗后的抗体滴度为1:20，1:40，1:80，1:160，1:320，求平均滴定度最好选用

A．均数 B．几何均数 C．算术平均数 D．百分位数

3、为了直观比较一组乳腺癌患者化疗后同一时间点上血清肌酐和血液尿素氮两项指标观察值的变异程度的大小，可选用的变异指标是（）。

A．标准差 B．标准误 C．变异系数 D．极差

4、五名小细胞未分化型肺癌患者，其生存期(月)分别为6,10,14,23,41+，求生存期的平均水平宜选用

A．几何均数 B．P50 C．中位数 D．均数

5、变异系数越大表示

A．相对离散程度越大B．标准差越小C．均数越大D．样本含量越小

6、数值变量的标准差与均数的关系:

A．不会大于均数 B．不会小于均数

C．不会等于均数 D．不决定于均数

7、正态分布的特点是

A．算术均数等于几何均数 B．算术均数等于中位数

C．几何均数等于中位数 D．算术均数与几何均数、中位数都相等

8、最小组段无下限或最大组段无上限的频数分布资料，可用（）描述起集中趋势。

A、均数 B、标准差 C、中位数 D、四分位数间距

9、数列40、48、50、52、60的标准差为（）。

A、50 B、根号50 C、根号52 D、52

10、一组变量的标准差将（）。

A、随变量值n的个数的增大而增大 B、随变量值n的个数的增加而减小

C、随变量值之间的变异增大而增大 D、随系统误差的减小而减小

11、一组数据中20%为3，60%为2，10%为0，则平均数为（）。

A、1.5 B、1.9 C、2.1

D、不知道数据的总个数，不能计算平均数

三、辨析题

1、当资料服从正态分布时，理论上均数和中位数相等。

2、计算样本的方差时，分母上为n-1,是由于历史错误的延续。

3、连续性数值变量的频数表资料直接法和间接法计算得到的算术均数相等。

4、只要单位相同,用S和CV比较两组资料的离散趋势结论相同。

5、对称分布的资料, 在范围内理论上包含了95%的观察值.。

6、均数总是大于中位数。

7、均数总是比标准差大。

8、变异系数的量纲和原量纲相同。

9、样本均数大时，标准差也一定会大。

10、样本量增大时，极差会增大。

第十三章:统计表与统计图

1. a.条图 b.圆图 c.线图 d.半对数线图

（1）描述某地1975~1980年肝炎发病率的变动趋势，应绘制----.

（2）比较甲、乙、丙三地两种传染病的发病率时，宜绘制---- 。

（3）根据某医院对急性白血病患者构成调查所获得的资料应绘制----。

（4）比较某地10年间结核与白喉两病死亡率的下降速度，宜绘制----。

2. 根据列表原则，指出表F3.1的缺点，并作改进：

表F3.1 1964~1968年急性心肌梗塞患者的病死率

3. 表F3.2目的旨在分析中小学近视性眼底改变（弧形斑眼底）与年级高低、视力不良程度的关系。此表是否符合列表原则，请作改进：表F3.2

4. 图示表F3.3资料，并作简要分析：

表F3.3 某市某年男女学生各年龄组的身高均数

5. 将表F3.4资料中两种传染病死亡率的历年变动，分别绘制普通线图及半对数线图，并说明两种图示法的不同意义。

表F3.4 某市1949~1957年15岁以下儿童结核病和白喉死亡率（1/10万

6. 某地1952年和1972年三种死因别死亡率如表F3.5，试将该资料绘制成统计图。

表F3.5 某地1952年和1972年三种死因别死亡率（1/10万）

算术均数的应用特征：

（1）适用于对称分布的资料

瑞士是一个多山和湖泊的国家，想一想，如果它的山脉扔进它的湖泊，那么两样讨厌的东西将全部去除。注意：前提是山脉和湖泊恰好对应。

一个说明的图例

（2）唯一性一个观察样本或总体只能得到一个算术均数

简单性便于理解，易于计算

（3）由于均数的计算需要每个值的参与，所以容易收到极端值的影响。

CCH	17	19	31	39	48	56	68	73	73	75	80	122
depth	1	2	3	4	5	6	6	5	4	3	2	1

如果一个数误写为1220,则均数编委152.2,而中位数仍是62.

2.2.2 中位数与百分位数

中位数（median，简记为M）

将一组观察值从小到大按顺序排列，位次居中的观察值就是中位数。理论上，全部观察值中，大于和小于中位数的观察值的个数分别为全部数据的50%。

由于一般不计算总体的中位数，所以，我们只提到样本的中位数。

未分组资料的中位数计算法。

中位数的位置

例2.6 9名沙门菌食物中毒患者的潜伏期（小时）为：2，5，9，12，14，15，18，24，60。求其中位数。

本例数据已按从小到大的顺序排列，n＝9，为奇数，则中位数为第5个数。

例2.7 8名杆菌痢疾治愈者的住院天数如下，求其中位数。

4，9，10，12，14，20，24，61

本例n＝8，为偶数，数据已按从小到大的顺序排列，则中位数为：

分组资料的中位数和百分位数计算法。

百分位数（percentile）

概念上可以理解为中位数的推广。从理论上讲，百分位数将数据分为100等分的界值。以PX表示，一个百分位数PX将总体或样本的全部观察值分为两个部分，理论上有X％的观察值比PX小，有（100-X）％观察值比PX大。故百分位数是一个界值，也是分布数列的一百等份分割值。 P50分位数即是中位数。因此，中位数是一特定的百分位数。

更一般地，先从小到大计算累计频数和累计频率，出PX所在的组段，再按公式(2.7)求中位数M及其他百分位数PX。

其中，fX为X％百分位数所在组段的频数；i为该组段的组距；L为其下限；ΣfL为小于L各组段的累计频数。特别地，在求中位数时，X=50，f50是中位数所在组段的频数；i为中位数所在组段的组距。本例：

应用中位数和百分位数时注意：

①中位数和百分位数的计算对资料分布没有特殊要求。所有资料（包含正态分布，偏态分布，开口资料，有极端值，分布不明的资料（都可以计算中位数和百分位数）等。

②样本含量较少时不宜用靠近两端的百分位数来估计频数分布范围；因为在例数较少时，靠近两端的百分数不够稳定。

③中位数比均数具有较好的稳定性。因为中位数不是由全部变量值综合计算所得，它只受位置居中的变量值影响，与两端的极端值无关。但是，由于只采纳了数据的相对大小的信息，不够精确。

2.2.3 几何均数

几何均数(geometric mean)反映其平均增(减)倍数。几何均数一般用G表示，适用于各变量值之间成倍数关系，但作对数变换后指标成单峰对称分布的资料。

(1)未分组资料的几何均数计算法。将n个观察值X1，X2，…，Xn直接相乘，再开n次方，即为几何均数。以公式表示：

当各观察值甚小（接近于0）或过大，或当n较大时，连乘运算常使计算器（机）内存溢出，因而无法运算，这时可借助于对数变换来计算。即先求各观察值的对数值之算术均数，再用反对数变换得其几何均数。以公式表示：

例2.4 5人的血清抗体滴度为1:2，1:4，1:8，1:16，1:32，求平均滴度。

由于数据间呈倍数关系，以用几何均数为宜。先求滴度倒数的平均，

或

故平均滴度为1:8。

(2)分组资料的几何均数计算法。

故该55人的平均抗体滴度为1:37.7。

几何均数的应用：（1）几何均数适用于频数分布呈明显偏态，各观察值之间呈倍数变化(等比关系)的数据，如抗体的滴度，细菌计数等。此时，算术均数对这类资料集中趋势的代表性就差。

（2）计算几何均数时注意：①变量值中不能有0，因为0与任何数的乘积均为0，且0不能取对数。②同一组变量值不能同时存在正、负值。③若变量值全为负值，可在计算时将负号除去，算出结果后再冠以负号。

本文发布于:2024-09-22 03:33:16，感谢您对本站的认可！

本文链接：https://www.17tex.com/xueshu/208150.html

上一篇：参数分布估计

下一篇：每个数据科学家都应该知道的10种机器学习方法

标签：研究因素直线回归指标资料

留言与评论（共有 0 条评论）