统计学概念术语解释4

9.1  直线相关
9.1.1  直线相关概念
当所研究的两个事物或现象之间,既存在着密切的数量关系,又不象函数关系那样,能以一个变量的数值精确地求出另一个变量的数值,我们称这类变量之间的关系称为相关关系。直线相关分析目的是两个变量间是否有协同变化的关系,变化的趋势,变化的密切程度和方向。
直线相关的性质可由散点图(scatter diagram)直观地说明。通常以自变量(independent variable)X为横坐标,应变量(dependent variable)Y为纵坐标,在方格坐标中,每对变量值(XY)的交叉点处,描出一个点,就成为散点图。从散点图上可以粗略地看出,两个变量间相关的方向和密切程度以及两变量间是否呈直线关系。
9-1 某医师研究某种代乳粉营养价值时,用大白鼠做实验,得大白鼠进食量与体重增加量的资料(9-1)
9-1 大白鼠进食量与体重增加量的关系
 
1
2
3
4
5
6
进食量(g)
800
780
720
867
690
787
增加量(g)
185
158
130
180
134
167
 
 
 
 
 
 
 
 
7
8
9
10
11
12
进食量(g)
934
750
820
679
639
820
增加量(g)
186
133
165
145
120
150
       
      图9-1大白鼠进食量与体重增加量的散点图
从例9-1资料的散点图上可看出,当X变量(进食量)增大时,Y变量(增加量)也相应增大,并且这种变化成线性趋势,也就是说XY变量间有直线相关关系。直线相关(linear correlation)又称简单相关(simple correlation)。根据其表现形态又可分为正相关和负相关。
9-2(a)中,两变量的散点呈椭圆形分布,变化趋势同向,为正相关positive correlation,0< r<1
9-2(b)中,两变量之散点在一条直线上,即XY有函数关系,为完全正相关(perfect positive correlation)r=1
9-2(c)表示两变量的变化趋势反向,为负相关negative correlation);-1<r<0
9-2(d)中两变量之散点亦在一条直线上,但趋势反向,为完全负相关(perfect negative correlation),r=-1
9-2(e)中散点呈圆形分布,无趋势,故XY无相关关系r=0
9-2(f)中散点分布平行于X轴,表示X增加或减少时,Y的取值范围并没有变化,故XY无相关关系r=0
9-2(g)中散点呈很规则的抛物线形,表示XY间有非线性的相关关系,但相应的r=0,这是因为,r所表示的仅仅是线性关系;
9-2(h)与图9-2(f)相似,Y增加或减少时,X的取值范围并没有变化,故两者无相关关系。
在直线相关中,用直线相关系数r来描述两个变量间直线相关的方向和密切程度。
 
9-2 相关系数示意
  9.1直线相关
      9.1.2  相关系数的计算与检验
(一)    相关系数的意义
相关系数(correlation coefficient )又称为积差相关系数(coefficient of product-moment correlation),以符号r表示。它是说明具有线性关系在两个变量间,相关关系的密切程度和方向的指标。样本相关系数用符号r表示,总体相关系数用希腊字母ρ(读作rho)表示,计算公式为:
                    (9-1
式中 分别为XY的均数;lXXX的离均差平方和,lYYY的离均差平方和,lXYXY离均差积和,其计算公式分别为:
                      (9-2
                              9-3
              9-4
(二)计算相关系数
9-2 现仍用例9-1的资料,试分析大白鼠进食量与体重增加量之间有无直线相关关系?
1.作散点图,判断是否有线性趋势。从图9-1可知,两变量有线性趋势,成正相关。
2.列相关系数计算表(表),求基础数据 ,再计算XY
的均数 XY的离均差平方和lXXlYYXY离均差积和lXY
10-2 相关系数计算表
编号
进食量X(g)
增加量Y(g)
X2
Y2
XY
1
800
185
640000
34225
148000
2
780
158
608400
24964
123240
3
720
130
518400
16900
93600
4
867
180
751689
32400
156060
5
690
134
476100
17956
92460
6
787
167
619369
27889
131429
7
934
186
872356
34596
173724
8
754
133
562500
17689
99750
9
820
165
672400
27225
135300
10
679
145
641041
21025
98455
11
639
120
408321
14400
76680
12
820
150
672400
22500
123000
合计
    9286
    1853
    7262976
291769
  1451698
 
     
lxx= 7262976(9286)2/12=77159.67
lyy= 291769(1853)2/12=5634.92
                  lxy=
                  =1451698(9286×1853)/12=17784.83
3.按公式9-1得相关系数 r
           
 (三)相关系数的假设检验
上面所求得的相关系数r是样本相关系数,它是总体相关系数ρ的估计值。和其他统计量一样,根据样本资料计算出来的相关系数也有抽样误差。在ρ=0的总体中随机抽样,由于抽样误差的影响,所得r值常不等于零。因此,在计算得到相关系数后,还不能根据 的大小对XY间是否有相关关系作判断,而应进行r是否来自ρ=0的假设检验。相关系数的假设检验可用两种方法。
①t检验法.
H0:ρ=0 大鼠的进食量与体重增重之间无直线相关关系
H1:ρ0大鼠的进食量与体重增重之间有直线相关关系 α=0.05
 
                        9-5
在本例中,r=0.8529n=12,代入公式,得
t界值表,得P<0.01,故可认为大白鼠进食量与体重增加量之间呈正相关。
②直接查表法 相关系数的假设检验亦可按υn2,直接查相关系数r界值表(附表),当 rα(υ)时,Pα;当 ≥rα(υ)时,P≤α。本例r=0.8529,按υn212210,查r界值表,r0.01(10)=0.708,因r r0.01(10),故P0.01
9.2    直线回归
      9.2.1  直线回归的概念
直线回归(linear regression)是处理两变量(其中至少有一个是随机变量)间线性依存关系的一种统计分析方法。
与相关分析不同,回归分析中两变量的地位是不相同的,通常把一个变量称为自变量(independent variable),用X表示;另一个变量称为应变量(response variable),用Y表示。由图9-1可见,增加量Y有随进食量X的增加而增加的趋势,但并非12个点子恰好全都在一条直线上,而是散点图的带状分布有线性趋势。这与两变量间严格对应的函数关系不同,称为直线回归。直线回归分析在于出两个变量有依存关系的直线方程,以确定一条能代表这些数据关系的、最接近各实测点的直线,使各实测点的与该线的纵向距离的平方和为最小。为了区别于一般的函数方程,我们称之为直线回归方程,直线回归是回归分析中最基本、最简单的一种,故又称简单回归(simple regrssion)
9.2.2  回归方程的建立与图示
直线回归方程的一般表达式为:
                                      (9-6)
式中X为自变量, (读作Y hat)为应变量Y的估计值亦称回归值。ab是决定回归直线的两个参数。a是回归直线在Y轴上的截距(intercept),即X=0时的 值;b为回归系数(regression coefficient),即直线的斜率(slope)b>0,表示直线从左下方走向右上方,即YX的增大而增大;b<0,表示直线从左上方走向右下方,即YX的增大而减少;b=0,表示回归直线与X轴平行,或随X改变无增减变化。
求回归方程的关键是要求ab的值,根据数学上的最小二乘法(least square method)原理,使各实测值Y与回归直线上对应的估计值 之差的平方和 为最小,可导出ab的最小二乘法估计(least square estimation)如下:
                                  (9-7)
                                                                  (9-8)
  式中  lXXlXY同前。
9-3 现仍用例9-1的资料,试分析大白鼠进食量与体重增加量的关系试作直线回归分析。
1.与相关分析一样,进行回归分析前要先作散点图,以判断两变量间是否线性趋势。由图9-1可见,大白鼠进食量与体重增加量间有线性趋势。
2.求直线回归方程。在例9-2 lXXlXY已经算得。按公式9-79-8求回归系数b及截距a
              b =
              a =
由此,可列出直线回归方程:
3.绘制回归直线。在自变量X的实测范围内任取相距较远且易读的两个X 值,代入直线回归方程求得两点( 坐标,过这两点作直线即为所求回归直线。本例取X1=750,得 X1=850,得 。所得直线见图9-3
注意所作回归直线一般不宜超过样本的自变量取值范围,因为回归直线是依据样本建立的,在样本的自变量取值范围外,两变量间的关系是否仍然是直线关系,尚不清楚。因此应该避免直线外延。本例应不超过186g。
9-3 大白鼠进食量与体重增加量的关系
9.2    直线回归
      9.2.3  回归系数的假设检验
回归系数假设检验的意义
前面所求得的回归方程是否能表达XY存在直线关系,这是回归分析首要考虑的问题。我们知道,即使XY的总体回归系数β为零(总体并不存在回归关系),由于存在抽样误差,其样本回归系数b也不一定为零。因此,当用样本求得不等于零的回归系数b后,我们还不能立即认为β0,即XY间存在回归关系,必须考虑回归系数的抽样误差问题,因此需对β是否为零进行假设,可用按Y服从正态分布的假定,回归系数的假设可用方差分析或t检验。
应变量总变异的分解
在进行假设检验之前,我们先对应变量y的离均差平方和lYY作一分析。
绘制应变量Y的平方和划分示意图(9-4),图中P点的纵坐标被回归直线与均数 截成三个线段。
第一段(Y ),表示P点与回归直线的纵向距离,即实测值Y 之差,称为剩余或残差。
第二段( ),即估计值 与均数 之差,它与回归系数的大小有关。 越大,( )差值越大,反之亦
然。
第三段 是应变量Y的均数。
上述三线段的代数和为:Y= +( )+(Y )
即,Y =( )+(Y )
这里的P点是散点图中任取的一点,将全部点子都按上述处理,并将等式两边平方后再求和,则有:                   
上述用符号表示:
SS=SS+SS                                                      (9-9)
式中,SS ,为Y的离均差平方和lYY,又称总平方和(total sum of square),它说明未考虑X
Y的回归关系时y的变异。
SS ,为回归平方和(regression sum of square ),它是反映在Y的总变异中由于XY的直线关
系而使Y变异减小的部分,也就是在总平方和中可以用X解释的部分。SS越大,说明回归效果越好。
SS ,为剩余平方和(residual sum of square),亦称为残差平方和。它反映XY的线性影响之外
的一切因素Y变异的作用,也就是在总平方和中无法用X解释的部分。在散点图中,各实测点离回归直线越
近, 也就越小,说明直线回归的估计误差越小。
上述三个平方和,各有其相应的自由度υ,并有如下关系:
υ
υ=n-1,υ=1,υ=n-2                  (9-10)
式中n为样本例数。
SS(lYY)的计算前已叙述,SSSS的计算如下:
SS=b blXY                      (9-11)
SS= SS杭州市城市总体规划SS
回归系数的t检验和方差分析
   (1)        t检验
检验假设为:
H0:总体回归系数β=0,即大白鼠进食量与体重增加量间无回归关系。
H1:总体回归系数β0,即大白鼠进食量与体重增加量间有回归关系。
α=0.05
                        (9-12)
式中Sb为样本回归系数的标准误:
                      (9-13)
Sy.x为剩余标准差(standard deviation regression),亦称标准估计误差(standard error estimation)
                              (9-14)
                              (9-15)
本例:
υ=122=10
t界值表,t0.001(10)=4.587 > t0.001(10) P<0.001,按α=0.05水准,拒绝H0,接受H1,认为在某代乳粉营养价值试验中,大白鼠进食量与体重增加量之间存在直线回归关系,即所拟合的样本直线回归方程有意义。
(2)        方差分析
回归的假设检验还可以用方差分析,且了解此方差分析方法,将有助于理解多元回归及多元逐步回归。这里方差分析的基本思想是:将SS分解为SSSS两部分,然后按公式9-16计算检验统计量F值。
 
υ=1,υ=n-2                                    (9-16)     
H0H1α同上。
将有关数值列成方差分析表,如表9-4。
表9-4 方差分析表
变异来源
SS
υ
MS
F
总变异
5634.92
11
 
 
回归
4099.40
1
4099.40
26.7010
剩余
1535.32
10
153.53
P<0.001
以υ1=1,υ2=10,查F界值表,得P<0.001,按α=0.05水准,拒绝H0,接受H1,认为在某代乳粉营养价值试验中,大白鼠进食量与体重增加量之间存在直线回归关系,即所拟合的样本直线回归方程有意义,结论同t检验。
读者不难验证在直线回归中,下面关系式成立:
说明在直线相关与直线回归中,相关系数rt检验、回归系数的t检验与回归方程的方差分析是等价的。
9.2    直线回归
 9.2.3      直线回归的区间估计
1.      总体回归系数的区间估计
估计公式:(
其中,b为样本回归系数,Sb回归系数的标准误。
9.3 试用例9.2所计算的样本回归系数0.2305估计总体回归系数的95%可信区间。
由例9.2已算得Sb=0.0446,υ=12-2=10,t界值表得t0.05(10)=1.228.按上式计算可信区间为:
0.2305-2.228×0.0446, 0.2305+2.228×0.0446)=(0.1311,0.3299)
2.      总体条件均数的区间估计
条件均数是只当X取定值X0Y的均数,X0代入回归方程得到的是样本条件均数,对总体条件均数 (也可用μY|X表示)的估计可计算其可信区间。其标准误为:
                     
1-α可信区间可由下式计算。
                     
9.4 用例9.2所求直线回归方程,计算当X0=750, 95%可信区间
X=750代入回归方程,
                                  SY.X12.3921
LXX=77159.67 计算得到
                                  t0.05(10)=1.228
148.9278-2.228×3.7321, 148.9278-2.228×3.7321)=(140.6113,157.2443)
3.      观察值Y的条件容许区间估计
总体中当只当X取定值X0时,个体Y值的波动,其标准差为
             
X取定值X0时观察值的1-α的容许区间按下式计算
           
9.5 用例9.2所求直线回归方程,计算当X0=750,Y95%容许区间.
X=750代入回归方程,
                                  SY.X12.3921
LXX=77159.67 计算得到
                                  t0.05(10)=2.228
148.9278-2.228×12.9418, 148.9278-2.228×12.9418)=(120.0935,177.7621)
 9.2.4  回归方程的应用
1.描述两变量间的依存关系 通过回归系数的假设检验,若认为两变量间存在着直线回归关系,则可用直线回归方程 来描述两变量间的依存关系。如由例9-3 算得的回归方程 就是大白鼠进食量与体重增加量之间的定量表达式。
2.利用回归方程进行预测(forecast)  这是回归方程的一个重要的应用。所谓预测就是把预报因子(自变量X)代入回归方程对预报量(应变量Y)进行估计,其波动范围可按求y值容许区间的方法计算。
例9-5 某防疫站根据10年来乙脑发病率(1/10万,预报量y)与相应前一年7月份日照时间(小时,预报因子X)建立回归方程,将乙脑发病率作平方根反正弦变换,即 ,求得回归方程 , Sy.x=0.0223, =237.43, lxx =5690,n=10,已知1990年7月份日照时间X =260小时,估计1991年该地的乙脑发病率(设α=0.05)。
y值的1-α容许区间可按下式计算
,可简写成
                                      (9-17)
                    (9-18)
本例
α=0.05,υ=10-2=8,查t界值表得t 0.05(8)=2.306,又 =-1.197+0.0068×260=0.571,按公式(9-17),95%容许区间为
(0.571-2.306×0.0243,0.571+2.306×0.0243)=(0.5150,0.6270),取原函数,y=(sinY)2, 得95%容许区间为(0.0000808,0.0001197)。
故可预测该地1991年乙脑发病率有95%的可能在8.08~11.97/10万之间。
3. 利用回归方程进行统计控制 统计控制是利用回归方程进行逆估计,如果要求应变量Y在一定范围内波动,可以通过控制自变量X的取值来实现。
例9-6 某医师以20例糖尿病病人研究血糖水平(mmol/L)与胰岛素(mu/L)的关系,建立了血糖(Y)与胰岛素(X)的回归方程为 =18.965-0.463X,剩余标准差SY.X=1.672。现欲使某糖尿病病人的血糖保持在正常范围上限6.72mmol/L附近,问应将患者血中的胰岛素控制在什么水平上?
取95%的控制水准,按公式(9-17),以SY.X代替SY,将6.72作为单侧预测区间的95%的上限,则有:
6.72= +单侧t0.05(18)Sy.x
已知Sy.x=1.672,查t界值表得:单侧t0.05(18)=1.734,则:
6.72=(18.965-0.463X)+1.734×1.672=21.864-0.463X
解方程得X=32.71。即只要把胰岛素水平控制在32.71mu/L以上,就有95%可能使血糖不超过正常范围上限6.72mmol/L。
9.3  直线相关与回归应用时的注意问题
   9.3.1 直线相关与回归的区别与联系
1.区别:
(1)      在资料要求上,如果X可以精确测量和严格控制,回归只要求应变量Y作为随机变量且服从正态分布,此种回归属于Ⅰ型回归;如果X和Y需要相互推断,则要求X、Y为随机变量且都要服从双变量正态分布,此资料类型属于Ⅱ型回归。可以计算两个回归方程:由X推Y的回归方程 ;由Y推X的回归方程
而相关分析要求资料服从双正态分布。
(2)在应用上,相关分析用于说明两变量间的相互关系,描述两变量X、Y相互之间呈线型关系的密切程度和方向;回归分析用于说明两变量间的依存关系,可以用一个变量的数值推算另一个变量的数值。
2.联系:
(1)正负符号:在同一资料中,计算rb值的符号应该相同。
(2)假设检验:在同一资料中,rb值的假设检验的统计量t值相等,即 tr=tb
(3)rb换算关系如下:b= 。在Ⅱ型回归中:
(4)用回归解释相关:相关系数r的平方称为决定系数,也称为相关指数。公式为:
其值在0-1之间。决定系数表示Y的变异中可由X解释的部分占总变异的比例。因此r2越接近于1,说明应用相关分析的意义越大,即贡献越大;相反的意义亦成立。
9.3.2  设计与应用直线相关与回归的注意事项
1.作相关与回归分析要有实际意义。不要把毫无关联的两个事物或现象用作相关、回归分析,如儿童身高的增长与小树的增长,作相关分析是没有实际意义的;如果计算由儿童身高推算小树高的回归方程,更无实际意义。又如,事先不管两个变量间是否相关,只凭散点图上一些杂乱的散点来配一条回归直线,也是毫无意义的。
2.对相关分析的作用要正确理解。相关分析只是以相关系数来描述两个变量间直线关系的密切程度和方向,并不能阐明两事物或现象间存在联系的本质;即使存在相关关系,也并不能证明是因果关系。事物间的内在联系尚未被认识时,可根据相关分析的数量关系给理论研究提供线索。但是要证明两事物间的内在联系,必须凭借专业知识从理论上加以阐明。
3.相关和回归都是分析两变量间关系的统计方法。相关表示相互关系,回归表示从属关系。在相关分析和回归分析前都必须先作散点图,以判断两变量间的关系是否为线性趋势,有无离点等。
4.积差和法相关与等级相关。积差和法相关计算相关系数r适用于双正态分布资料;当资料明显呈偏态分布或者原始资料只能用等级划分或难以判定资料属何种分布的,宜按等级相关处理。(见非参数统计一章)。
5.回归系数的统计学意义。不能仅根据回归系数假设检验之P值判断回归效果的优劣,因P值除与回归系数的大小有关外,还与样本含量有关。对于判断大样本回归系数的统计学意义尤其要谨慎。要想说明回归的贡献大小,需用决定系数r2作定量的度量。
6.回归方程的使用范围为自变量X原观察数据的范围而不能随意外推,因为我们并不知道在这些观察值的范围之外,两变量间是否也存在同样的直线关系。
复习思考题
简答题:
1.    相关与回归的联系与区别?
2.    应用直线回归和相关分析应注意哪些问题?
3.    举例说明如何用直线回归方程进行预测和控制?
4.    进行回归分析时怎样确定自变量和应变量?
5.    剩余标准差的意义与用途?
6.    某资料的xy的相关系数r=0.8,可否认为XY有较密切的相关关系?
选择题:
1.|r|>r0.05(v)时,可认为两变量之间:
A.有一定关系    B.有正相关关系
C.大豆糖蜜有直线关系    D.一定有直线关系
2.相关系数假设检验的无效假设为:
Ar来自ρ=0的总体 B.r有高度相关性
C.r来自ρ0的总体 Dr来自ρ>0的总体
3.Syx 和 Sb 分别表示:
A.      Y的离散程度和b的抽样误差  B. Y对Y的离散程度和标准估计
C.Y和X的离散程度和b的抽样误差  D. Y对Y的离散程度和b的抽样误差
4.下列      式可出现负值。
      B
        D
5 =14+4X  1-7岁儿童以年龄(岁)估计体重(市斤)的回归方程,若体重换算成国际单位千克,则此方程式有:
截距改变 B 回归系数改变两者都有改变两者都不改变
6.用最小二乘法确定直线回归方程的原则是各实测点
A距直线的纵向距离相等            B距直线的垂直距离相等
C 距直线的纵向距离的平方和最小    D距直线的垂直距离的平方和最小
7.已知r=1,则一定有         
A b=1        B  a=1                C Syx =0            D F=0
8.直线回归分析中,当x一定时,y值的波动范围愈大,则      愈大。
A       B            C        D
计算分析题:
.某监测站拟用极谱法( )替代碘量法(mg/l)来测定水中溶解氧含量。今对13个水样同时用两种方法测定,结果如下,请进行相关回归分析。
编号
极谱法
碘量法
1
5.3
5.84
2
4.8
5.00
3
5.3
5.85
4
5.2
5.80
5
2.1
0.33
6
3.0
1.96
7
3.3
2.27
8
2.8
1.58
9
3.4
2.32
10
2.3
0.76
11
6.8
7.79
12
6.3
7.56
13
6.5
7.98
 查看答案
简答题
1.  查看内容9.3.1
2.  查看内容9.3.2
3.  查看内容9.2.3
4.  回归分析中自变量一般为原因,预测因子,因变量一般为结果,预报量。例如,身高是体重的重要决定因素,回归分析中以身高作为自变量,体重作为因变量。再如在临床诊断中一般自变量为易测量的指标,因变量为不易测量的,有创伤的,昂贵的测量指标,这样通过建立两类指标的回归方程可以通过自变量指标来预测因变量指标的可能范围。
5.  剩余标准差,亦程标准估计误差。是在扣除自变量的影响后因变量的变异程度。可用于衡量回归方程估计的精度。
6.不能.相关系数r=0.8只是样本相关系数,不能得出对两变量总体的相关关系确认,必须通过相关系数的假设检验。其检验假设为ρ=0。当检验结论拒绝H0时方可根据较大的相关系数(0.8)认为两变量存在较密切的相关关系。
选择题:
1.C2.A3.C4.D5.C6.C7.C8.D
计算分析题:
解:直线相关分析
r=0.99759
假设检验Ar来自的总体 B.r有高度相关性
C.r来自的总体 Dr来自ρ>0的总体
 
H0:ρ=0 两种方法的测量值有直线相关关系
H1:ρ0两种方法的测量值无直线相关关系 α=0.05
tr=|r|/{√(1-r2)/(n-2)}=67.49 v=11
P<0.0001,拒绝H0,接受H1,两种方法的测量值有直线相关关系。
直线回归分析
回归方程为:Yhat=-3.16425+1.68433x
假设检验
H0:β=0 两种方法的测量值无直线相关关系
H1:β≠0两种方法的测量值有直线相关关系 α=0.05
方差分析法F=2277.63p<0.0001
t 检验法 t=47.72
p<0.0001, P<0.0001,拒绝H0,接受H1,两种方法的测量值有直线回归关系。
前面几章介绍的医用统计方法,只对单因素或最多两个因素(如直线回归、两因素方差分析等)的关系进行研究。这种研究方法,在实验设计方面,要求除所研究的因素外,其他因素都应具有均衡和可比性。然而,影响人的生理、病理变化和疾病发生发展过程的因素很多。如心血管疾病的发生与年龄、工种、饮食习惯、精神状态等都有关系。这些因素间可能互相有联系。如果用单因素分析方法处理,只能孤立地、局部地反映各个因素对疾病的影响。为此,应考虑多因素和多指标问题的统计分析方法。这些统计方法在医学研究中能较全面地、整体地反映多个因素对人的生理、病理变化和对疾病发生发展的影响,并能分析各因素间的交互作用。近年来,随着电子计算机及软件的普及,多因素分析方法已在医学研究的病因分析、疾病辅助诊断和疾病的预测等方面都有广泛的应用。本章仅介绍多元线性回归分析。
10.1    多元线性回归的意义
直线回归是描述一个因变量Y(如儿童的体重)与一个自变量X(如儿童的年龄)间的线性依存关系。当影响因素Y变化的因素不止一个时,要进一步研究一个因变量与多个自变量X1,X2,,Xm间的线性依存关系,则称为多元线性回归(multiple linear regression)。其一般形式为:
= b0+b1X1+b2X2+……+bmXm
其中 是因变量Y的估计值,X1,X2,,Xm是自变量,m是自变量个数,b0为回归方程的常数项,bi是自变量Xi的偏回归系数,它表示在其他自变量固定的条件下,自变量Xi改变一个单位时,因变量Y的改变量。
多元线性回归模型应满足:(LINE
YX1X2。。。Xm之间具有线性关系
各个观测结果Yi相互独立
残差e服从均数为0,方差为σ2的正态分布
等方差性:任一组自变量X1X2。。。Xm值,应变量Y具有相同方差。
 
10.2    求多元线性回归方程的基本步骤
1010.127名糖尿病人的血清总胆固醇、甘油三酯、空腹胰岛素、糖化血红蛋白、空腹血糖的测量值,试建立血糖与其它几项指标关系的多元线性回归方程。
计算步骤:
(1)      计算各自变量和因变量的和、平方和、离均差平方和及离均差积和
离均差积和:
  lij= ;  lij=lji
  liy= ;    liy=lyi
  i=j时,即为离均差平方和
                    表10.1  27名糖尿病人的血糖及有关变量的测量结果
病人编号
i
总胆固醇
X1(mmol/L)
甘油三酯
X2(mmol/L)
胰岛素
X3(μU/ml)
糖化血红蛋白
X4%
血糖
Ymmol/L
1
5.68
1.90
4.53
8.2
11.2
2
3.79
1.64
7.32
6.9
8.8
3
6.02
3.56
6.95
10.8
12.3
4
4.85
1.07
5.88
8.3
11.6
5
4.60
2.32
4.05
7.5
13.4
6
6.05
0.64
1.42
13.6
18.3
7
4.90
8.50
12.60
8.5
11.1
8
7.08
3.00
6.75
11.5
12.1
9
3.85
2.11
16.28
7.9
9.6
10
4.65
0.63
6.59
7.1
8.4
11
4.59
中国饮食文化的发展1.97
3.61
8.7
9.3
12
4.29
1.97
6.61
7.8
10.6
13
7.97
1.93
7.57
9.9
8.4
14
6.19
1.18
1.42
6.9
9.6
15
6.13
2.06
10.35
10.5
10.9
16
5.71
1.78
8.53
8.0
10.1
17
6.40
2.40
4.53
10.3
14.8
18
6.06
3.67
12.79
7.1
9.1
19
5.09
1.03
2.53
8.9
10.8
20
6.13
1.71
5.28
9.9
10.2
21
5.78
3.36
2.96
8.0
13.6
22
5.43
1.13
4.31
11.3
14.9
23
6.50
6.21
3.47
12.3
16.0
24
7.98
7.92
3.37
9.8
13.2
25
11.54
10.89
1.20
10.5
20.0
26
5.84
0.92
8.61
6.4
13.3
27
3.84
1.20
6.45
9.6
10.4
(2)      建立正规方程,并解正规方程
正规方程是根据最小二乘法原理求解偏导数得到的
    l11b1+l12b2+ l13b3+l14b4=l1Y
    l21b1+l22b2 +l23b3+l24b4=l2Y
      l31b1+l32b2+ l33b3+l34b4=l3Y
    l41b1+l42b2 +l43b3+l44b4=l4Y
    本例为:
    66.0103b1+67.3608b2-53.9523 b3+31.3687 b4=67.6962
    67.3608b1+172.3648b2-9.4929 b3+26.7286b4 =89.8025
    -53.9523b1-9.4929b2+350.3106 b3-57.3863 b4= -142.4347
31.3687b1+26.7286b2-57.3863 b3+86.4407 b4=84.5570
以上解可通过计算机软件实现。
3)建立多元线性回归方程,先求b0
    b0= b1 b2 b3 b4 = 5.9433
    = 5.9433+0.1424X1+0.3515X2-0.2706 X3+0.6382 X4
偏回归系数b1说明总胆固醇含量每升高1mmol/L,血糖浓度升高0.1424mmol/L;胰岛素每升高1μU/ml,血糖浓度降低0.2706mmol/L;依次类推。
10.3      多元线性回归方程的假设检验
1    回归方程的假设检验
用方差分析法,同简单直线回归
这里RR2=SS/SS的开方,称复相关系数
2    各自变量的假设检验
(1)      偏回归平方和法
某一自变量Xj的偏回归平方和是指模型中剔除该变量引起模型回归平方和减少的量或引进该变量使原有模型的回归平方和增加的量。见表10.2
              表10.2      回归分析部分中间结果
方程中变量
方程外
变量
偏回归平方和
SSXj
平方和
SS
SS
X1X2X3X4
 
 
133.7107
88.8412
X2X3X4
X1
133.7107-133.0978=0.6129
133.0978
89.4540
X1 X3X4
X2
133.7107-121.7480=11.9627
121.7480
100.8038
X1X2 X4
X3
133.7107-113.6472=20.0635
113.6472
108.9047
X1X2X3
X4
133.7107-105.9168=27.7939
105.9168
116.6351
自变量Xj的偏回归平方和的检验
H0βj=0  H1j≠0
检验公式:Fj=[SS(Xj)/1]/[SS/(n-m-1)]
本例F1=[0.6129/1]/[88.8412/(27-4-1)]=0.152F2=2.962F3=4.968F4=6.883
F0.05(1,22)=4.30
结论为胰岛素(X3)与糖化血红蛋白(X4)与血糖Y有线性回归关系,且从偏回归平方和看糖化血红蛋白的回归贡献更大些。
(2)      t检验
  该检验同简单线性回归假设检验中的t检验
(3)      标准化偏回归系数
由于各个自变量的单位不同,因此不能仅从求得的偏回归系数大小来衡量某一自变量对因变量的影响大小 ,需要对各个自变量的测得值进行标准化,即
由于各个自变量的单位不同,因此不能仅从求得的偏回归系数大小来衡量某一自变量对因变量的影响大小 ,需要对各个自变量的测得值进行标准化,即         
由这些新的观察值进行回归分析得到的偏回归系数称为标准偏回归系数,各自变量标准偏回归系数可以进行排队,如本例4个自变量的标准偏回归系数依次为0.0776,0.3093,-0.3395,0.3977可以说对血糖影响大小的顺序依次为糖化血红蛋白(X4)、胰岛素(X3)、甘油三酯(X2)、和总胆固醇(X1
10.4  变量的筛选
多元线性回归分析中,常常通过专业知识或实践经验去挑选那些对因变量有影响的自变量与因变量Y建立回归方程。但是,所选择的自变量间可能彼此有联系,以致于有些自变量单独的看,对因变量有作用;而与另一些自变量组合在一起时,在回归方程中对因变量所起的作用,却会被其它的自变量所代替。那么,要从为数众多的因素中选择自变量,以建立效果最优的回归方程,只能从m个自变量所有组合所建立的2m-1个方程挑选出最好的一个,显然当m很大时,这种选择方法是不可取的,为此,统计中常用方法之一是逐步选择法。
计算思路
               引入:
                                    剔除:
              引入、剔除:
 
10.5   应用
1 可以描述某些自变量与某一因变量间的数量关系;
2 分析某些因素对疾病发生、发展及预后的影响程度。
练习题
1为什么要作多变量分析?
答:医学研究中许多疾病都有多种原因,而且预后是由多种因素决定的。即使对那些忆知是由单一病原体导致的感染性疾病,也有许多因素影响易感个体是否发病,如遗传特征、感染途径及程度、自身免疫力等。由于各因素间往往相互联系,多变量回归分析可以帮助我们分析变量间的数量依存关系,出危险因素的多面性本质,以及它们对结果变量的相对作用大小。同时多变量回归还可以在医学干预研究中,对混杂因素进行校正。
2你认为在逐步选择法中哪种方法更好些?
答:回归方程中引入什么变量,理想的做法是由研究者根据理论和经验决定,在缺乏专业依据的情况下,可以采用回归筛选技术。在自变量数目较多的情况下可选择逐步选择法。在前进法、后退法和逐步回归法三种方法中,相比较而言后退法考虑了变量的组合作用,理论上更好些,但变量数目不能太多,而逐步回归法适合多种情况,更实用一些。
美丽的传统的耶稣降生的故事开头的诗句:在这些日子里,奥古斯塔斯大帝颁诏书,全世界人民须纳税。为了这次纳税登记,jensus and mary去bethlehem,耶稣就是在哪里降生的。
以列人出埃及地后,第二年二月初一,耶和华在西乃的旷野,会幕中晓谕摩西说,你要按以列全会众的家室,宗族,人名的数目计算所有的男丁。凡以列中,从二十岁以外能出去打仗的,你和亚伦要照他们的军队数点。新旧约全书,南京,1982
   以上叙述大约在公元前1500年。人口调查的目的是为征兵和纳税提供基本数据。公元前三千年 中国和埃及都已进行过人口调查。十六世纪早叶,伦敦出现死亡公报。死于瘟疫 受洗礼的人 十六世纪末,死于其他疾病的数据。由此可以看到,包含了出生,疾病,死亡等的生命统计是统计学比较古老的渊源之一。
11.1      医学人口统计常用指标
静态人口统计即人口数和年龄性别等构成
动态人口统计 出生,死亡
  11.1.1  医学人口统计资料的来源
1.    人口普查census
对一个国家或一定地区内的全部人口,在特定时点上,进行调查以及资料整理和公布的全过程。它是在一国政府主持下,在国家规定的统一时间内,用统一的方法,统一的项目,对标准时点上的全体人口状况进行的专门的全面调查。
    方法:
实际制:采用一年的中点即七月一日零时为标准时刻,统计全国实际存在的人数,包括临时
        在该地居住的人;
        法定制:统计常住人口。
    普查一般都是由政府主持,通常每5~10年进行一次。我国在53、64、82、90和00进行了五次人口普查。
  意义:
    提供最基本的人口数据和社会经济方面的资料,是计算人口学和社会经济学指标的基础;同时为卫生部门提供出生、死亡和生育等情况信息。
2.  人口抽样调查
按随机原则从被研究的人口中抽选一部分单位作为样本进行调查,并根据调查所得资料,推断全部人口相应各项指标值的一种非全面调查。人口抽样调查的方式主要有纯随机抽样、机械随机抽样、分类随机抽样和整随机抽样等。
没有普查的年份里,一般用人口抽样调查来获取人口及社会经济资料;用于普查的质量控制和误差估计可以用抽样复查的方法。
 3. 人口登记 
生命事件登记  简称生命登记,指对生命事件包括出生、死亡、胎儿死亡、结婚、离婚、收养、生育、认领、离弃等的法定登记,记录和报告生命事件的发生,收集、整理和分析生命事件的有关资料。
      对出生后死亡的婴儿要登记一次出生、一次死亡。
人口迁移变动登记  包括国内和国际迁移。
户口登记  我国和少数几个国家采用
1 6.1.2  人口数与人口构成-静态统计
1. 人口总数 
年平均人口数用
    年初(上年末)人口与年末人口的均数 12.31;
    年中人口数 某年7.1零时。
  2. 人口构成及其分析指标
  基本人口学特征  性别、年龄、文化、职业等特征。
  人口年龄构成指标
a.    人口系数 
 老年人口系数:
老年人口系数=
65岁及以上人口数
×100%
人口总数
         少年儿童系数
少年儿童系数=
14岁及以下人口数
×100%
人口总数
      b.负担系数:burden coefficient又称抚养比或抚养系数,人口中非劳动年龄人数与劳动年龄人数之比。劳动年龄指15~64岁;分总负担系数、老年负担系数和儿童负担系数三类
总负担系数=
14岁及以下人口数+65岁及以上人口数
×100%
15~64岁人口数
    c.老少比:65岁及以上人口数: 14岁及以下人口数
       性别比 sex ratio 包括:出生婴儿性别比、年龄别性别比、婚龄人口性别比等。
        人口金字塔  图11.1 利用几何图形形象表示人口性别年龄构成的方法。
    四种基本类型:
      正金字塔:
      倒金字塔:
      圆锥式金字塔:上下几乎相等,中间稍有变化。为静止型或稳定型。
      缺陷型金字塔:瑞典人口学家桑德巴人口类型划分标准:
年龄       
增长型   
静止型
缩减型
0~14
40   
26.5
20
15~49
50
50.5
50
50以上   
10   
23.0
30
11.1.3  生育与计划生育统计
11.1.3.1.  资料来源
        公安、卫生、民政和计划生育等部门
11.1.3.2.  统计指标
      (1)生育水平指标
      粗出生率
活产总数/年平均人口数×1000%0
优点:资料易获得,计算简单;
缺点:受年龄,性别,婚姻状况构成的影响。
      总生育率
活产总数/15~19岁妇女数×1000%0
优点:消除了年龄性别构成不同对生育水平的影响。
缺点:受育龄妇女内部年龄构成影响。
      年龄别生育率
活产总数/某岁组妇女数×1000%0
优点:消除了育龄妇女内部年龄构成不同对生育水平的影响。
缺点:不能概括反映所有育龄妇女的概括生育水平。
      终生生育率
实际的生育水平
终生生育率
该批妇女生育的活产子女数
经过整个育龄期的某批同龄妇女总数
优点:消除了育龄妇女内部年龄构成不同对生育水平的影响。
优点:反映了一批妇女的实际生于水平;缺点:需要健全的登记制度,获得资料较难。
      总和生育率
总和生育率=n*∑各年龄组生育率:
若某妇女按某年的年龄别生育水平度过其一生的生育历程后,可能生育的子女总数。预期生育水平
优点:反映的是调查年横断面上的生于水平,排除了年龄构成影响的综合指标。
  (2)人口再生育的统计指标
      自然增长率natural increase rate NIR
          粗生育率与粗死亡率之差。
优点:资料易获得,计算简单;
缺点:受年龄,性别的影响较大
      粗再生育率 gross reproductive rate GRR
女婴的总和生育率。
粗生育率
该批妇女生育的活产女婴数
经过整个育龄期的某批同龄妇女总数
优点:消除了性别和育龄内部年龄构成不同对再生育水平的影响。
缺点:没有考虑育龄期以及育龄期前死亡再生育水平的影响。
      净再生育率  net reproductive rateNRR
确切能替代母亲一代执行生育职能的女婴数。即粗再生育率扣除在0~49岁期间的死亡数
表11.1 GRR,NRR,LG计算
年龄组
组中值
每1000名妇女每年所生女婴数
每名妇女期内生存人年数5Lx/lx
每1000名妇女期内所生女婴数
女婴生存总人年数
(1)
(2)
(3)
(4)
(5)=(3)*(4)
(6)=(5)*(2)
15~
17.5
9.59
4.69452
45.02
787.86
20~
22.5
111.55
4.66742
520.63
11714.19
25~
27.5
72.35
4.63415
335.28
9220.22
30~
32.8
30.98
4.59802
142.45
4629.52
35~
37.5
9.10
4.55405
41.44
1554.07
40~
42.5
2.78
4.49746
12.50
531.37
45~49
47.5
0.59
4.41931
2.61
123.85
合计
-
236.94
-
1099.93
28561.08
NRR=∑ASDR(F)*5Lx/lx=1099.93
      平均世代年数Mean length of generation, LG
母亲一代所生女婴取代母亲执行生育职能时平均所需的年数。
育龄妇女生存总人年数/净再生育率=25.966
注:净再生育率和平均世代年数都是都是较好的较好的反映再生育水平的综合指标,不受年龄,性别,死亡情况等影响。
11.1.4  人口死亡统计
 1.资料来源
    公安部门。注意婴儿死亡的漏报。
 2.统计指标及分析
(1)测量死亡水平的指标
      粗死亡率
粗死亡率=
同年内死亡人数
×1000%0
某年平均人口数
      年龄别死亡率
年龄别死亡率=
同年内死亡人数
×1000%0
某年某年龄组平均人口数
      婴儿死亡率  反映卫生状况和婴儿保健的重要指标
婴儿别死亡率=
同年内不满一周岁婴儿死亡数
×1000%0
某年活产总数
      新生儿死亡率 活产数28天。
      围产儿死亡率28周到7天
      5岁以下儿童死亡率
      孕产妇死亡率
      死因别死亡率
死因别死亡率=
同年内某类死因死亡人数
×1000%0
某年平均人口数
 
注意:以上各指标的优缺点分析同前生育水平测量指标。优缺点从是否受人口基本构成特征影响和是否可以综合反映所测量的人口统计特征方面来分析。
(2)死因构成与死因顺位
      死因构成或相对死亡比
某类死因构成比=
同年内某类死因死亡人数
×1000%0
某年死亡总人数
 
死因顺位:按各类死因构成比的大小由高到低排列的位次。
  11.2    疾病统计常用指标
    11.2.1. 资料来源
      疾病报告和报表资料  法定传染病、地方病、职业病和某些慢性病等,这样一些国家或部门规定要报告的资料。
      医疗卫生工作记录  病历
      疾病调查资料  体检、普查和疾病抽样调查。
    11.2.2.  疾病和死因分类
疾病命名与分类
ICD国际疾病分类,每10年修订一次,93年1月1日起执行ICD-10。
    11.2.3.  常用统计指标
(1)反映疾病发生水平的指标
      发病率
一定时期内,人中某病的新发病例数。
      患病率
现患率,指某时点上受检人数中现患某种疾病的人数。用于描述病程长或发病时间不易确定疾病的情况。
(2)反映疾病构成情况指标 某病构成比
(3)反映疾病危害程度和防治效果的指标
      某病死亡率  同死因别死亡率
      某病病死率
      治愈率
      有效率 
      生存率
   11.2.4.  残疾统计   
11.3  寿命表
    11.3.1.  寿命表Life table的概念
Graunt 发展了现在保险公司所用的死亡率表。
直观的理解:记录一批人的死亡过程的表格。
人的死亡过程和年龄有关的死亡。通过不同年龄的死亡来体现。
其基础指标是年龄别死亡率。
定义:根据特定人的年龄组死亡率编制出来的一种统计表。通过计算预期寿命等统计指标来评价人的健康状况。
类别:
现时寿命表 
从一个断面看问题,假定有同时出生的“一代人”,按 照某人现时人口实际年龄组死亡率陆续死去,计算出来的这一代人按年龄的尚存人数、死亡人数、生存人年数及预期寿命。
1.      完全寿命表  以一岁一组进行计算的寿命表
2.      简略寿命表  除零岁组外每五岁一组计算的寿命表。
定寿命表 
队列寿命表,是对某特定人中的每人从进入该人中直到最后一个人死亡,记录的实际死亡过程。
说明:
①两种寿命表各有优缺点。现时寿命表不是实际的死亡情况的描述,是以某一断面为依据,当各年龄组死亡率随时间变动不大时,结果比较可信;定寿命表要根据实际的死亡情况,所以需要的时间长
②寿命表做为一种综合评价方法可以广泛推广。如计算某手术后生存情况的寿命表等。凡是涉及事物的寿命现象的问题,都可以用寿命表来分析研究。
    11.3.2.  寿命表的编制原理与方法(主要指标的概念与计算)表11.2
11.2 我国某地1982年男性简略寿命表
年龄组
平均人口数
实际死亡人数
年龄组死亡率
死亡概率
尚存人数
死亡人数
生存人年数
生存总人年数
平均期望寿命
X~
nPx
nDx
nmx
nqx
lx
ndx
nLx
Tx
eX
0~
30005
429
 
0.0142980
100000
1430
98785
6891747
68.92
1~
86920
105
0.001208
0.0048200
98570
475
393330
6792962
68.91
5~
102502
81
0.000790
0.0039434
98095
387
489508
6399632
65.24
10~
151494
113
0.00075
0.0037226
97708
364
487630
5910123
60.49
15~
182932
157
0.00086
0.0042820
97344
417
485678
5422493
55.70
20~
203107
215
0.001059
0.0052788
96927
512
483355
4936815
50.93
25~
190289
221
0.001161
0.0057901
96415
558
480680
4453460
46.19
30~
147076
181
0.001231
0.0061344
95857
588
477815
3972780
41.44
35~
99665
160
0.001605
0.0079948
95269
761
474443
3494965
36.69
40~
90891
234
0.002575
0.0127902
94508
1209
469518
3020522
31.96
45~
105382
417
0.003957
0.0195914
93299
1828
461925
2551004
27.34
50~
86789
602
0.006936
0.0340907
91471
3118
449560
2089079
22.84
55~
69368
919
0.013248
0.0641173
88353
5665
427603
1639519
18.56
60~
51207
1328
0.025934
0.1217745
82688
10069
388268
1211916
14.66
65~
39112
1691
0.043235
0.1950876
72619
14167
327678
823648
11.34
70~
20509
1561
0.076113
0.3197264
58452
18689
245538
495970
8.49
75~
9301
1126
0.121062
0.4646748
39763
18477
152623
250432
6.30
80~
3463
631
0.182212
0.6259300
21286
13324
73124
97809
4.59
85~
834
269
0.322542
1.0000000
7962
7962
24685
24685
3.10
   
11.3  寿命表
年龄 
  X 指刚满年龄,而非实足年龄年龄分组 0岁组0~,1岁组,从五岁以上均为5岁一组
年龄组死亡率
根据年龄组死亡率求得。表示X岁尚存者在今后一年或n 年内死亡的可能性。
两个下标的意义:x为刚满年龄,n为在今后n年内
年龄组死亡率  mx=Dx/Px  或nmxnDx/nPx 
    Dx:年龄组死亡数  Px:年龄组人口数
例如一岁到五岁前死亡率
m1 =105/86920=0.00128(0岁组为新生儿死亡率)
年龄组死亡概率
0岁组的死亡概率用婴儿死亡率代替
        qx=2mx/(2+mx)  或nqx=2n nmx/(2+n nmx)
4q1=2nnmx/(2+n4m1)
=2*4*0.00128/(2+4*0.001208)=0.004820
尚存人数 与死亡人数
lx表示X岁尚存人数,指在同时出生的一代人中活满X岁的人数。
dx表示X岁死亡人数,指在同时出生的一代人中在X岁期间的死亡人数。
dx=lx q或  ndx=lx  nqx
lx+1=lx-dx  或lx+n=lxndx
d0=l0*q0=100000*0.014298=1430
l1=l0 - d0=100000-1430
4d1 =l1*4q1=98570*0.00482=475
l5= l1-4d1=98570-475=98095
生存人年数
Lx(nLx) 指X岁尚存者在今后一年(或n年)内的生存人年数,即曲线下的面积。当n小时近似梯形面积。
Lx=(lx+lx+1)/2  或nLx=n(lx+nlx共享)/2
    婴儿组的L0=l1+a0 d0  a0:0岁组死亡者的平均存活年数,我国的经验系数为0.15; d0:0岁组预期死亡数
L0=98570+0.15×1430=98785
4L1=4(98570+98095)/2=393330
5L5=5(98095+97708)/2=489508
    最后一组的Lw=lw/mw  lw:生存人数;mw:死亡率
本例,L85(+)=l85/m85(+)=24685
生存总人年数
X岁的尚存者在X岁及以上各年龄组生存人年数的总和,即
    Tx=ΣLx  或Tx=∑nLx
T85=∑nLx =L85(+)=24685
T80=∑nLx = L85(+)5L80=24685+73124=97809 余类推.
平均预期寿命   
X岁尚存者预期还能存活的人年数    ex=Tx/lx
E0=T0/l0=6891746/100000=68.92
e1=T1/l1=6792961/98570=68.91
    11.3.3.  寿命表的分析与应用
  一、常用分析指标
1.      尚存人数
用线图表示,要注意曲线的高度和曲度,尤其是头部的曲度变化。插入图11.1
生存率或生存比(lX+n/lX
寿命表中位年龄(尚存半数年龄)l0/2
2. 死亡人数  与尚存人数意义相反。
3. 死亡概率: 用半对数线图表示。健康水平高则曲线低。图11.2
4. 预期寿命:综合评价指标,反映X岁的人受其后各年龄组死亡情况的影响而呈现的生命过程。e0也称平均寿命,可概括说明某人的健康水平。图11.3
用线图表示,主要注意起点、曲线头部的曲度。
    注意:
①一般ex随年龄的增加而减少,但由于受年龄组死亡情况的影响,有时当婴儿死亡率较高时,会发生eo<e1的现象。这主要是因为婴儿死亡率过高导致的。
②平均寿命与平均死亡年龄的区别。平均寿命的计算只与各年龄组死亡率有关,不受构成影响,可以不同地区直接比较;平均死亡年龄是一批人实际的死亡年龄的平均值。不但受年龄组死亡率影响,还与年龄构成有关。两者概念不同,不能混淆。
  二、寿命表应用
1.      评价国家或地区居民健康水平。寿命表的各项指标根据某年的实际年龄别死亡率计算得到,可以说明人的死亡水平,而且不受年龄构成影响,具有良好的可比性。而诱导指标如平均期望寿命,既能综合反映各年龄组的死亡水平又能以预期寿命的长短来说明人的健康水平。是评价不同国家地区局民健康状况的主要统计指标之一。
寿命表不受年龄构成的影响,是居民健康水平的总和评价指标。
2.      利用寿命表研究人口再生产情况。净再生育率是测量人口再生育的确切指标,计算需要女性寿命表中的尚存人数和生存人念书。
3.      利用寿命表进行人口预测。(参看有关人口统计专著)。
4.      研究人的生育、发育及疾病发展规律。例如在慢性病研究中,随访一批已确诊的慢性病人,观察每个病人的结局,用定寿命表方法分析这批病人在确证后不同时期的生存率及平均生存期。
4.1  研究设计的意义
一、医学研究的基本过程
医学科学研究的过程可以划分为下列五个阶段:
二、研究设计的意义
研究设计的概念:在医学科学研究实施前,应用医学专业知识和研究设计的原理、原则和方法,对将要进行的研究项目的目的与意义、目标与内容、对象与观察指标、研究方法与设计路线等有一个全面的计划和安排,并制定出一个具体的方案。一份良好的研究设计应该是专业设计与统计设计的有机结合。专业设计是保证研究课题的先进性与有用性社会经济效益、应用前景以及对本学科的推动作用),统计设计是保证研究课题的可重复性与经济性。
研究设计的意义:                              根本违约
1、可用较少的人力、物力和财力获得丰富可靠的资料;
2、能较好地控制试验误差和混杂,并作出估计,保证结果的可靠、可重复;
3、利用多因素试验设计方法,在一个试验中按排多个研究因素,提高试验的效率;
4、一份良好的设计是整个科研过程的依据。
三、医学研究的类型
1、医学研究类型 
医学科学研究按照其研究因素是人为给予还是客观存在的,可以分为实验研究与调查研究。
    实验研究:在严格控制实验条件下,研究因素由研究者主动给予受试者(研究对象)按排的一种研究。如新药临床试验,这里研究因素为药物,是研究者主动按排给研究对象的。
    调查研究(观察性研究):是指研究因素不受研究者主观控制,而是对现场或人中已经客观存在的现象、差别和联系进行观察和调查。如调查烧伤病人不同时期体内某些微量元素含量,这里微量元素是研究因素,是烧伤病人客观存在的,不是研究者给予的。
临床研究中可以是实验研究,也可以是调查研究;习惯上将以人为研究对象的实验,称为试验。
2、调查与实验研究的特点
4.2  实验研究中的基本要素 
    一个实验研究一般由研究因素(处理因素)、受试对象(研究对象)和实验效应(研究观察指标)三个基本要素组成。实验研究的目的是阐述研究因素作用于研究对象后所产生的实验效应。因此,在研究设计中首先确定这三个基本要素,这是研究设计中主干框架结构的设计。例如,在新的降压药的临床试验中,试验所用的降压药为处理因素,高血压病人为受试对象,血压值等指标为实验效应。
 
一、处理因素
处理因素的概念:处理因素又称研究因素,是指实验研究中研究者感兴趣的对试验有影响的试验条件或因素,一般指外部施加,如降压药临床试验中的药物就是研究者施于研究对象的因素;研究因素也可以是研究对象本身具有某些特征,如性别、年龄、疾病类型、研究对象的某些生理生化指标;在研究烧伤病人不同时期体内某些微量元素含量的变化中,微量元素是研究对象本身具有的研究因素。
设立处理因素的注意事项:
1、确立和区分研究因素与非研究因素。一个研究中对实验效应有影响的因素很多,研究者应根据研究目的抓住一个或几个需要阐述的主要因素作为研究因素进行研究,一般一个研究中研究因素不宜过多。除处理因素外,其他对试验有影响的因素,称为非处理因素(又称混杂因素),实验设计的目的就是控制非处理因素影响,显示处理因素的效应。因此,对试验有影响的主要的非处理因素必须有清醒的认识,才能在设计中加以控制。
      2、研究因素的标准化。处理因素的准标化就是保证处理因素在整个实验过程中始终如一保持不变。
3、确定因素的水平和因素的个数。在研究中要确定一个或风个处理因素,如研究中只有一个处理因素,称为单因素试验,实验中有两个或两个以上的研究因素,称为多因素试验;单因素和多因素试验均有相应的实验设计方法。实验中除确定因素的个数以外,还要确定因素的水平,所谓水平就是指因素所处状态或等级。如降压药的临床试验,设立新药组与常规药对照组两组,那么,药物是研究因素,它分为新药与常规药两个水平。 
 
二、受试对象
概念:研究对象可以是人、动物、微生物和寄生虫及其它们的一部分,可以是正常的,也可以病理状态的。
动物试验:要考虑动物的同质性、敏感性、反应稳定性和是否来源容易。
人体试验(病例选择):首先要诊断明确,其次考虑疾病的分型、分期,再考虑病人的年龄、性别、民族等因素以及服药史和依从性(门诊与病房病例)。在一个研究中,对研究对象都要制定纳入和排除标准。
三、实验效应
实验效应的设计就是选择实验田观察指标,设计时要求:
1、指标的针对性  与研究问题有本质联系。
2、指标的客观性  观察指标有主观指标与客观指标之分,应仅可能选择客观指标。
3、指标的灵敏性  选择对研究因素反应灵敏的指标。
4、指标的精确性  指标的精确性就是指准确性与精密性。准确性就是指结果的真实性,主要受系统误差的影响,精密性就是指结果的离散度,属于随机误差范畴。选择指标时,首先考虑准确性,同时又要考虑精密性。
5、定量指标  观察指标有定量指标和定性指标之分,应多选择定量指标。
4.3  实验设计的三个基本原则 
    实验设计中应遵循三个基本原则,即对照原则、随机化原则和重复原则。
一、对照原则
() 对照的概念:有比较才有鉴别,因此,在医学研究中一般要设立对照组,对照原则就是在研究时要设立合理的对照组。
() 对照的意义  设立合理的对照组,其意义在于:
  1、鉴别处理因素与非处理因素的作用
2、控制和减少试验误差
() 合理对照的原则:各组例数相等              各组间均衡可比
() 组间均衡性
1  什么叫组间均衡性 比较各组间除研究因素外,对试验有影响的非研究因素和试验条件均应相同或相近。
2、在研究设计和试验过程中应从下列四个方面考虑组间均衡性:
  (1)研究对象性质相同,选择同质的研究对象,并进行随机化分组
  (2)试验条件要一致  实验环境  仪器  试剂等
  (3)研究者或操作者要一致  研究者或操作者在各组间要交叉,并随机分配
  (4)时间或试验次序要一致 实验中各组试验要同时、交叉进行。
3、实现均衡可比的手段或方法:
    (1)随机化 在研究对象分配、操作者的分配和试验次序的分配都要随机化。
    (2)配对与分层 通过配对、配伍组设计达到组间均衡(配对和配伍组设计详见4.4节)。分层随机就是先对研究对象进行分层,再进行随机化分组,一般是对离散度较大研究对象,通过分层,使得分层后各层内的个体离散度变小,增加同质性,再行随机分组,可增加组间的均衡性。
              (3)双盲 ①盲法的概念。盲法有单盲和双盲两种,双盲是指研究对象和研究者或操作者都不知道研究对象属于实验组还是对照组,从而可以避免研究者或操作者、研究对象心理因素或倾向对试验结果的影响;单盲是指研究者不知道研究对象属于哪一组,而研究对象不需要盲法,一般是指动物试验。②安慰剂。由于不同组间接受处理的差别,如两组药物外型上的差别,难以使得研究者和研究对象达到盲法的效果,就需要专门制作在大小、颜和外型上与试验药物一致的但无任何药效的“假药”,此“假药”称为安慰剂() 对照类型                                                       
1、空白对照 对照组不施加任何处理措施
2、标准对照 公认有效的药物、现有的标准方法或常规方法
3、相互对照 各比较组互为对照
4、实验对照 在对实验组实施处理因素时必须伴随一个对试验有影响的因素,此因素称为实验因素,对照组必须施加实验因素。举例说明
5、自身对照 对照与实验措施在同一实验对象身上实施
6、安慰剂对照 对照组施加安慰剂
7、阳性对照 采用已肯定疗效的药物为对照,如标准对照、弱阳性对照
8、阴性对照 不含研究中处理因素的对照,如空白对照、安慰剂对照、(实验对照)
9、历史对照 不能实验研究中的对照
 二、随机化原则
意义:保证各组间均衡可比的重要手段。
概念:在实验研究中,研究对象有同等的可能被分到比较各组中去。
在调查研究中,总体中每个个体有同等的可能被抽到样本中来。
方法:随机数字表、随机排列表和计算机产生的随机数,随机数字表可以用于研究对象的随机抽样和随机分配,而随机排列表一般用于研究对象的随机分配且较随机数字表方便。具体的各种随机化方法在各种实验设计方法和各种抽样方法中介绍。
三、重复原则
意义:重复原则是批在实验研究和抽样研究中需重复试验或抽取多少研究对象,即样本含量(大小)。样本含量少,抽样误差大,不易发现本来有差别的事物;样本含量大,非抽样误差也可能大,影响研究结果;因此,重复原则是保证实验结果的可靠性和重现性的重要手段,也是保证组间均衡性的基础。
样本含量概念:保证研究结论具有一定可靠性的前提条件下,所确定的最少样本含量;因此,统计学上所估计的样本含量是研究中所需的最基本数量,在实际研究中,还要考虑研究结果的应用范围与人力、物力和财力的容许。
   
    方法:可以通过查表法或计算法实现。
4.4    实验设计的类型(方法)
一、完全随机设计
1、设计方法
确定研究因素与水平。这种设计方法只能安排一个因素,对这个因素可以根据研究目的分成两个或多个水平,即两组或多组。
确定研究对象。根据研究目的和研究问题的特性选择合适的研究对象,必要时须制定研究对象的纳入与排除标准。
随机分组。将研究对象随机分到各组。如在调查研究中是从不同的总体中(两个或多个)随机抽取样本进行比较
试验、测定或调查观察。
2、随机化分组
例:试将18个病人随机分成3
先对研究对象进行编号,然后从随机排列表中,任取一行随机数(每一行均为0~1920个数,这20个数的排列均是随机的,本随机排列表最多只能用于20个研究对象的分配,其他统计学专著中还有n=30~60),如本例取第一行,由于本例只有18个病人,所以取0~17,舍取1819两个数, 按随机数的前后出现顺序抄录到病人下,预先确定随机数为0~5的病人编号为A组,随机数6~11的病人编号为B组,随机数12~17的病人编号为C组。分组结果如下:
3、优缺点:设计与分析简单,只能单因素
 二、配对设计
1、设计方法
  确定一个处理因素和两个水平(实验组与对照组)
  确定研究对象和配对条件,将对象按配对条件相同的原则配成对子。
  随机将每对对象分到两组中去。
  一个试验由若干对组成。
配对设计的概念:将研究对象按一定的配对条件先配成对子,然后随机地将每对中的两个对象分配到两组中去,一个试验由若干个配对组成。
(5) 配对条件 主要的非处理因素(研究对象的特征、实验环境或条件),动物试验中条件可严些,临床上条件不可过多。
(6) 配对设计变型  前后的比较,同一批标本分别用两种方法检测,同一批病人分别用两种方法诊断,局部试验中人体左右侧的对比;
2、随机分组。可用上述完全随机设计中研究对象随机分配的方法,将每对中的一个对象随机分配到实验组或对照组,即可实现随机分配,具体见书本。
3、优缺点  (1) 组间可比性好,节省样本大小,试验效率高; (2) 对研究对象有一定的要求,临床上实施配对设计有一定难度。三、配伍组设计(随机区组设计)
1、设计方法
(1) 确定一个研究因素,并根据研究需要设立多个水平(多个处理组或对比组);
      (2) 确定研究对象和匹配条件,将研究对象按匹配条件一致的原则配成区组或配伍组,区组内由若个对象组成,其数量由对比组数决定;
(3) 每一区组内的个体随机分到各处理组或对比组;
(4) 一个试验由若干个区组组成。
(5) 区组的定义:实验条件相同,实验对象性质相近的组称为区组(配伍组)。
        (6) 随机区组设计的三个条件:
a 一个试验由若干个区组组成
b 区组内研究对象的个数等于处理组数
c 区组内对象随机分到各处理组
(7)    随机区组设计的变型:前后不同时间的比较,同一批样品不同方法或不同实验室检测进行比较。
2  随机化分组
已按动物特征配成6区组,每个区组4个体, 现进行随机化分组。
先对研究对象进行编号,按区组顺序,区组不能打乱;然后对每一个区组内的四个个体从随机排列表中抄录一行随机数,只取1~4,舍取05~19;预先确定随机数分别为1~4的编号的个体分别分到abcd组。随机分组结果如下:
3、优缺点
(1) 可安排一个因素,也可安排两个因素,即将区组间也作为一个因素;
(2) 误差小、均衡性好、节省样本含量,统计效率高;
(3) 不能分析交互作用
      (4) 区组内的对象在试验中易发生意外,影响整个试验。4.5    四种常见的随机抽样方法                           
在调查研究中,从研究对象的总体中进行随机抽样,其基本方法常见的有单纯随机抽样、系统抽样、分层随机抽样和整抽样四种。在大规模调查研究中,根据现场的特性,常将这些基本的抽样方法结合使用,抽样阶段分为多个,此称为多阶段抽样。本节主要介绍四种基本的抽样方法。
一、单纯随机抽样
1、抽样方法  对调查总体的全部观察单位编号,然后随机抽取部分观察单位组成样本,此即单纯随机抽样。下面通过实例介绍。
14.1  欲调查某农村小学学生的蛔虫感染率,该校有学生2000名,取100名学生作为样本,试作单纯随机抽样
(1) 编号。先对研究对象进行编号,如 0  1  2  3  4    5    6  1999
(2) 近海风荷载抄随机数。从随机数字表中任一行任一列开始抄录100个四位数的随机数(因为对象编号最大的为四位数1999),如从第5行第9列开始横向取数08733732040569300588,… ,由于这些随机数有超过1999的,作如下处理:将大于等于8000的数减去8000,将大于等于6000小于8000的数减去6000,将大于等于4000小于6000的数减去4000,将大于等于2000小于4000的数减去2000,上述随机数处理后依此为:87317324059301609588,…。属于这些编号的学生为样本。
2、参数估计。前面介绍的均数、标准差和率等指标的计算方法都是单纯随机抽样下的参数估计方法。
3、优缺点与适用范围
(1) 抽样方法与参数估计方法简单
(2) 总体大时,编号烦
(3) 适用于总体小、个体间均匀的总体
(4) 是其他抽样方法的基础
二、系统抽样
1、抽样方法。系统抽样又称机械抽样或等距抽样。将总体的观察单位按某一顺序分成n个(样本大小)部分,再从第一部分随机抽取第k号观察单位,依次用相等间隔从每一部分各抽取一个观察单位组成样本。
3、  优缺点与适用范围                                                
        (1)    适用于大规模的抽样调查,多阶段抽样的后阶段抽样,便于操作,节省人力、物力;
        (2)    一般其抽样误差大于单纯随机抽样;
        (3)    抽样中不宜太大,越小,抽样误差越小。
四、分层随机抽样
1、抽样方法。先按某一特征将总体划分为若干个类别(层),再从每一个层内随机抽取一定数量的观察单位,组成样本。各层样本含量的估计方法:
(1)按比例分配.。将样本含量根据各层的总体内个体数在整个总体中的比例进行分配。其公式为:  ni=n(Ni/N)
        (2)最优分配。既考虑各层总体的大小,又考虑各层内个体的变异进行样本含量在各层间的分配。进行均数与率的抽样时,各层样本含量的估计公式为:
2、优缺点与适用范围
(1)抽样误差小
(2)便于对各层采用不同的抽样方法
(3)便于对各层进行独立分析
(4)适用于总体内个体变异较大的总体
          (5)在多阶段抽样中使用
复习思考题   
    1、配对设计中实验对象经配对后,分组时为何仍需随机化?
    2、何为对照?其意义和形式是什么?
    3、实验研究的基本要素是什么?它们间的关系如何?
    4、试述常用的几种随机抽样方法及其适用场合。
    5、用三种可疑化学致癌物对小鼠进行“三致”试验,每组拟用5只小白鼠,共15只小白鼠,试将其随机分入各组。
    6、何为分层抽样的最优分配?
    7、什么叫组间均衡性?在研究设计和实施过程中如何实现?
常用统计表与统计图来表达分析数据,分析结果以代替冗长的文字叙述,表达清楚,形象直观,便于理解。
13.1 统计表
统计表(statistical tab le)是以表格的形式列出统计分析的事物及其指标。
13.1.1  统计表的结构及列表的基本要求
         表13.1 某医院(1979~1988年)住院死亡病人死因构成
   
统计表的结构要求简洁,一张表一般只包括一个中心内容,使人一目了然;表的标目的安排及分组要层次清楚,符合专业逻辑。表的基本构成包括标题及编号、标目、线条及数字等。基本要求是:
(1) 标题及编号 概括地说明表的内容,必要时要注明资料的时间和地点;编号用表加阿拉伯数字表示,如表13.1;当文中仅有一张表时,可写成“附表”。标题及编号应写在表的上端中央。
要求:明确,简洁,概括。
常见的缺点是:过于简单,甚至不写标题;过于繁琐以及标题不确切。
(2) 标目 表格内的项目。标目有横标目与纵标目。横标目说明表中被研究事物的主要标志及其分组的各项内容,是表的主语,如表13.1的横标目为死因及其死因的七种分组,列在表的左侧;纵标目说明横标目的各项统计指标是表的谓语,列在表的上端;主语和谓语连贯起来能读成一句完整而通顺的话。如表13.1可读成某医院1979~1988年住院死亡病人中因恶性肿瘤死亡174人,占死因构成的26.9%。有单位的标目要注明单位,如某病死亡率后注明(1/10万),表示每10万人口的死亡人数。必要时在横标目或纵标目之上还冠以总标目。
要求:重点突出,主谓分明,安排得当。常见的缺点是:标目过多,层次不清。
(3)线条 不宜过多,除上面的顶线,下面的底线,以及纵标目下面与合计上面的分隔线外,其余线条一般均省去。尤其是表的左上角不宜有斜线。如一张表中标目的内容较多时或有分层时可适当留有空行。
(4)数字 表内数字一律用阿拉伯数字表示,同一指标的小数位数应一致,位次对齐。
表内不宜留空格:暂缺或未记录可用“…”表示;无数字用“—”表示;数字若是“0”,则填明“0”。
(5)备注 一般不列入表内,必要时可用“*”号标出,写在表的下面。
13.1.2  统计表的种类
根据表格的结构分为简单表和组合表
只含一个分组变量的统计表称简单表(simple table),如表13.1,按不同死因分为七组。
含两个或两个以上变量的统计表称组合表(combinative table),如表13.2将学生的年级和性别两个变量结合起来分组,可以分析不同年级、不同性别的吸烟率
        表13.2 1990年某县高中生吸烟率(%)抽样调查结果
     
13.1.3  统计表的修改
实际工作中,有的统计表由于未遵循制表原则和要求,未能起到应有的作用。举例说明如下:
例13.1 指出表13.3缺陷,并作修改。
          表13.3 益胃片的疗效观察(原表)
       
  表13.3的主要目的在于表达益胃片溃疡病的疗效。缺点是:标题不明确,主谓语安排不当,标目重复,数据未能对应,不便于比较,表的线条过多,可修改如表13.4.
       表13.4 某地某年益胃片溃疡病疗效观察(修改表)
     
例13.2 指出表13.5的缺陷,并作修改。
        表13.5 HBsAg(+)的年龄分布(原表)
     
表13.5主要目的在于表达各年龄别HBsAg的阳性率。缺点是:主谓语倒置,同一指标的小数位数不一致,线条过多,修改如表13.6
        表13.6 某地某年不同年龄人的HBsAg阳性率(修改表)
     
13.2  统计图
13.2.1  制图通则
1 适合性 根据资料性质、分析目的选择适合的图形。
2)标题和编号 写在图的下方。标题要扼要说明资料的内容,必要时注明时间、地点;编号一般用图加阿拉伯数字表示,如13.1或附图1
3)图如有纵轴和横轴,横轴尺度自左而右,纵轴尺度自下而上,数值一律由小到大,等距或有一定的规律性地标明。条图与直方图纵坐标从0开始,要标明0点。纵横轴应有标目,注明单位。纵横坐标长度的比例一般约为57。如13.4  13.5
4)在同一图形内比较几种不同事物时,须用不同的线条或颜表示,并附图说明。如13.1
13.2.2 常用统计图及绘制方法
1.条图(bar graph 条图是用等宽直条的长短来表示相互独立的各指标的数值大小。常用的有单式(如图13.2)和复式(如图13.1)两种。
制图方法:
①纵轴尺度必须从0开始,如图13.2。甲乙两直条的高度本为21,但若纵轴尺度从2开始,将给人41的错误印象。
②各直条(或各组直条)间应有相等的间隙,其宽度一般与直条的宽度相等或为直条宽度的一半。
③为了便于对比,一般将比较的指标大小顺序排列。
④复式直条图的制图要求与单式相同,但每组的直条最好不要过多,同组直条间不留空隙,组内各直条的排列次序要前后一致,如将表13.7资料绘成的图13.1
13.7 1989年某市婴儿、新生儿、幼儿死亡率(‰)
新生儿
市区
11.68
7.35
0.58
郊县
13.62
9.24
1.24
13.1 1989年某市婴儿、新生儿、幼儿死亡率(‰) 13.2 条图的纵轴尺度起点必须为零的示意
2.圆图(circle garph 用以表示全体中各部分的比重。以圆面积为100%,用圆的半径将圆面分割成多个大小不等的扇形来表达构成比。
制图方法:如将表13.1资料绘成图13.3,先将各类构成百分比分别乘以3.6度得圆心角度,按其自然顺序或按其大小顺序排列,“其它”排在最后。从0时开始,用量角器顺时针方向划分为一系列扇形。
3.线图(line graph 适用于连续性资料。用线段的上升和下降来表示某事物随 时间的变化趋势,或某现象随另一现象变迁的情况。
制图方法:①横轴常用以表示某事物的连续变量如时间,纵轴多表示率、均数或频数。② 纵轴采用算术尺度,从0开始。如果图形的最低点与零差距很大,则可在纵轴基部作折断口,使线段降低,以求美观。横轴可以不从零开始,如果以组段为单位,则每组均以组段下限为起点,但绘制的坐标点则应以组段的中点为宜。如将表13.8资料绘成图13.4,以横轴表示年份,以纵轴表示死亡率,相邻两点用直线连接,反映两种疾病不同年度差值的变化的趋势。③纵横尺度的比例要恰当,避免给人以夸大或缩小的印象。同一图内不宜有太多曲线,以免混淆不清。如有几条线作对比,则用不同的线形来区别,并用图例说明。
13.8 某地居民1950~1966年伤寒与结核病死亡率(1/10万)
伤寒死亡率
结核病死亡率
1950
31.3
174.5
1952
22.4
157.1
1954
18.0
142.0
1956
9.2
127.2
1958
5.0
97.7
1960
3.8
71.3
1962
1.6
59.2
1964
0.8
46.0
1966
0.3
37.5
4)半对数线图(semilogarithmic graph)通常用比值来反映变化速度,因此常用半
对数线图来表示事物的相对水平即变化速度。
制图方法:在横轴为算术尺度,纵轴为对数尺度的半对数坐标纸上绘制线图,即纵轴的数值大小为原观察值的对数值。故称为半对数线图。
由于0没有对数,所以半对数线图的纵坐标没有零点,起点根据资料的情况可为0.1110…等。0.1~11~1010~100等各单元距离相同,但同一单元内不等距,如图13.5,可根据需要标出相应的尺度。
如将表13.8资料绘制成半对数线图(图13.5),并与图13.4比较,可见图13.4显示结核病死亡率下降较大(这是死亡率前后的差值得到的印象,结核病人的死亡率下降幅度较伤寒病人大),而图13.5显示伤寒死亡率下降速度较快(这是死亡率前后对比的比值得到的印象),说明线图只可反映事物的变化趋势,半对数线图可用来反映事物的变化速度。
5)散点图(scatter diagram 用点的密集程度和趋势表示两种现象间的相关关系。制作方法:以横轴与纵轴各代表一种事物,横轴表示自变量,纵轴表示因变量,在坐标轴上标出每个个体对应的点则得到散点图。纵轴与横轴尺度的起点,均不一定从0开始。
例:调查了某地一年级12名女大学生的体重与肺活量的数据如下,肺活量(LY与体重(kgX的相关关系可以用图13.6图示。
体重
X
42
42
46
46
46
50
50
50
52
52
58
58
肺活量
Y
2.55
2.20
2.75
2.40
2.80
2.81
3.41
3.10
3.46
2.85
3.50
3.00
    必要时还可以添加趋势曲线或直线,如图13.7
  复习思考题
1.a.条图 b.圆图 c.线图 d.半对数线图
1)描述某地1975~1980年肝炎发病率的变动趋势,应绘制
2)比较甲、乙、丙三地两种传染病的发病率时,宜绘制
3)根据某医院对急性白血病患者构成调查所获得的资料应绘制
4)比较某地10年间结核与白喉两病死亡率的下降速度,宜绘制
 
2.根据列表原则,指出表F13.1的缺点,并作改进:
F13.1 1964~1968年急性心肌梗塞患者的病死率
年份
病例数
存活数
住院期死亡总例数
急性期
死亡数
住院期总病死率(%
急性期病死率(%
1964
17
9
8
7
47.1
41.2
1965
13
8
5
4
38.5
30.8
1966
15
8
7
6
46.7
40.0
1967
15
9
6
6
40.0
40.0
1968
12
8
4
4
33.3
33.3
合计
72
42
30
27
41.7
37.5
 
3.F13.2目的旨在分析中小学近视性眼底改变(弧形斑眼底)与年级高低、视力不良程度的关系。此表是否符合列表原则,请作改进:
F13.2
视力不
良分度
年级
近视眼眼
弧形斑眼
%
近视眼眼
弧形斑眼
%
近视眼眼
弧形斑眼
%
备注
小学生
217
20
9.69
143
43
30.06
60
33
55.00
X2=27.27
P<0.01
初中生
173
30
19.07
157
62
39.89
121
62
51.23
X2=16.68
P<0.01
高中生
90
37
40.11
78
51
63.65
70
62
81.14
X2=46.01
P<0.01
X2=29.17 P<0.01
X2=15.53 P<0.01
X2=21.97 P<0.01
 
 
4.图示表F13.3资料,并作简要分析:
F13.3 某市某年男女学生各年龄组的身高均数
年龄组(岁)
年龄组(岁)
7~
115.41
115.51
13~
138.36
141.17
8~
118.33
117.53
14~
145.14
147.21
9~
122.16
121.66
15~
150.84
150.03
10~
126.48
125.94
16~
154.70
153.06
11~
129.64
131.76
17~
161.90
156.63
12~
135.50
138.26
 
 
 
 
5.将表F13.4资料中两种传染病死亡率的历年变动,分别绘制普通线图及半对数线图,并说明两种图示法的不同意义。
F13.4 某市1949~195715岁以下儿童结核病和白喉死亡率(1/10万)
年份
结核病死亡率
白喉死亡率
1949
150.2
20.1
1950
148.0
16.6
1951
141.0
14.0
1952
130.0
11.8
1953
110.4
10.7
1954
98.2
6.5
1955
72.6
3.9
1956
68.0
2.4
1957
54.8
1.3
 
6.某地1952年和1972年三种死因别死亡率如表F13.5,试将该资料绘制成统计图。
F13.5 某地1952年和1972年三种死因别死亡率(1/10万)
死因
1952
1972
165.2
27.4
心脏病
72.5
83.6
恶性肿瘤
57.2
178.2
 
查看答案
1.cabd
2.缺点:题目不清
线条繁多
内容不明确
修改表
F13.1 1964~1968某医院急性心肌梗塞患者的病死率
年份
病例数
住院期死亡总例数
住院期总病死率(%
急性期
死亡数
急性期病死率(%
1964
17
8
47.1
7
41.2
1965
13
5
38.5
4
30.8
1966
15
7
46.7
6
40.0
1967
15
6
40.0
6
40.0
1968
12
4
33.3
4
33.3
合计
72
30
41.7
27
37.5
3.无题目
层次不清
线条繁杂
备注列入了表中
修改表
表F13.2 中小学近视性眼底改变(弧形斑眼底)与视力不良程度
年级
视力不良分度
近视眼眼
弧形斑眼
眼底改变比例%
近视眼眼
弧形斑眼
眼底改变比例%
近视眼眼
弧形斑眼
眼底改变比例%
小学生
217
20
9.69
143
43
30.06
60
33
55.00
初中生
173
30
19.07
157
62
39.89
121
62
51.23
高中生
90
37
40.11
78
51
63.65
70
62
81.14
合计
备注:*P<0.01
4.
5.
 
    第一章:绪论
一、试区分以下资料属于哪种类型?
1.某地一批人的血红蛋白值资料
  比法测得的具体值(如135g/L),为何类资料?
  根据测得值进行分类(如"贫血","正常"),为何类资料?
2.某疫苗皮下注射后免疫测试结果如下:
观察对象
抗体滴度
目测判断抗体水平
免疫效果观察
1
1:40
++
无效
2
1:60
++++
有效
...
...
...
...
...
...
...
...
3.数据类型在一定条件下是可以相互转换的,下面的资料是如何转换的:
  年龄(岁)转换为"未成年、成人",再转换为"婴幼儿、青年、中年、老年",分别给予编码0,1,2,3。
                              返回
    第二章:统计资料的整理与描述
一、名词解释
  1、频数表   2、算术均数   3、几何均数   4、中位数   5、极差   6、百分位
  7、四分位数间距   8、方差   9、标准差   10、变异系数
二、选择题
1、某农村144名妇女生育情况如下:
  生育胎次 0 1 2 3 4
  妇女人数 5 25 70 30 14
 该资料的类型是:
  A .有序资料 B. 计数资料 C.计量资料 D.等级资料
2、测得五人接种某疫苗后的抗体滴度为1:20,1:40,1:80,1:160,1:320,求平均滴定度最好选用
  A.均数 B. 几何均数 C.算术平均数 D. 百分位数
3、为了直观比较一组乳腺癌患者化疗后同一时间点上血清肌酐和血液尿素氮两项指标观察值的变异程度的大小,可选用的变异指标是()。
  A. 标准差 B.标准误 C.变异系数 D.极差
4、五名小细胞未分化型肺癌患者,其生存期(月)分别为6,10,14,23,41+,求生存期的平均水平宜选用
  A.几何均数 B.P50 C.中位数 D.均数
5、变异系数越大表示
  A.相对离散程度越大B.标准差越小C.均数越大D.样本含量越小
6、数值变量的标准差与均数的关系:
  A.不会大于均数 B.不会小于均数
  C.不会等于均数 D.不决定于均数
7、正态分布的特点是
  A.算术均数等于几何均数 B.算术均数等于中位数
  C.几何均数等于中位数 D.算术均数与几何均数、中位数都相等
8、最小组段无下限或最大组段无上限的频数分布资料,可用( )描述起集中趋势。
  A、均数 B、标准差 C、中位数 D、四分位数间距
9、数列40、48、50、52、60的标准差为( )。
  A、50 B、根号50 C、根号52 D、52
10、一组变量的标准差将( )。
  A、随变量值n的个数的增大而增大 B、随变量值n的个数的增加而减小
  C、随变量值之间的变异增大而增大 D、随系统误差的减小而减小
11、一组数据中20%为3,60%为2,10%为0,则平均数为( )。
  A、1.5 B、1.9 C、2.1
  D、不知道数据的总个数,不能计算平均数
                               
三、辨析题
1、当资料服从正态分布时,理论上均数和中位数相等。
2、计算样本的方差时,分母上为n-1,是由于历史错误的延续。
3、连续性数值变量的频数表资料直接法和间接法计算得到的算术均数相等。
4、只要单位相同,用S和CV比较两组资料的离散趋势结论相同。
5、对称分布的资料, 在 范围内理论上包含了95%的观察值.。
6、均数总是大于中位数。
7、均数总是比标准差大。
8、变异系数的量纲和原量纲相同。
9、样本均数大时,标准差也一定会大。
10、样本量增大时,极差会增大。
                               
第十三章:统计表与统计图
1. a.条图 b.圆图 c.线图 d.半对数线图
(1)描述某地1975~1980年肝炎发病率的变动趋势,应绘制----.
(2)比较甲、乙、丙三地两种传染病的发病率时,宜绘制---- 。
(3)根据某医院对急性白血病患者构成调查所获得的资料应绘制----。
(4)比较某地10年间结核与白喉两病死亡率的下降速度,宜绘制----。
2. 根据列表原则,指出表F3.1的缺点,并作改进:
        表F3.1 1964~1968年急性心肌梗塞患者的病死率
         
3. 表F3.2目的旨在分析中小学近视性眼底改变(弧形斑眼底)与年级高低、视力不良程度的关系。此表是否符合列表原则,请作改进: 表F3.2
     
4. 图示表F3.3资料,并作简要分析:
表F3.3 某市某年男女学生各年龄组的身高均数
       
5. 将表F3.4资料中两种传染病死亡率的历年变动,分别绘制普通线图及半对数线图,并说明两种图示法的不同意义。
表F3.4 某市1949~1957年15岁以下儿童结核病和白喉死亡率(1/10万
     
6. 某地1952年和1972年三种死因别死亡率如表F3.5,试将该资料绘制成统计图。
表F3.5 某地1952年和1972年三种死因别死亡率(1/10万)
       
算术均数的应用特征:
(1)适用于对称分布的资料
瑞士是一个多山和湖泊的国家,想一想,如果它的山脉扔进它的湖泊,那么两样讨厌的东西将全部去除。注意:前提是山脉和湖泊恰好对应。
一个说明的图例
(2)唯一性 一个观察样本或总体只能得到一个算术均数
    简单性 便于理解,易于计算
(3)由于均数的计算需要每个值的参与,所以容易收到极端值的影响
CCH
17
19
31
39
48
56
68
73
73
75
80
122
depth
1
2
3
4
5
6
6
5
4
3
2
1
如果一个数误写为1220,则均数编委152.2,而中位数 仍是62.
2.2.2  中位数与百分位数
中位数(median,简记为M)
    将一组观察值从小到大按顺序排列,位次居中的观察值就是中位数。理论上,全部观察值中,大于和小于中位数的观察值的个数分别为全部数据的50%。
由于一般不计算总体的中位数,所以,我们只提到样本的中位数。
未分组资料的中位数计算法。
中位数的位置
       
例2.6 9名沙门菌食物中毒患者的潜伏期(小时)为:2,5,9,12,14,15,18,24,60。求其中位数。
本例数据已按从小到大的顺序排列,n=9,为奇数,则中位数为第5个数。
       
例2.7 8名杆菌痢疾治愈者的住院天数如下,求其中位数。
        4,9,10,12,14,20,24,61
本例n=8,为偶数,数据已按从小到大的顺序排列,则中位数为:
       
分组资料的中位数和百分位数计算法。
             
百分位数(percentile)
   概念上可以理解为中位数的推广。从理论上讲,百分位数将数据分为100等分的界值。以PX表示,一个百分位数PX将总体或样本的全部观察值分为两个部分,理论上有X%的观察值比PX小,有(100-X)%观察值比PX大。故百分位数是一个界值,也是分布数列的一百等份分割值。 P50分位数即是中位数。因此,中位数是一特定的百分位数。
更一般地,先从小到大计算累计频数和累计频率,出PX所在的组段,再按公式(2.7)求中位数M及其他百分位数PX。
               
其中,fX为X%百分位数所在组段的频数;i为该组段的组距;L为其下限;ΣfL为小于L各组段的累计频数。特别地,在求中位数时,X=50,f50是中位数所在组段的频数;i为中位数所在组段的组距。本例:
             
应用中位数和百分位数时注意:
   中位数和百分位数的计算对资料分布没有特殊要求。所有资料(包含正态分布,偏态分布,开口资料,有极端值,分布不明的资料(都可以计算中位数和百分位数)等。
   样本含量较少时不宜用靠近两端的百分位数来估计频数分布范围;因为在例数较少时,靠近两端的百分数不够稳定。
   中位数比均数具有较好的稳定性。因为中位数不是由全部变量值综合计算所得,它只受位置居中的变量值影响,与两端的极端值无关。但是,由于只采纳了数据的相对大小的信息,不够精确。
2.2.3  几何均数
   几何均数(geometric mean)反映其平均增(减)倍数。几何均数一般用G表示,适用于各变量值之间成倍数关系,但作对数变换后指标成单峰对称分布的资料。
(1)未分组资料的几何均数计算法。将n个观察值X1,X2,…,Xn直接相乘,再开n次方,即为几何均数。以公式表示:
               
当各观察值甚小(接近于0)或过大,或当n较大时,连乘运算常使计算器(机)内存溢出,因而无法运算,这时可借助于对数变换来计算。即先求各观察值的对数值之算术均数,再用反对数变换得其几何均数。以公式表示:
               
例2.4 5人的血清抗体滴度为1:2,1:4,1:8,1:16,1:32,求平均滴度。
由于数据间呈倍数关系,以用几何均数为宜。先求滴度倒数的平均,
               
              或
               
故平均滴度为1:8。
(2)分组资料的几何均数计算法。
                   
             
故该55人的平均抗体滴度为1:37.7。
   几何均数的应用:(1)几何均数适用于频数分布呈明显偏态,各观察值之间呈倍数变化(等比关系)的数据,如抗体的滴度,细菌计数等。此时,算术均数对这类资料集中趋势的代表性就差。
  (2)计算几何均数时注意:变量值中不能有0,因为0与任何数的乘积均为0,且0不能取对数。同一组变量值不能同时存在正、负值。若变量值全为负值,可在计算时将负号除去,算出结果后再冠以负号。

本文发布于:2024-09-22 03:33:16,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/208150.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:研究   因素   直线   回归   指标   资料
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议