多元统计分析概述

多元统计分析概述
《多元统计分析与R语⾔建模》王斌会 第四版 第⼀章
后期会把每⼀章的学习笔记链接加上
⽬录
⼀、定义
多元统计分析 是研究多个随机变量之间相互依赖关系及其内在统计规律的⼀门学科
在统计学的基本内容汇总,只考虑⼀个或⼏个因素对⼀个观测指标(变量)的影响⼤⼩的问题,称为⼀元统计分析。
若考虑⼀个或⼏个因素对两个或两个以上观测指标(变量)的影响⼤⼩的问题,或者多个观测指标(变量)的相互依赖关系,既称为多元统计分析。
⼆、应⽤
1. 变量之间的相依性分析
使⽤简单相关分析、偏相关分析、复相关分析和典型相关分析技术
人口增长率怎么算
2. 构造预测模型,进⾏预报控制。
有两⼤类,包括:
预测预报模型,通过采⽤多元回归或逐步回归分析、⾮线性回归、判别分析等建模技术
描述性模型,通过采⽤综合评价的分析技术
3. 进⾏数值分类,构造分类模型。
将数据归类,出他们之间的联系和内在规律。
构造分类模型⼀般采⽤聚类分析和判别分析技术
4. 简化系统结构,探讨系统内核
在众多因素中出各个变量中最佳的⼦集合,根据⼦集合所包含的信⼼描述多元系统的结果及各个因⼦对系统的影响,舍弃次要因素,以简化系统结构,认识系统的内核(有点做单细胞降维的意思)
vb12可采⽤ 主成分分析、因⼦分析、对应分析 等⽅法。
三、内容
多元统计分析的内容主要有:多元数据图⽰法、多元线性相关与回归分析、判别分析、聚类分析、主成分分析、因⼦分析、对应分析及典型相关分析等。
1. 多元数据的数学表⽰
多元数据是指具有多个变量的数据。如果将每个变量看作⼀个随机向量的话,多个变量形成的数据集将是⼀个随机矩阵,所以多元数据的基本表现形式是⼀个矩阵。对这些数据矩阵进⾏数学表⽰是我们的⾸要任务。也就是说,多元数据的基本运算是矩阵运算,⽽R语⾔是⼀个优秀的矩阵运算语⾔,这也是我们应⽤它的⼀⼤优势。
徐粲然2. 多元数据的直观分析
直观分析即图⽰法,是进⾏数据分析的重要辅助⼿段。例如,通过两变量的散点图可以考察异常的观察值对样本相关系数的影响,利⽤矩阵散点图可以考察多元之间的关系,利⽤多元箱尾图可以⽐较⼏个变量的基本统计量的⼤⼩差别。
3. 相关分析
相关分析就是通过对⼤量数字资料的观察,消除偶然因素的影响,探求现象之间相关关系的密切程度和表现形式。在经济系统中,各个经济变量常常存在内在的关系。例如,经济增长与财政收⼈、⼈均收⼊与消费⽀出等。在这些关系中,有⼀些是严格的函数关系,这类关系可以⽤数学表达式表⽰出来。还有⼀些是⾮确定的关系,⼀个变量产⽣变动会影响其他变量,使其产⽣变化。这种变化具有随机的特性,但是仍然遵循⼀定的规律。函数关系很容易解决,⽽那些⾮确定的关系,即相关关系,才是我们所关⼼的问题。
4. 回归分析
回归分析研究的主要对象是客观事物变量间的统计关系。它是建⽴在对客观事物进⾏⼤量实验和观察的基础上,⽤来寻隐藏在看起来不确定的现象中的统计规律的⽅法。回归分析不仅可以揭⽰⾃变量对因变量的影响⼤⼩,还可以⽤回归⽅程进⾏预测和控制。回归分析的主要研究范围包括:
(1) 线性回归模型: ⼀元线性回归模型,多元线性回归模型。
(2) 回归模型的诊断: 回归模型基本假设的合理性,回归⽅程拟合效果的判定,选择回归函数的形式。
(3) ⼴义线性模型: 含定性变量的回归,⾃变量含定性变量,因变量含定性变量。
巴西开幕式(4) ⾮线性回归模型: ⼀元⾮线性回归,多元⾮线性回归。
在实际研究中,经常遇到⼀个随机变量随⼀个或多个⾮随机变量的变化⽽变化的情况,⽽这种变化关系明显呈⾮线性。怎样⽤⼀个较好的模型来表⽰,然后进⾏估计与预测,并对其⾮线性进⾏检验就成为--个重要的问题。在经济预测中,常⽤多元回归模型反映预测量与各因素之间的依赖关系,其中,线性回归分析有着⼴泛的应⽤。但客观事物之间并不⼀定呈线性关系,在有些情况下,⾮线性回归模型更为合适,只是建⽴起来较为困难。在实际的⽣产过程中,⽣产管理⽬标的参量与加⼯数量存在相关关系。随着⽣产和加⼯数量的增加,⽣产管理⽬标的参量(如⽣产成本和⽣产⼯时等)⼤多不是简
单的线性增加,此时,需采⽤⾮线性回归分析进⾏分析。
5. ⼴义与⼀般线性模型
鉴于统计模型的多样性和各种模型的适应性,针对因变量和解释变量的取值性质,可将统计模型分为多种类型。通常将⾃变量为定性变量的线性模型称为⼀般线性模型,如实验设计模型、⽅差分析模型; 将因变量为⾮正态分布的线性模型称为⼴义线性模型,如 Logistic回归模型、对数线性模型、Cox⽐例风险模型。
1972年,Nelder对经典线性回归模型作了进⼀步的推⼴,建⽴了统⼀的理论和计算框架,对回归模型在统计学中的应⽤产⽣了重要影响。这种新的线性回归模型称为⼴义线性模型( generalized linear models,GLM)。
⼴义线性模型是多元线性回归模型的推⼴,从另⼀个⾓度也可以看作是⾮线性模型的特例,它们具有--些共性,是其他⾮线性模型所不具备的。它与典型线性模型的区别是其随机误差的分布不是正态分布,与⾮线性模型的最⼤区别则在于⾮线性模型没有明确的随机误差分布假定,⽽⼴义线性模型的随机误差的分布是可以确定的。⼴义线性模型不仅包括离散变量,也包括连续变量。正态分布也被包括在指数分布族⾥,该指数分布族包含描述发散状况的参数,属于双参数指数分布族。
6. 判别分析
判别分析是多元统计分析中⽤于判别样本所属类型的⼀种统计分析⽅法。所谓判别分析法,是在已知的分类之下,⼀旦有新的样品时,可以利⽤此法选定⼀个判别标准,以判定将该新样品放置于哪个类别中。判别分析的⽬的是对已知分类的数据建⽴由数值指标构成的分类规则,然后把这样的规则应⽤到未知分类的样品中去分类。例如,我们获得了患胃炎的病⼈和健康⼈的⼀些化验指标,就可以从这些化验指标中发现两类⼈的区别。把这种区别表⽰为⼀个判别公式,然后对那些被怀疑患胃炎的⼈就可以根据其化验指标⽤判别公式来进⾏辅助诊断。
7. 聚类分析
聚类分析是研究物以类聚的--种现代统计分析⽅法。过去⼈们主要靠经验和专业知识作定性分类处理,很少利⽤数学⽅法,致使许多分类带有主观性和任意性,不能很好地揭⽰客观事物内在的本质差别和联系,特别是对于多因素、多指标的分类问题,定性分类更难以实现准确分类。为了克服定性分类的不⾜,多元统计分析逐渐被引⼈到数值分类学中,形成了聚类分析这个分⽀。
聚类分析是⼀种分类技术,与多元分析的其他⽅法相⽐,该⽅法较为粗糙,理论上还不完善,但应⽤⽅⾯取得了很⼤成功。聚类分析与回归分析、判别分析⼀起被称为多元分析的三个主要⽅法。
8. 主成分分析
教育规划纲要学习辅导百问
在实际问题中,研究多变量问题是经常遇到的,然⽽在多数情况下,不同变量之间有⼀定相关性,这必然增加了分析问题的复杂性。主成分分析就是⼀种通过降维技术把多个指标化为少数⼏个综合指标的统计分析⽅法。如何将具有错综复杂关系的指标综合成⼏个较少的成分,使之既有利于对问题进⾏分析和解释,⼜便于抓住主要⽭盾作出科学的评价,此时便可以⽤主成分分析⽅法。
9. 因⼦分析
因⼦分析是主成分分析的推⼴,它也是⼀种把多个变量化为少数⼏个综合变量的多元分析⽅法,但其⽬的是⽤有限个不可观测的隐变量来解释原变量之间的相关关系。主成分分析通过线性组合将原变量综合成⼏个主成分,⽤较少的综合指标来代替原来较多的指标(变量)。在多元分析中,变量间往往存在相关性,是什么原因使变量间有关联呢? 是否存在不能直接观测到的但影响可观测变量变化的公共因⼦呢?
因⼦分析就是寻这些公共因⼦的统计分析⽅法,它是在主成分的基础上构筑若⼲意义较为明确的公因⼦,以它们为框架分解原变量,以此考察原变量间的联系与区别。例如,在研究糕点⾏业的物价变动中,糕点⾏业品种繁多、多到⼏百种甚⾄上千种,但⽆论哪种样式的糕点,⽤料不外乎⾯
粉、⾷⽤油、糖等主要原料。那么,⾯粉、⾷⽤油、糖就是众多糕点的公共因⼦,各种糕点的物价变动与⾯粉、⾷⽤油、糖的物价变动密切相关,要了解或控制糕点⾏业的物价变动,只要抓住⾯粉、⾷
⽤油和糖的价格即可。
10. 对应分析
对应分析⼜称为相应分析,由法国统计学家J.P.Beozecri于 1970年提出。对应分析是在因⼦分析基础之上发展起来的⼀种多元统计⽅法,是Q型和R型因⼦分析的联合应⽤。在经济管理数据的统计分析中,经常要处理三种关系,即样品之间的关系(Q型关系)、变量间的关系(R型关系)以及样品与变量之间的关系(对应型关系)。例如,对某⼀⾏业所属的企业进⾏经济效益评价时,不仅要研究经济效益指标间的关系,还要将企业按经济效益的好坏进⾏分类,研究哪些企业与哪些经济效益指标的关系更密切⼀些,为决策部门正确指导企业的⽣产经营活动提供更多的信息。这就需要有⼀种统计⽅法,将企业(样品〉和指标(变量)放在⼀起进⾏分析、分类、作图,便于作经济意义.上的解释。解决这类问题的统计⽅法就是对应分析。
11. 典型相关分析
在相关分析中,当考察的⼀组变量仅有两个时,可⽤简单相关系数来衡量它们;当考察的⼀组变量有多个时,可⽤复相关系数来衡量它们。⼤量的实际问题需要我们把指标之间的联系扩展到两组变量,即两组随机变量之间的相互依赖关系。典型相关分析就是⽤来解决此类问题的⼀种分析⽅法。它实际上是利⽤主成分的思想来讨论两组随机变量的相关性问题,把两组变量间的相关性研究化为少数⼏对
变量之间的相关性研究,⽽且这少数⼏对变量之间⼜是不相关的,以此来达到化简复杂相关关系的⽬的。
典型相关分析在经济管理实证研究中有着⼴泛的应⽤,因为许多经济现象之间都是多个变量对多个变量的关系。例如,在研究通货膨胀的成因时,可把⼏个物价指数作为⼀组变量,把若⼲个影响物价变动的因素作为另⼀组变量,通过典型相关分析出⼏对主要综合变量,结合典型相关系数对物价上涨及通货膨胀的成因,给出较深刻的分析结果。
12. 多维标度法
多维标度分析( multidimensional scaling,MDS)是以空间分布的形式表现对象之间相似性或亲疏关系的⼀种多元数据分析⽅法。1958
年,Torgerson 在其博⼠论⽂中⾸次正式提出这⼀⽅法。MDS分析多见于市场营销,近年来在经济管理领域的应⽤⽇趋增多,但国内在这⽅⾯的应⽤报道极少。多维标度法通过⼀系列技巧,使研究者识别构成受测者对样品的评价基础的关键维数。例如,多维标度法常⽤于市场研究中,以识别构成顾客对产品、服务或者公司的评价基础的关键维数。其他的应⽤如⽐较⾃然属性(⽐如⾷品⼝味或者不同的⽓味),对政治候选⼈或事件的了解,甚⾄评估不同体的⽂化差异。多维标度法通过受测者所提供的对样品的相似性或者偏好的判断推导出内在的维数。⼀旦有数据,多维标度法就可以⽤来分析:①评
价样品时受测者⽤什么维数;②在特定情况下受测者可能使⽤多少维数;③每个维数的相对重要性如何;④如何获得对样品关联的感性认识。
13. 综合评价⽅法
高中历史教学案例20世纪七⼋⼗年代,是现代科学评价蓬勃兴起的年代,在此期间产⽣了很多种评价⽅法,如ELECTRE法、多维偏好分析的线性规划法(LINMAP)、层次分析法(AHP)、数据包络分析法(EDA)及逼近于理想解的排序法(TOPSIS)等,这些⽅法到现在已经发展得相对完善了,⽽且它们的应⽤也⽐较⼴泛。
⽽我国现代科学评价的发展则是在20世纪⼋九⼗年代,对评价⽅法及其应⽤的研究也取得了很⼤的成效,把综合评价⽅法应⽤到了国民经济各个部门,如可持续发展综合评价、⼩康评价体系、现代化指标体系及国际竞争⼒评价体系等。
多指标综合评价⽅法具有以下特点:包含若⼲个指标,分别说明被评价对象的不同⽅⾯ ;评价⽅法最终要对被评价对象作出⼀个整体性的评判,⽤⼀个总指标来说明被评价对象的⼀般⽔平。
⽬前常⽤的综合评价⽅法较多,如综合评分法、综合指数法、秩和⽐法、层次分析法、TOPSIS法、模糊综合评判法、数据包络分析法等。四、分析⼯具
R -- 永远滴神~

本文发布于:2024-09-22 23:17:35,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/53599.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:分析   变量   模型
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议