“多变量分析”——数据挖掘、数据分析

“多变量分析”——数据挖掘、数据分析
I。多重对应分析
JS1983多重对应分析在超过两个以上定类变量时有时候⾮常有效,当然⾸先我们要理解并思考,如果只有三个或有限的⼏个变量完全可以通过数据变换和交互表变量重组可以转换成两个定类变量,这时候就可以⽤简单对应分析了。
对应分析对数据的格式要求:
对应分析数据的典型格式是列联表或交叉频数表。
常表⽰不同背景的消费者对若⼲产品或产品的属性的选择频率。
背景变量或属性变量可以并列使⽤或单独使⽤。
两个变量间——简单对应分析。
多个变量间——多元对应分析。
现在,我们还是来看看如何操作多重对应分析并如何解读对应图;
我们假定有个汽车数据集,包括:来源国(1-美国、2-欧洲、3-⽇本),尺⼨(1-⼤型、2-中型、3-⼩型),类型(1-家庭、2-运动、3-⼯作),拥有(1-⾃有、2-租赁)性别(1-男、2-⼥),收⼊来源(1-1份⼯资来源、2-2份⼯资来源),婚姻状况(1-已婚、2-已婚有孩⼦、3-单⾝、4-单⾝有孩⼦);
从数据集看,我们有7个定类变量,如果组合成简单的交叉表是困难的事情,此时采⽤多重对应分析是恰当的分析⽅法。
下⾯我还是采⽤SPSS18.0,现在叫PASW Statistics 18.0来操作!注意:不同版本在多重对应分析⽅法有⼀些不同,但⼤家基本上可以看出了,⾼版本只能是更好,但选择会复杂和不同!
在进⾏多重对应分析之前,研究者应该能够记住各个变量⼤致有多少类别,个别变量如果变量取值太偏或异常值出现,都会影响对应分析的结果和对应图分析!
兰州交通大学学报
在SPSS分析菜单下选择降维(Data Redaction-数据消减)后选择最优尺度算法,该选项下,根据数据集和数据测量尺度不同有三种不同的⾼级定类分析算法,主要包括:多重对应分析、分类(⾮线性)主成分分析、⾮线性典型相关分析;
注意:随着版本的增⾼,研究⼈员在统计分析时就要各位主要变量的测量尺度,并且最好在进⾏数据清理和分析前,明确定义好测量尺度;当然也要做好Lable⼯作!
接下来,我们就可以选择变量和条件了!
⼤家可以把要分析的变量都放到分析变量内,补充变量的含义是如果有哪个变量你并不想作为对应分析的变量,⽽只是作为附属变量表现在对应图上可以加⼊!这⼀点其实在简单对应分析也有这种定义。(我们将在专门的简单对应分析⽅法中再讲!)
然后我们要选择“变量”选项,⼤家可以选择类别图:每⼀个变量的分类图,重点是选择联合类别图,我们把7个变量全部放⼊,执⾏!(其它选项⼤家可以测试,我还有⼀些没有搞清楚)
下⾯我们看结果:
从图中我们可以看出:美国车都⽐较⼤,家庭型,主要购买者是已婚带孩⼦的;⽇本和欧洲车主要是⼩型、运动的和已婚没有孩⼦的⼈购买;特别注意:单⾝和单⾝带孩⼦的往往是租赁汽车,收⼊单⼀来源,但这个地区没有车满⾜这个市场,或许是市场空⽩;
具体的解读⼤家可以根据⾃⼰的研究设计和假设去寻答案!
装配式公路钢桥
主要统计指标可以看:
上图主要给我们了对应图维度的解释⽐率,最下⾯的图⼤家会看吗?
提⽰:夹⾓是锐⾓意味着相关,所以:定类变量的相关性是不是可以解释啦!
总结:(同样适合简单对应分析)
对应分析的优点:
定性变量划分的类别越多,这种⽅法的优势越明显。
揭⽰⾏变量类别间与列变量类别间的联系。
将类别联系直观地表现在⼆维图形中(对应图)。
可以将名义变量或次序变量转变为间距变量。
对应分析的缺点:
不能⽤于相关关系的假设检验。
维度要由研究者决定。
有时候对应图解释⽐较困难。
对极端值⽐较敏感。
II.对应分析是⼀种多元统计分析技术,主要分析定性数据Category Data⽅法,也是强有⼒的数据图⽰化技术,当然也是强有⼒的市场研究分析技术。
这⾥主要介绍⼤家了解对应分析的基本⽅法,如何帮助探索数据,分析列联表和卡⽅的独⽴性检验,如何解释对应图,当然⼤家也可以看到如何⽤SPSS操作对应分析和对数据格式的要求!
对应分析是⼀种数据分析技术,它能够帮助我们研究由定性变量构成的交互汇总表来揭⽰变量间的联系。交互表的信息以图形的⽅式展⽰。主要适⽤于有多个类别的定类变量,可以揭⽰同⼀个变量的各个类别之间的差异,以及不同变量各个类别之间的对应关系。适⽤于两个或多个定类变量。
主要应⽤领域:
概念发展(Concept Development)
抗体效价
新产品开发  (New Product Development)
市场细分    (Market Segmentation)
竞争分析    (Competitive Analysis)
⼴告研究    (Advertisement Research)
主要回答以下问题:
谁是我的⽤户?
还有谁是我的⽤户?
谁是我竞争对⼿的⽤户?
相对于我的竞争对⼿的产品,我的产品的定位如何?
与竞争对⼿有何差异?
我还应该开发哪些新产品?
对于我的新产品,我应该将⽬标指向哪些消费者?
数据的格式要求
对应分析数据的典型格式是列联表或交叉频数表。常表⽰不同背景的消费者对若⼲产品或产品的属性的选择频率。背景变量或属性变量可以并列使⽤或单独使⽤。
两个变量间——简单对应分析。
多个变量间——多元对应分析。
案例分析:⾃杀数据分析
上⾯的交互分析表,主要收集了48961⼈的⾃杀⽅式以及⾃杀者的性别和年龄数据!POISON(毒药)GAS(煤⽓)HANG(上吊)DROWN(溺⽔)GUN(开)JUMP(跳楼)(我们就不翻译成中⽂了,读者可以把六个⽅式想象成品牌或别的什么)
当然,我们拿到的最初原始数据可能是SPSS数据格式记录表,
其中,性别取值1-male 2-female,年龄取值1-5,分别表⽰不同年龄段。
要回答的问题是:
1-不同性别的⼈在选择⾃杀⽅式上有什么差别?
2-不同年龄的⼈在选择⾃杀⽅式上有什么差别?
3-不同性别年龄的⼈在选择⾃杀⽅式上有什么差别?
我们⾸先,把性别字段乘上10加上年龄字段⽣成新字段sexage,取值是11-15,21-25,然后分别⽤M/F和年龄组中值代表Sexage字段的变量值标,这样我们就可以进⾏简单对应分析了!
现在问⼤家,如果你看到上⾯的6×10的矩阵-列联表,你能看出什么差异?
哈族电影现在我们采⽤SPSS软件进⾏对应分析!
第四范式(我现在⽤的是SPSS17.0多语⾔版本,前两天听博易智讯的⼈说,现在SPSS已经有18.0版本了,不过从对应分析⽅法⾓度我还是希望⽤11.5版本,因为可以⾃⼰拆分重新组合修改图形,现在的版本是图⽚了,不能随⼼所欲的修改,不爽!)

本文发布于:2024-09-22 01:51:53,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/68569.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:分析   变量   对应   数据
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议