沦陷区的女人聚类分析(ClusterAnalysis)
(一)什么是聚类
聚类,将相似的事物聚集在一起,将不相似的事物划分到不同的类别的过程。是将复杂数据简化为少数类别的一种手段。 (二)聚类的基本思想:
∙假定研究的样本之间存在程度不同的相似性,可以分为几类;相同类别的样本相似度高,不同类别的样本相似度差。
∙用某种方法度量样本之间或者类别 之间的相似性(或称距离),依据距离来进行分类。
∙根据分类来研究各类样本的共性,出规律。
(三)聚类的应用
∙商业领域-识别顾客购买模式,预测下一次购买行为,淘宝商品推荐等。 ∙金融领域-股票市场板块分析
∙安全和军事领域
∙
o破解GPS伪随机干扰码和北斗系统民用版的展频编码密码
o识别论坛马甲和僵尸粉
o追溯网络谣言的源头
∙生物领域
∙
o苏小沫儿进化树构建
o实验对象的分类
o大规模组学数据的挖掘
o临床诊断标准
∙机器学习
∙
o人工智能
(四)聚类的对象
设有m个样本单位,每个样本测的n项指标(变量),原始资料矩阵:
image.png
冷雾
指标的选择非常重要:
必要性要求:和聚类分析的目的密切相关,并不是越多越好
代表性要求:反映要分类变量的特征
区分度要求:在不同研究对象类别上的值有明显的差异
独立性要求:变量之间不能高度相关(儿童生长身高和体重非常相关)
散布性要求:最好在值域范围内分布不太集中
(五)数据标准化
在各种标准量度值scale差异过大时,或数据不符合正态分布时,可能需要进行数据标准化。
(1) 总和标准化。 分别求出各聚类指标所对应的数据的总和, 以各指标的数据除以该指标的数据的总和。
image.png
这种标准化方法所得到的的新数据满足:
image.png李植
(2)标准差标准化,即:
image.png
这种标准化方法得到的新数据,各指标的平均值为0,标准差为1,即有:
浙江省人民政府image.png
广西壮族自治区人口和计划生育管理办法image.png
PS:比如说大家的身高差异
(3)极大值标准差
经过这种标准化所得到的新数据,各指标的极大值为1,其余各数值小于1.