聚类分析(ClusterAnalysis)

沦陷区的女人聚类分析(ClusterAnalysis)
(一)什么是聚类
聚类,将相似的事物聚集在一起,将不相似的事物划分到不同的类别的过程。是将复杂数据简化为少数类别的一种手段。
(二)聚类的基本思想:
有大量的样本
假定研究的样本之间存在程度不同的相似性,可以分为几类;相同类别的样本相似度高,不同类别的样本相似度差。
用一些数据指标来描述样本的若干属性,构成向量。
用某种方法度量样本之间或者类别 之间的相似性(或称距离),依据距离来进行分类。
根据分类来研究各类样本的共性,出规律。
(三)聚类的应用
商业领域-识别顾客购买模式,预测下一次购买行为,淘宝商品推荐等。
金融领域-股票市场板块分析
安全和军事领域
o破解GPS伪随机干扰码和北斗系统民用版的展频编码密码
o识别论坛马甲和僵尸粉
o追溯网络谣言的源头
生物领域
o苏小沫儿进化树构建
o实验对象的分类
o大规模组学数据的挖掘
o临床诊断标准
机器学习
o人工智能
(四)聚类的对象
设有m个样本单位,每个样本测的n项指标(变量),原始资料矩阵:
image.png
冷雾
指标的选择非常重要:
必要性要求:和聚类分析的目的密切相关,并不是越多越好
代表性要求:反映要分类变量的特征
区分度要求:在不同研究对象类别上的值有明显的差异
独立性要求:变量之间不能高度相关(儿童生长身高和体重非常相关)
散布性要求:最好在值域范围内分布不太集中
(五)数据标准化
在各种标准量度值scale差异过大时,或数据不符合正态分布时,可能需要进行数据标准化。
(1) 总和标准化。 分别求出各聚类指标所对应的数据的总和, 以各指标的数据除以该指标的数据的总和。
image.png
这种标准化方法所得到的的新数据满足:
image.png李植
(2)标准差标准化,即:
image.png
这种标准化方法得到的新数据,各指标的平均值为0,标准差为1,即有:
浙江省人民政府image.png
广西壮族自治区人口和计划生育管理办法image.png
PS:比如说大家的身高差异
(3)极大值标准差
经过这种标准化所得到的新数据,各指标的极大值为1,其余各数值小于1.

本文发布于:2024-09-20 17:29:10,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/569824.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:样本   数据   类别   指标   领域   要求   变量
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议