杜子芳
摘要
聚类分析是三大多元统计分析方法之一,在许多领域都有广泛的应用,特别是在模式识别或无学习分类领域,发挥着不可替代的作用。除谱系聚类的ward方法外,聚类分析的关键依据是样品间距。样品间距完全脱胎于几何中的距离概念,但样品间距在几何距离三角可加性里所隐含的各变量量纲必须一致且必须正交的两个关键特性或许是有意或许是不经意地被模糊了。本文的结论是各变量量纲一致且正交应是聚类分析的强制要求,而主成分分析是正交化的最佳手段,应该成为聚类分析程序相关模块的缺省设置或唯一选项。 聚类分析是三大多元统计分析方法之一,在许多领域都有广泛的应用,特别是在模式识别或无学习分类领域,发挥着不可替代的作用。聚类分析不仅表现活跃,而且分支众多。首先有样品聚类与变量聚类之分,其中样品聚类又有面向大样本量情形的快速聚类与面向样本量不大情形的常规聚类两个分支。对于这其中的常规聚类,还可细分为有序样品聚类与非有序样
品聚类,而对于非有序样品聚类,有聚类类数由少而多的分解法与由多而少的归并法的区别。归并法最为常用,也称谱系聚类。
聚类家族人丁兴旺,其共同的基因可以归纳为两个:一是“模型”限于处理数值型变量尤其是非离散变量;二是“模型”的基础除变量聚类少数场合外其余概为距离计算。不妨回顾一下聚类分析的过程与细节,容易知道无论是谱系聚类还是快速聚类,任何场合的距离计算不外乎三种:样品之间的距离、样品到类的距离以及类与类之间的距离。而这些计算的唯一依据是样品之间的距离,简称样品间距,只有谱系聚类的ward方法例外。
距离首先是一个几何概念,其中最为人熟悉的是二维和三维几何空间的欧几里德距离。在其后的发展中,距离在维数、幂次数等方面被推广了,距离被抽象为满足下列性质的一个函数族:(1)非负性,(2)对称性,(3)三角可加性。
值得提醒人们特别关注的是,三角可加性虽然是一种特殊的可加性,但毕竟还是可加性,而可加性意味着几何距离中向量的各分量量纲必须一致;至于可加性前面要加上“三角”做修饰,则意味着几何距离中向量的各分量在笛卡尔坐标系里必须正交。这是几何距离定义中所隐含的两个重要特性。
样品间距完全脱胎于几何中的距离概念,这是毋庸置疑的。但样品间距在几何距离隐含的上述两个关键特性上或许是被人们有意或许是不经意地被模糊了。假如询问学过回归分析的学生,需要进行多重共线性的诊断吗?回答“是的”几乎会百分之百。而假如询问学过聚类分析的学生,聚类分析需要进行量纲不一致和变量不正交的诊断吗?回答是的恐属凤毛麟角。还有一个明证是聚类分析程序中既无量纲一致和变量正交化的独立模块,在内容相关的模块里,缺省设置也不是能使量纲一致和变量正交化的手段选项。
被人们有意或许是不经意地被模糊的两个关键特性,一是几何距离中向量的各分量量纲是一致的,故各分量的量值是可加的,可样品距离中各个变量许多场合量纲并非一致。多元统计分析中关于消除量纲的方法是比较丰富的,主要有标准化变换、极差标准化变换和极差规格化变换三种。但一者人们往往将这些方法与中心化变换和对数变换之类变换方法并列,且对三种消除量纲影响的方法孰优孰劣只字不提,其结果是量纲一致化的必要性被严重地淡化了,以致聚类分析里完全缺少判别分析那种将马氏距离作为距离判别唯一选项的明快。
何况,若记两个p维样品和之间的欧氏距离为:
而相同的两个p维样品之间的统计距离或马氏距离为:
其中为样本协方差矩阵,则正如Richard A.Johnson和Dean W.Wichern所说“但是,没有关于不同类的先验知识。这些样本量就无法计算。由于这个原因,在聚类问题中更倾向于采用欧氏距离”。也就是说,由于“类”在聚类开始的阶段尚不存在,类内的方差无从谈起,所以欧氏距离就替代了似乎更合理的统计距离或马氏距离。
被人们有意或许是不经意地被模糊两个关键特性之二,是几何距离中向量的各分量在笛卡尔坐标系里都是正交的,而样品距离中各变量间往往存在一定程度的相关,很多场合不能满足正交条件,伟大的费歇尔感觉到了这一点,在与聚类分析关联紧密的姊妹方法判别分析中提出了著名的费歇尔变换。费歇尔变换是一种正交变换,可以很好解决不同变量不正交的问题。可惜的是,我们后来者竟然都“灯下黑”,迄今并未有人尝试将此移植到聚类分析。当然有必要指出的是,即使移植了,量纲一致及可加性的要求并不能因此获得满足。
样品间距迄今存在的量纲不一致和变量不正交这两个固有缺陷,第一个缺陷量纲不一致无法真正消除,例如试图将血压与身高的量纲差异消除的努力在科学的范畴里恐怕永远不会成功。通过标准化进行矫正也许是人们能够想到的理想方法,只有规格化可能与其相比。第二个缺陷变量不正交或变量间存在相关性,假如不考虑量纲不一致的影响,其实完全可以真正消除,而且矫正的手段非常简单:正交化。有些多元统计分析教科书非常重视变量不正交或变量相关性问题,并提供了马氏距离、斜交空间距离两种解决方法,但也未明确宣示正交化不可或缺的必要性。
本文的主旨在于研究两个个问题,一是从聚类分析结果(取决于样品间距)看,是否有必要进行正交化矫正?二是假如需要,那么应该如何进行正交化?
对于第一个问题,可以通过证伪的方法轻易得到解决。使用熟悉度很高的且各变量量纲可以看作相同的鸢尾花案例,按未正交化的一般方法计算150个样品距离阵,再按正交化的方法重新计算距离阵,比对两种结果。比对的具体做法是:(1)计算两种方法的距离之间的相关系数,假如不正交不影响样品间距的顺序和聚类分析结果,两者应该正相关,且斯皮尔曼相关系数rd为1,因此1-rd可以视为两者差异大小的一个量度。(2)按照矩阵先行后列的顺序得到样品间距的序号(称为自然序号),将两种方法计算的样品间距按相同方向(降序或者升序)分别排序,比较两种方法排序后自然序号产生的改变之间的差异。如果不正交不影响样品间距的顺序和聚类分析结果,那么自然顺序的变化应该是完全一致的。(3)按照矩阵先行后列的顺序计算样品间距,将两种方法计算的样品间距的大小顺序进行比较。若不正交不影响样品间距的顺序和聚类分析结果,那么样品间距的大小顺序应该是一致的。例如,不正交计算的样品间距大于,若不正交不影响样品间距的顺序和聚类分析结果,那么正交化变换后的样品间距也应该大于。
正如我们所预期的,比对结果表明,不仅未正交化与正交化的两种样品间距自身的数值不同,而且样品间距的大小顺序也存在明显的差异。鉴于全部150个样品的样品间距阵的元素总数为149*75,过于冗长,既不容易突出问题也不便于表达,为此只随机选出10个样品
的计算结果列在表2中,这样足以清晰地反映问题的实质所在。
表1 随机抽取的10个样品
编号 | Sepal.Length | Sepal.Width | Petal.Length | Petal.Width | Species |
9 | 4.4 | 2.9 | 1.4 | 0.2 | setosa |
6 | 5.4 | 3.9 | 1.7 | 0.4 | setosa |
147 | 6.3 | 2.5 | 5 | 1.9 | virginica |
51 | 7 | 铁路贯通线的作用3.2 | 4.7 | 1.4 | versicolor |
137 | 6.3 | 3.4 | 5.6 | 2.4 | virginica |
48 | 4.6 | 3.2 | 1.4 | 0.2 | setosa |
145 | 6.7 | 3.3 | 5.7 | 2.5 | virginica |
132 | 7.9 | 3.8 | 6.4 | 2 | virginica |
144 | 6.8 | 3.2 | 5.9 | 2.3 | virginica |
31 | 4.8 | 3.1 | 1.6 | 0.2 | setosa |
| | | | | |
表2 随机抽取的10个样品间距
样品间距的起点超声检测 | 样品间距的终点 | 原始数据计算的距离升序排序 | 正交后计算的距离升序排序 | 原始数据计算的距离 | 正交后计算的距离 |
1 | 2 | 14 | 20 | 1.46 | 2.78 |
1 | 3 | 29 | 26 | 4.43 | 3.23 |
1 | 4 | 27 | 25 | 4.38 | 3.23 |
1 | 5 | 36 | 39 | 5.13 | 3.79 |
1 | 6 | 3 | 6 | 0.36 | 0.80 |
1 | 7 | 39 | 41 | 5.41 | 3.98 |
1 | 8 | 45 | 45 | 6.43 | 5.03 |
1 | 9 | 41 | 40 | 5.52 | 3.90 |
1 | 10 | 5 | 4 | 0.49 | 0.64 |
2 | 3 | 24 | 42 | 3.99 | 4.38 |
2 | 4 | 22 | 22 | 3.61 | 2.96 |
2 | 5 | 30 | 27 | 4.50 | 3.25 |
2 | 6 | 8 | 14 | 1.12 | 1.98 |
2 | 7 | 31 | 31 | 4.74 | 3.56 |
2 | 8 | 42 | 35 | 5.56 | 3.67 |
2 | 9 | 33 | 34 | 4.87 | 3.65 |
2 | 10 | 7 | 17 | 1.02 | 2.17 |
3 | 4 | 9 | 15 | 1.15 | 2.01 |
北京18天内新增318例 3 | 5 | 10 | 19 | 1.19 | 2.43 |
| | | | | |
3 | 6 | 28 | 29 | 4.39 | 3.48 |
3 | 7 | 嘉荫一中 11 | 18 | 1.28 | 2.24 |
3 | 8 | 21 | 37 | 2.49 | 3.76 |
3 | 9 | 12 | 13 | 1.31 | 1.98 |
3 | 10 | 25 | 24 | 4.13 | 3.22 |
4 | 5 | 17 | 9 | 1.53 | 1.41 |
4 | 6 | 26 | 23 | 4.25 | 3.00 |
4 | 7 | 16 | 8 | 1.52 | 1.32 |
4 | 8 | 20 | 16 | 2.10 | 2.06 |
4 | 9 | 15 | 7 | 1.51傅里叶变换红外光谱 | 1.14 |
4 | 10 | 23 | 21 | 3.99 | 2.83 |
5 | 6 | 34 | 30 | 5.04 | 3.52 |
5 | 7 | 4 | 3 | 0.44 | 0.46 |
5 | 8 | 19 | 11 | 1.88 | 1.88 |
5 | 9 | 6 | 5 | 0.62 | 0.71 |
5 | 10 | 32 | 28 | 4.81 | 3.43 |
6 | 明日之星学习机7 | 38 | 38 | 5.31 | 3.76 |
6 | 8 | 44 | 44 | 6.28 | 4.59 |
6 | 9 | 40 | 36 | 5.43 | 3.72 |
6 | 10 | 1 | 1 | 0.30 | 0.33 |
| | | | | |