hierarchy.linkage 用法

2023年12月20日发(作者：妊娠怎么读)

e 用法

e 函数是 SciPy 中用于计算层次聚类的函数之一。层次聚类是一种将一组对象聚类成树形结构的方法，也可以称为聚类树或者树状聚类。这些树状结构表示了数据点之间的相似性或者距离，并且将大量数据点组织成一个聚类层次结构。

在使用 e 函数时，需要传递一个距离矩阵参数，这个参数可以是欧几里得距离、曼哈顿距离等等。该函数计算并返回一个连接矩阵，即一组合并左右子树所需的距离。所得到的合并操作可以通过 chy 中的 dendrogram

函数可视化出来。

e 函数提供了多种合并策略，包括单连接、完全连接、平均连接、加权平均连接等。最终的聚类结果取决于所采用的合并策略和距离度量指标。下面将分别介绍这些参数的含义及如何使用。

参数：distance_matrix

distance_matrix 参数表示输入数据之间的距离矩阵。如果数据集中有 n 个对象，则距离矩阵的大小将是 n x n。在调用 e 函数之前，需要使用

distance 函数来计算距离矩阵。

例如，如果有一个名为 data 的二维数值数组，其中每一行表示一个数据点，则可以使用以下代码计算欧几里得距离矩阵：

```

from ce import pdist, squareform

distances = pdist(data, metric='euclidean')

distance_matrix = squareform(distances)

```

参数：method

method 参数表示所采用的合并策略。SciPy 支持以下几种合并策略：

* 单连接(single): 在合并聚类时，将左右子树之间距离最近的两个点之间的距离作为两个聚类之间的距离。

* 完全连接(complete): 在合并聚类时，将左右子树之间距离最远的两个点之间的距离作为两个聚类之间的距离。

* 平均连接(average): 在合并聚类时，将左右子树中所有点之间的距离的平均值作为两个聚类之间的距离。

* 加权平均连接(weighted): 在合并聚类时，将左右子树中所有点之间的加权距离的平均值作为两个聚类之间的距离。

* 矢量平均连接(vector): 在合并聚类时，将左右子树中所有向量的平均值作为两个聚类之间的距离。

例如，如果要在加权平均连接策略下进行层次聚类，则可以使用以下代码：

metric 参数表示所采用的距离度量指标。可选的距离度量指标包括欧几里得距离、曼哈顿距离、切比雪夫距离等等。默认使用欧几里得距离。

optimal_ordering 参数表示是否使用最优排序算法。最优排序的算法可以使叶节点之间的连线更加清晰，但是算法的计算时间也会相应增加。默认为 False，表示不采用最优排序算法。

例如，如果希望采用最优排序算法，则可以使用以下代码：

总体来说，e 函数可以使用多种不同的参数组合，以满足不同数据集的需求。大多数情况下，最好对数据进行可视化，以便更好地理解聚类算法生成的树形结构。此外，还可以使用其他 SciPy 和 NumPy 函数来处理层次聚类所产生的树状结构。

本文发布于:2024-09-21 17:24:08，感谢您对本站的认可！

标签：距离聚类函数参数数据

留言与评论（共有 0 条评论）