聚类分析：K-means、系统聚类与二阶聚类的原理、实例与SPSS实现

作者：rousong2024.02.18 14:15浏览量：5

简介：本文将深入探讨聚类分析的三种主要方法：K-means、系统聚类和二阶聚类，通过实例展示它们的原理，并通过SPSS软件演示如何在实践中应用这些方法。

千帆应用开发平台“智能体Pro”全新上线限时免费体验

面向慢思考场景，支持低代码配置的方式创建“智能体Pro”应用

聚类分析是一种无监督学习方法，用于将数据集中的对象按照它们的相似性或差异性进行分组。这种方法常用于数据探索和预处理，帮助我们更好地理解数据的内在结构和模式。聚类分析的常见应用场景包括市场细分、图像分割、异常检测等。在心理学、市场营销、生物学和许多其他领域，聚类分析已经成为一个重要的工具。

一、K-means聚类分析
K-means是一种广泛使用的聚类算法，它的核心思想是将n个观测值划分为k个簇，使得每个观测值属于其所在簇的平均值（中心点）最近。算法的目标是最小化每个观测值与其所在簇的平均值之间的总距离。

实例：假设我们有一个包含100个观测值的数据集，我们想要将这些观测值分为3个簇。首先，我们随机选择3个观测值作为初始簇中心点。然后，每个观测值被分配到最近的簇中心点所在的簇。接着，我们计算每个簇中所有观测值的平均值，并将该平均值作为新的簇中心点。重复这个过程，直到簇中心点不再发生变化或达到预定的迭代次数。

在SPSS中实现K-means聚类分析：

打开SPSS软件，导入数据集。
选择“分析”>“聚类”>“K-均值”。
在弹出的对话框中，选择要用于聚类的变量，设置簇的数量，并点击“运行”。
SPSS将输出每个观测值的簇归属、每个簇的中心点以及相应的统计量。

二、系统聚类分析
系统聚类又称为层次聚类，它的结果是形成一个层次结构，通常分为自底向上和自顶向下两种方法。不同于K-means算法的是，系统聚类的结果是一个嵌套的簇集合，而不是固定的k个簇。

自底向上方法：开始时每个样本作为一个独立的簇，然后通过计算样本之间的距离，将距离相近的样本合并为一个簇，直到达到预设的簇数量或合并准则满足为止。

自顶向下方法：开始时所有样本视为一个簇，然后通过计算样本之间的距离，将距离较远的样本分裂为两个或更多的簇，直到达到预设的簇数量或分裂准则满足为止。

三、二阶聚类
二阶聚类是一种更复杂的聚类方法，它考虑了数据之间的相互关系来进行聚类。不同于K-means和系统聚类的是，二阶聚类没有固定的簇数量，而是通过迭代过程来找到最佳的簇结构。它通常用于处理具有复杂关系的观测值，例如相互依赖或具有某种网络结构的观测值。

发表评论

开发者关注产品榜

最热文章

关于作者

被阅读数
被赞数
被收藏数

开发者热搜

聚类分析：K-means、系统聚类与二阶聚类的原理、实例与SPSS实现

千帆应用开发平台“智能体Pro”全新上线限时免费体验

相关文章推荐

文心一言接入指南：通过百度智能云千帆大模型平台API调用

从 MLOps 到 LMOps 的关键技术嬗变

Sugar BI教你怎么做数据可视化 - 拓扑图，让节点连接信息一目了然

更轻量的百度百舸，CCE Stack 智算版发布

打造合规数据闭环，加速自动驾驶技术研发

LMOps 工具链与千帆大模型平台

发表评论

开发者关注产品榜

千帆大模型服务与开发平台ModelBuilder

千帆大模型应用开发平台AppBuilder

秒哒-生成式应用开发平台

百度智能云客悦智能客服平台

最热文章

关于作者

聚类分析：K-means、系统聚类与二阶聚类的原理、实例与SPSS实现

千帆应用开发平台“智能体Pro”全新上线 限时免费体验

相关文章推荐

文心一言接入指南：通过百度智能云千帆大模型平台API调用

从 MLOps 到 LMOps 的关键技术嬗变

Sugar BI教你怎么做数据可视化 - 拓扑图，让节点连接信息一目了然

更轻量的百度百舸，CCE Stack 智算版发布

打造合规数据闭环，加速自动驾驶技术研发

LMOps 工具链与千帆大模型平台

发表评论

开发者关注产品榜

千帆大模型服务与开发平台ModelBuilder

千帆大模型应用开发平台AppBuilder

秒哒-生成式应用开发平台

百度智能云客悦智能客服平台

最热文章

关于作者

千帆应用开发平台“智能体Pro”全新上线限时免费体验