Python机器学习

聚类算法

Python机器学习聚类算法详细操作教程

聚类算法简介

聚类方法是最有用的无监督ML方法之一。这些方法用于查找数据样本之间的相似性以及关系模式,然后将这些样本基于特征聚类为具有相似性的组。
聚类很重要,因为它决定了当前未标记数据之间的固有分组。他们基本上对数据点进行一些假设以构成它们的相似性。每个假设都会构建不同但有效的聚类。
例如,下面是显示集群系统的图,该集群系统将不同集群中的同类数据分组在一起-
集群系统

集群形成方法

没有必要将簇形成球形。以下是其他一些簇形成方法-

基于密度

在这些方法中,簇形成为密集区域。这些方法的优点是它们具有良好的准确性以及合并两个聚类的良好能力。例如基于密度的噪声应用空间聚类(DBSCAN),识别聚类结构的排序点(OPTICS)等。

基于等级

在这些方法中,群集根据层次结构形成为树型结构。它们有两类,即凝聚(自下而上的方法)和分裂(自上而下的方法)。例如使用代表(CURE)进行聚类,使用层次结构(BIRCH)进行平衡的迭代式减少聚类。

分区

在这些方法中,通过将对象分成k个簇来形成簇。群集数将等于分区数。例如K均值,基于随机搜索(CLARANS)对大型应用程序进行聚类。

网格

在这些方法中,簇形成为网格状结构。这些方法的优点是在这些网格上完成的所有聚类操作都是快速的,并且与数据对象的数量无关。例如统计信息网格(STING),任务中的聚类(CLIQUE)。

衡量集群性能

关于ML模型的最重要考虑因素之一是评估其性能,也可以说模型的质量。在监督学习算法的情况下,评估模型的质量很容易,因为我们已经为每个示例添加了标签。
另一方面,在无监督学习算法的情况下,我们没有那么幸运,因为我们处理的是未标记数据。但是,我们仍然有一些度量标准可以使从业者了解根据算法而发生的集群变化。
在深入研究此类指标之前,我们必须了解,这些指标仅评估模型之间的比较性能,而不是评估模型预测的有效性。以下是一些我们可以在聚类算法上部署以衡量模型质量的指标-

剪影分析

剪影分析用于通过测量聚类之间的距离来检查聚类模型的质量。它基本上为我们提供了一种借助 剪影得分评估簇数等参数的方法。此分数衡量一个群集中的每个点与相邻群集中的点的接近程度。

剪影得分分析

剪影得分分析-剪影得分的范围是[-1,1]。

机器学习聚类算法的类型

以下是最重要和最有用的ML聚类算法-

K-均值聚类

此聚类算法计算质心并进行迭代,直到找到最佳质心为止。它假定群集的数目是已知的。它也称为 扁平聚类算法。通过算法从数据中识别出的簇数用K均值中的" K"表示。

均值移位算法

这是在无监督学习中使用的另一种强大的聚类算法。与K均值聚类不同,它没有做任何假设,因此它是一种非参数算法。

分层聚类

这是另一种无监督的学习算法,用于将具有相似特征的未标记数据点分组在一起。
我们将在接下来的章节中详细讨论所有这些算法。

集群的应用

我们发现聚类在以下方面很有用-
数据汇总和压缩-聚类也广泛用于我们需要数据汇总,压缩和缩减的领域。例子是图像处理和矢量量化。
协作系统和客户细分-由于群集可用于查找相似的产品或相同类型的用户,因此可将其用于协作系统和客户细分领域。
用作其他数据挖掘任务的关键中间步骤 –聚类分析可以生成紧凑的数据摘要,用于分类,测试和假设生成;因此,它也是其他数据挖掘任务的关键中间步骤。
动态数据中的趋势检测-通过创建具有相似趋势的各种聚类,聚类还可以用于动态数据中的趋势检测。
社交网络分析-聚类可用于社交网络分析。示例是在图像,视频或音频中生成序列。
生物数据分析-聚类还可以用于图像,视频的聚类,因此可以成功地用于生物数据分析。
昵称: 邮箱:
Copyright © 2022 立地货 All Rights Reserved.
备案号:京ICP备14037608号-4