Weka教程

Weka 聚类

聚类算法在整个数据集中查找相似实例的组。 WEKA 支持多种聚类算法，如 EM、FilteredClusterer、HierarchicalClusterer、SimpleKMeans 等。您应该完全理解这些算法以充分利用 WEKA 功能。

与分类一样，WEKA 允许您以图形方式可视化检测到的集群。为了演示聚类，我们将使用提供的 iris 数据库。数据集包含三个类，每个类 50 个实例。每个类指一种鸢尾植物。

加载数据

在 WEKA 资源管理器中，选择 预处理 选项卡。单击 打开文件 ... 选项并在文件选择对话框中选择 iris.arff 文件。加载数据时，屏幕如下所示-

您可以观察到有 150 个实例和 5 个属性。属性名称被列为 sepallength、 sepalwidth、 petallength、 petalwidth 和 class.前四个属性是数字类型，而类是具有 3 个不同值的名义类型。检查每个属性以了解数据库的功能。我们不会对这些数据进行任何预处理，直接进行模型构建。

聚类

单击 Cluster 选项卡，将聚类算法应用于我们加载的数据。点击选择按钮。您将看到以下屏幕-

现在，选择 EM 作为聚类算法。在 Cluster mode 子窗口中，选择 Classes to Cluster Evaluation 选项，如下面的屏幕截图所示-

点击开始按钮来处理数据。一段时间后，结果将显示在屏幕上。

接下来，让我们研究一下结果。

检查输出

数据处理的输出显示在下面的屏幕中-

从输出屏幕，您可以观察到-

在数据库中检测到 5 个集群实例。 Cluster 0 代表 setosa，Cluster 1 代表 virginica，簇 2 代表杂色，而最后两个簇没有任何与之关联的类。

如果向上滚动输出窗口，您还会看到一些统计数据，这些统计数据给出了各种检测到的集群中每个属性的均值和标准差。这显示在下面给出的屏幕截图中-

接下来，我们将看看集群的视觉表示。

可视化集群

要可视化集群，请右键单击 结果列表中的 EM结果。您将看到以下选项-

选择 可视化集群分配。您将看到以下输出-

在分类的情况下，您会注意到正确识别和错误识别的实例之间的区别。您可以通过更改 X 和 Y 轴来分析结果。您可以在分类的情况下使用抖动来找出正确识别实例的浓度。可视化图中的操作和你在分类案例中学习的类似。

应用分层聚类器

为了展示 WEKA 的强大功能，现在让我们看看另一种聚类算法的应用。在 WEKA 资源管理器中，选择 HierarchicalClusterer 作为您的 ML 算法，如下面的屏幕截图所示-

选择 Cluster mode选择 Classes to cluster evaluation，然后点击 Start按钮。您将看到以下输出-

注意，在 结果列表中，列出了两个结果：第一个是EM结果，第二个是当前Hierarchical。同样，您可以将多个 ML 算法应用于同一数据集并快速比较它们的结果。

如果您检查此算法生成的树，您将看到以下输出-

在下一章中，您将学习 Associate 类型的机器学习算法。

找工作要求35岁以下，35岁以上的程序员都干什么去了？

长久以来，一直有一个问题困扰着技术人——如何打破“程序员的35岁职业魔咒”，这一天迟早会到来，或早或晚。

或许是选错了行业，程序员薪水虽高，但光鲜的外表下，背后的苦衷只有自己知道。三十多岁本该是一个人事业的黄金期，但技术变化日新月异，行业竞争异常残酷，对一个企业来说，永远有比你更年轻、劳动成本更低的人可以选择，这让你的中年危机提前到来。破局的智慧可以看看这本书！>>

<< Weka 分类器 Weka 联系 >>

昵称：邮箱：