Weka教程

Weka 功能选择

当数据库包含大量属性时,将有几个属性在您当前正在寻找的分析中变得不重要。因此,从数据集中去除不需要的属性成为开发良好机器学习模型的一项重要任务。
您可以直观地检查整个数据集并确定不相关的属性。对于包含大量属性的数据库来说,这可能是一项艰巨的任务,例如您在之前的课程中看到的超市案例。幸运的是,WEKA 提供了一个用于特征选择的自动化工具。
本章在包含大量属性的数据库上演示此功能。

加载数据

在 WEKA 资源管理器的 Preprocess 标签中,选择 labor.arff 文件以加载到系统中。加载数据时,您将看到以下屏幕-
加载数据
请注意,有 17 个属性。我们的任务是通过消除一些与我们的分析无关的属性来创建一个简化的数据集。

特征提取

单击 选择属性TAB。您将看到以下屏幕-
选择属性
属性评估器搜索方法下,您会找到几个选项。我们将在这里使用默认值。在 属性选择模式中,使用完整的训练集选项。
单击"开始"按钮以处理数据集。您将看到以下输出-
开始数据集
在结果窗口的底部,您将获得 Selected 属性的列表。要获得可视化表示,请右键单击 结果 列表中的结果。
输出如下面的截图所示-
屏幕截图输出
点击任何方块都会为您提供数据图以供进一步分析。典型的数据图如下所示-
数据图
这与我们在前几章中看到的类似。玩转可用的不同选项分析结果。

下一步是什么?

到目前为止,您已经看到了 WEKA 在快速开发机器学习模型方面的强大功能。我们使用的是一个名为 Explorer 的图形工具来开发这些模型。 WEKA 还提供了一个命令行界面,为您提供比资源管理器中提供的功能更多的功能。
单击 G UI 选择器 应用程序中的 简单 CLI 按钮启动此命令行界面,如下面的屏幕截图所示-
Gui 选择器
在底部的输入框中键入您的命令。您将能够完成迄今为止在资源管理器中所做的一切以及更多。请参阅 WEKA 文档 (https://www.cs.waikato.ac.nz/ml/weka/documentation.html) 了解更多详情。
最后,WEKA 是用 Java 开发的,并为其 API 提供了一个接口。因此,如果您是一名 Java 开发人员并且热衷于将 WEKA ML 实现包含在您自己的 Java 项目中,那么您可以轻松做到这一点。

结论

WEKA 是用于开发机器学习模型的强大工具。它提供了几种最广泛使用的 ML 算法的实现。在将这些算法应用于您的数据集之前,它还允许您预处理数据。支持的算法类型分类在 Classify、Cluster、Associate 和 Select 属性下。处理的各个阶段的结果可以通过美丽而强大的视觉表示进行可视化。这让数据科学家可以更轻松地将各种机器学习技术快速应用于他的数据集、比较结果并为最终使用创建最佳模型。
昵称: 邮箱:
Copyright © 2022 立地货 All Rights Reserved.
备案号:京ICP备14037608号-4