Weka 预处理数据

从现场收集的数据包含许多导致错误分析的不需要的东西。例如，数据可能包含空字段，可能包含与当前分析无关的列，等等。因此，必须对数据进行预处理以满足您正在寻求的分析类型的要求。这是在预处理模块中完成的。

为了演示预处理中的可用功能，我们将使用安装中提供的 Weather 数据库。

使用 Preprocess 标签下的 Open file ... 选项选择 weather-nominal.arff 文件。

当您打开文件时，您的屏幕如下所示-

这个屏幕告诉我们关于加载数据的一些事情，本章将进一步讨论。

理解数据

让我们首先看看突出显示的 当前关系子窗口。它显示当前加载的数据库的名称。您可以从这个子窗口推断出两点-

有 14 个实例-表中的行数。该表包含 5 个属性-字段，将在接下来的部分中讨论。

在左侧，注意显示数据库中各个字段的 Attributes 子窗口。

天气数据库包含五个字段-展望、温度、湿度、风和游戏。当您通过单击从该列表中选择一个属性时，该属性本身的更多详细信息会显示在右侧。

让我们先选择温度属性。当您点击它时，您会看到以下屏幕-

在 Selected Attribute 子窗口中，您可以观察到以下内容-

显示属性的名称和类型。温度属性的类型是 Nominal。数量缺失值为零。有三个不同的值，没有唯一值。此信息下方的表格将此字段的标称值显示为热、温和和冷。它还以百分比形式显示每个标称值的计数和重量。

在窗口底部，您可以看到 class 值的可视化表示。

如果您点击 Visualize All 按钮，您将能够在一个窗口中看到所有功能，如下所示-

很多时候，您要用于模型构建的数据带有许多不相关的字段。例如，客户数据库可能包含与分析其信用评级相关的手机号码。

要删除属性，请选择它们并单击底部的删除按钮。

选定的属性将从数据库中删除。在对数据进行完全预处理后，您可以将其保存以用于模型构建。

接下来，您将学习通过对数据应用过滤器来预处理数据。

某些机器学习技术（例如关联规则挖掘）需要分类数据。为了说明过滤器的使用，我们将使用 weather-numeric.arff 数据库，其中包含两个 numeric 属性- 温度和湿度.

我们将通过对原始数据应用过滤器将这些转换为名义。单击 Filter 子窗口中的 Choose 按钮并选择以下过滤器-

weka→过滤器→监督→属性→离散化

点击应用按钮并检查温度和/或湿度属性。您会注意到这些已从数字类型变为名义类型。

现在让我们看看另一个过滤器。假设您要选择最佳属性来决定播放。选择并应用以下过滤器-

weka→过滤器→监督→属性→属性选择

您会注意到它从数据库中删除了温度和湿度属性。

在您对数据的预处理感到满意后，点击保存 ...按钮保存数据。您将使用此保存的文件进行模型构建。

在下一章中，我们将探索使用几种预定义的 ML 算法构建模型。

找工作要求35岁以下，35岁以上的程序员都干什么去了？

长久以来，一直有一个问题困扰着技术人——如何打破“程序员的35岁职业魔咒”，这一天迟早会到来，或早或晚。

昵称：邮箱：