Weka教程

Weka 预处理数据

从现场收集的数据包含许多导致错误分析的不需要的东西。例如,数据可能包含空字段,可能包含与当前分析无关的列,等等。因此,必须对数据进行预处理以满足您正在寻求的分析类型的要求。这是在预处理模块中完成的。
为了演示预处理中的可用功能,我们将使用安装中提供的 Weather 数据库。
使用 Preprocess 标签下的 Open file ... 选项选择 weather-nominal.arff 文件。
名义天气
当您打开文件时,您的屏幕如下所示-
Weka 探索
这个屏幕告诉我们关于加载数据的一些事情,本章将进一步讨论。

理解数据

让我们首先看看突出显示的 当前关系子窗口。它显示当前加载的数据库的名称。您可以从这个子窗口推断出两点-
有 14 个实例-表中的行数。 该表包含 5 个属性-字段,将在接下来的部分中讨论。
在左侧,注意显示数据库中各个字段的 Attributes 子窗口。
Weka 属性
天气 数据库包含五个字段-展望、温度、湿度、风和游戏。当您通过单击从该列表中选择一个属性时,该属性本身的更多详细信息会显示在右侧。
让我们先选择温度属性。当您点击它时,您会看到以下屏幕-
温度属性
Selected Attribute 子窗口中,您可以观察到以下内容-
显示属性的名称和类型。 温度 属性的类型是 Nominal 数量缺失 值为零。 有三个不同的值,没有唯一值。 此信息下方的表格将此字段的标称值显示为热、温和和冷。 它还以百分比形式显示每个标称值的计数和重量。
在窗口底部,您可以看到 class 值的可视化表示。
如果您点击 Visualize All 按钮,您将能够在一个窗口中看到所有功能,如下所示-
可视化所有

删除属性

很多时候,您要用于模型构建的数据带有许多不相关的字段。例如,客户数据库可能包含与分析其信用评级相关的手机号码。
删除属性
要删除属性,请选择它们并单击底部的 删除按钮。
选定的属性将从数据库中删除。在对数据进行完全预处理后,您可以将其保存以用于模型构建。
接下来,您将学习通过对数据应用过滤器来预处理数据。

应用过滤器

某些机器学习技术(例如关联规则挖掘)需要分类数据。为了说明过滤器的使用,我们将使用 weather-numeric.arff 数据库,其中包含两个 numeric 属性- 温度湿度.
我们将通过对原始数据应用过滤器将这些转换为 名义。单击 Filter 子窗口中的 Choose 按钮并选择以下过滤器-
weka→过滤器→监督→属性→离散化
Weka 离散化
点击 应用按钮并检查 温度和/或 湿度属性。您会注意到这些已从数字类型变为名义类型。
湿度属性
现在让我们看看另一个过滤器。假设您要选择最佳属性来决定 播放。选择并应用以下过滤器-
weka→过滤器→监督→属性→属性选择
您会注意到它从数据库中删除了温度和湿度属性。
Weka 属性选择
在您对数据的预处理感到满意后,点击 保存 ...按钮保存数据。您将使用此保存的文件进行模型构建。
在下一章中,我们将探索使用几种预定义的 ML 算法构建模型。
昵称: 邮箱:
Copyright © 2022 立地货 All Rights Reserved.
备案号:京ICP备14037608号-4