Weka 预处理数据
从现场收集的数据包含许多导致错误分析的不需要的东西。例如,数据可能包含空字段,可能包含与当前分析无关的列,等等。因此,必须对数据进行预处理以满足您正在寻求的分析类型的要求。这是在预处理模块中完成的。
为了演示预处理中的可用功能,我们将使用安装中提供的
Weather 数据库。
使用
Preprocess 标签下的
Open file ... 选项选择
weather-nominal.arff 文件。
当您打开文件时,您的屏幕如下所示-
这个屏幕告诉我们关于加载数据的一些事情,本章将进一步讨论。
理解数据
让我们首先看看突出显示的
当前关系子窗口。它显示当前加载的数据库的名称。您可以从这个子窗口推断出两点-
有 14 个实例-表中的行数。
该表包含 5 个属性-字段,将在接下来的部分中讨论。
在左侧,注意显示数据库中各个字段的
Attributes 子窗口。
天气 数据库包含五个字段-展望、温度、湿度、风和游戏。当您通过单击从该列表中选择一个属性时,该属性本身的更多详细信息会显示在右侧。
让我们先选择温度属性。当您点击它时,您会看到以下屏幕-
在
Selected Attribute 子窗口中,您可以观察到以下内容-
显示属性的名称和类型。
温度 属性的类型是 Nominal。
数量缺失 值为零。
有三个不同的值,没有唯一值。
此信息下方的表格将此字段的标称值显示为热、温和和冷。
它还以百分比形式显示每个标称值的计数和重量。
在窗口底部,您可以看到
class 值的可视化表示。
如果您点击
Visualize All 按钮,您将能够在一个窗口中看到所有功能,如下所示-
删除属性
很多时候,您要用于模型构建的数据带有许多不相关的字段。例如,客户数据库可能包含与分析其信用评级相关的手机号码。
要删除属性,请选择它们并单击底部的
删除按钮。
选定的属性将从数据库中删除。在对数据进行完全预处理后,您可以将其保存以用于模型构建。
接下来,您将学习通过对数据应用过滤器来预处理数据。
应用过滤器
某些机器学习技术(例如关联规则挖掘)需要分类数据。为了说明过滤器的使用,我们将使用
weather-numeric.arff 数据库,其中包含两个
numeric 属性-
温度 和
湿度.
我们将通过对原始数据应用过滤器将这些转换为
名义。单击
Filter 子窗口中的
Choose 按钮并选择以下过滤器-
weka→过滤器→监督→属性→离散化
点击
应用按钮并检查
温度和/或
湿度属性。您会注意到这些已从数字类型变为名义类型。
现在让我们看看另一个过滤器。假设您要选择最佳属性来决定
播放。选择并应用以下过滤器-
weka→过滤器→监督→属性→属性选择
您会注意到它从数据库中删除了温度和湿度属性。
在您对数据的预处理感到满意后,点击
保存 ...按钮保存数据。您将使用此保存的文件进行模型构建。
在下一章中,我们将探索使用几种预定义的 ML 算法构建模型。