Talend教程

Talend 使用 Pig

在本章中,让我们学习如何在 Talend 中使用 Pig 作业。

创建 Talend Pig 作业

在本节中,让我们学习如何在 Talend 上运行 Pig 作业。在这里,我们将处理 NYSE 数据以找出 IBM 的平均库存量。
为此,右键单击作业设计并创建一个新作业 – pigjob。提及作业的详细信息,然后单击"完成"。
Talend Pig Job

向 Pig 作业添加组件

要将组件添加到 Pig 作业,请将四个 Talend 组件:tPigLoad、tPigFilterRow、tPigAggregate、tPigStoreResult,从托盘拖放到设计器窗口。
然后,右键单击 tPigLoad 并创建 Pig Combine 线到 tPigFilterRow。接下来,右键单击 tPigFilterRow 并创建 Pig Combine 线到 tPigAggregate。右键单击 tPigAggregate 并创建 Pig 组合线到 tPigStoreResult。
添加猪作业

配置组件和转换

在 tPigLoad 中,将发行版称为 cloudera 和 cloudera 的版本。请注意,Namenode URI 应为"hdfs://quickstart.cloudera:8020",资源管理器应为"quickstart.cloudera:8020"。此外,用户名应为"cloudera"。
在输入文件 URI 中,将 NYSE 输入文件的路径提供给猪作业。请注意,此输入文件应存在于 HDFS 上。
纽约证券交易所输入
单击编辑架构,添加列及其类型,如下所示。
编辑架构
在 tPigFilterRow 中,选择"使用高级过滤器"选项并在过滤器选项中输入"stock_symbol == ‘IBM’"。
过滤选项
在 tAggregateRow 中,单击编辑架构并在输出中添加 avg_stock_volume 列,如下所示。
平均库存量
现在,将 stock_exchange 列放在 Group by 选项中。在 Operations 字段中添加 avg_stock_volume 列,以 count 函数和 stock_exchange 作为输入列。
证券交易所
在 tPigStoreResult 中,在 Result Folder URI 中给出您要存储 Pig 作业结果的输出路径。选择存储函数为 PigStorage,字段分隔符(非强制)为"\t"。
猪存储

执行 Pig 作业

现在单击运行以执行您的 Pig 作业。 (忽略警告)
执行猪作业
作业完成后,在您提到的用于存储猪作业结果的 HDFS 路径中检查您的输出。 IBM 的平均库存量为 500。
存储猪
昵称: 邮箱:
Copyright © 2022 立地货 All Rights Reserved.
备案号:京ICP备14037608号-4