Talend MapReduce

在上一章中，我们已经看到了 Talend 如何处理大数据。在本章中，让我们了解如何在 Talend 中使用 map Reduce。

创建 Talend MapReduce 作业

让我们学习如何在 Talend 上运行 MapReduce 作业。这里我们将运行一个 MapReduce 字数统计示例。

为此，右键单击 Job Design 并创建一个新作业 – MapreduceJob。提及作业的详细信息，然后单击"完成"。

向 MapReduce 作业添加组件

要将组件添加到 MapReduce 作业，请将 Talend 的五个组件-tHDFSInput、tNormalize、tAggregateRow、tMap、tOutput 从托盘拖放到设计器窗口。右键单击 tHDFSInput 并创建指向 tNormalize 的主链接。

右键单击 tNormalize 并创建指向 tAggregateRow 的主链接。然后，右键单击 tAggregateRow 并创建到 tMap 的主链接。现在，右键单击 tMap 并创建指向 tHDFSOutput 的主链接。

配置组件和转换

在 tHDFSInput 中，选择发行版 cloudera 及其版本。请注意，Namenode URI 应为"hdfs://quickstart.cloudera:8020"，用户名应为"cloudera"。在文件名选项中，将输入文件的路径提供给 MapReduce 作业。确保此输入文件存在于 HDFS 上。

现在，根据您的输入文件选择文件类型、行分隔符、文件分隔符和标题。

点击编辑模式并将字段"行"添加为字符串类型。

在 tNomalize 中，要标准化的列将是行，项目分隔符将是空格-> " "。现在，单击编辑架构。 tNormalize 将有 line 列，tAggregateRow 将有 2 列 word 和 wordcount，如下所示。

在 tAggregateRow 中，将单词作为 Group by 选项中的输出列。在操作中，以wordcount为输出列，函数为count，输入列位置为行。

现在双击 tMap 组件进入地图编辑器并将输入映射到所需的输出。在这个例子中，word 与 word 映射，wordcount 与 wordcount 映射。在表达式栏中，点击[…]进入表达式生成器。

现在，从类别列表和 UPCASE 函数中选择 StringHandling。将表达式编辑为"StringHandling.UPCASE(row3.word)"，然后单击"确定"。将row3.wordcount保留在wordcount对应的表达式列中，如下所示。

在 tHDFSOutput 中，连接到我们从属性类型作为存储库创建的 Hadoop 集群。观察字段将自动填充。在文件名中，给出要存储输出的输出路径。保持 Action、行分隔符和字段分隔符如下所示。

执行 MapReduce 作业

成功完成配置后，单击运行并执行您的 MapReduce 作业。

转到您的 HDFS 路径并检查输出。请注意，所有单词的字数都将大写。

找工作要求35岁以下，35岁以上的程序员都干什么去了？

长久以来，一直有一个问题困扰着技术人——如何打破“程序员的35岁职业魔咒”，这一天迟早会到来，或早或晚。

或许是选错了行业，程序员薪水虽高，但光鲜的外表下，背后的苦衷只有自己知道。三十多岁本该是一个人事业的黄金期，但技术变化日新月异，行业竞争异常残酷，对一个企业来说，永远有比你更年轻、劳动成本更低的人可以选择，这让你的中年危机提前到来。破局的智慧可以看看这本书！>>

<< Talend 分布式文件系统 Talend 使用 Pig >>

昵称：邮箱：