Talend教程

Talend Hive

在本章中,让我们了解如何在 Talend 上使用 Hive 作业。

创建 Talend Hive 作业

作为示例,我们将 NYSE 数据加载到 hive 表并运行基本的 hive 查询。右键单击 Job Design 并创建一个新作业 – hivejob。提及作业的详细信息,然后单击"完成"。
Hive Job

向 Hive 作业添加组件

要将组件分配到 Hive 作业,请将五个 talend 组件-tHiveConnection、tHiveCreateTable、tHiveLoad、tHiveInput 和 tLogRow 从托盘拖放到设计器窗口。然后,右键单击 tHiveConnection 并为 tHiveCreateTable 创建 OnSubjobOk 触发器。现在,右键单击 tHiveCreateTable 并为 tHiveLoad 创建 OnSubjobOk 触发器。右键单击 tHiveLoad 并在 tHiveInput 上创建迭代触发器。最后,右键单击 tHiveInput 并创建一条到 tLogRow 的主线。
添加组件

配置组件和转换

在 tHiveConnection 中,选择发行版作为 cloudera 及其您正在使用的版本。请注意,连接模式将是独立的,而 Hive 服务将是 Hive 2、还要检查是否相应地设置了以下参数-
主持人:"quickstart.cloudera" 端口:"10000" 数据库:"默认" 用户名:"蜂巢"
请注意,密码将自动填充,您无需编辑。其他 Hadoop 属性也将默认预设和设置。
配置组件
在 tHiveCreateTable 中,选择 Use an existing connection 并将 tHiveConnection 放在 Component 列表中。给出要在默认数据库中创建的表名。保持其他参数如下所示。
Hive 创建表
在 tHiveLoad 中,选择"使用现有连接"并将 tHiveConnection 放入组件列表中。在加载操作中选择 LOAD。在文件路径中,提供您的 NYSE 输入文件的 HDFS 路径。在表名称中提及您在其中的表想要加载输入。其他参数保持如下所示。
现有连接
在 tHiveInput 中,选择 Use an existing connection 并将 tHiveConnection 放在 Component 列表中。单击编辑架构,添加列及其类型,如下面的架构快照所示。现在给出你在 tHiveCreateTable 中创建的表名。
将查询放在要在 Hive 表上运行的查询选项中。这里我们打印测试 hive 表中前 10 行的所有列。
Hive 连接 Schema_of_tHiveInput
在 tLogRow 中,单击同步列并选择表格模式以显示输出。
表格模式

执行 Hive 作业

点击运行开始执行。如果所有连接和参数设置正确,您将看到如下所示的查询输出。
执行 Hive 作业
昵称: 邮箱:
Copyright © 2022 立地货 All Rights Reserved.
备案号:京ICP备14037608号-4