DynamoDB教程

DynamoDB MapReduce

亚马逊的 Elastic MapReduce (EMR) 可让您快速高效地处理大数据。 EMR 在 EC2 实例上运行 Apache Hadoop,但简化了流程。您使用 Apache Hive 查询地图减少作业流,通过HiveQL,一种查询语言类似于 SQL。 Apache Hive 可作为优化查询和应用程序的一种方式。
您可以使用管理控制台的 EMR 选项卡、EMR CLI、API 或 SDK 来启动作业流程。您还可以选择以交互方式运行 Hive 或使用脚本。
EMR 读/写操作会影响吞吐量消耗,但是,在大型请求中,它会在退避算法的保护下执行重试。此外,与其他操作和任务同时运行 EMR 可能会导致限制。
DynamoDB/EMR 集成不支持二进制和二进制集属性。

DynamoDB/EMR 集成先决条件

在使用 EMR 之前查看此必要项目清单-
一个 AWS 账户 在 EMR 操作中使用的同一帐户下的填充表 具有 DynamoDB 连接性的自定义 Hive 版本 DynamoDB 连接支持 一个 S3 存储桶(可选) SSH 客户端(可选) 一个 EC2 密钥对(可选)

蜂巢设置

在使用 EMR 之前,创建一个密钥对以在交互模式下运行 Hive。密钥对允许连接到 EC2 实例和作业流的主节点。
您可以按照以下步骤执行此操作-
登录管理控制台,然后打开位于 https://console.aws.amazon.com/ec2/ 在控制台的右上角选择一个区域。确保该区域与 DynamoDB 区域匹配。 在导航窗格中,选择密钥对 选择创建密钥对 密钥对名称字段中,输入名称并选择创建 下载使用以下格式生成的私钥文件:filename.pem。
注意-如果没有密钥对,您将无法连接到 EC2 实例。

Hive 集群

创建启用 Hive 的集群来运行 Hive。它为 Hive 到 DynamoDB 连接构建所需的应用程序和基础架构环境。
您可以使用以下步骤执行此任务-
访问 EMR 控制台。 选择创建集群 在创建屏幕中,使用集群的描述性名称设置集群配置,选择 Yes 进行终止保护,并选中 Enabled 进行日志记录,S3 目标用于日志文件夹 S3 位置,并启用用于调试。 在"软件配置"屏幕中,确保字段包含 Amazon 用于 Hadoop 分发、最新版本用于 AMI 版本、用于要安装的应用程序的默认 Hive 版本-Hive 以及用于要安装的应用程序-Pig。 在硬件配置屏幕中,确保字段保持启动到 EC2-Classic 网络,无首选项 EC2 可用区,主 Amazon EC2 实例的默认设置Type,不检查Request Spot Instances,Core-Amazon EC2 Instance Type的默认值,2 Count,不检查Request Spot Instances,Task-Amazon EC2 Instance Type的默认值, 0 表示 Count,不检查请求 Spot 实例。
请务必设置一个提供足够容量的限制,以防止集群故障。
在安全和访问屏幕中,确保字段在 EC2 密钥对中保存您的密钥对,在 IAM 用户访问中没有其他 IAM 用户,在 IAM 中无角色继续角色。 查看 Bootstrap Actions 屏幕,但不要修改它。 检查设置,完成后选择创建集群
摘要窗格出现在集群的开头。

激活 SSH 会话

您需要一个活动的 SSH 会话来连接到主节点并执行 CLI 操作。通过在 EMR 控制台中选择集群来定位主节点。它将主节点列为 主公共 DNS 名称
如果您没有 PuTTY,请安装它。然后启动 PuTTYgen 并选择 Load。选择您的 PEM 文件,然后打开它。 PuTTYgen 会通知您成功导入。选择 保存私钥以PuTTY私钥格式(PPK)保存,选择 保存不带密码。然后输入 PuTTY 键的名称,点击 保存,然后关闭 PuTTYgen。
首先启动PuTTY,使用PuTTY与主节点建立连接。从类别列表中选择 会话。在主机名字段中输入 hadoop@DNS。在类别列表中展开 Connection > SSH,然后选择 Auth。在控制选项屏幕中,为用于身份验证的私钥文件选择 浏览。然后选择您的私钥文件并打开它。为安全警报弹出窗口选择
连接到主节点后,会出现一个 Hadoop 命令提示符,这意味着您可以开始交互式 Hive 会话。

Hive表

Hive 用作数据仓库工具,允许使用 HiveQL 对 EMR 集群进行查询。先前的设置为您提供了一个工作提示。只需输入"hive",然后输入您想要的任何命令,即可交互式运行 Hive 命令。有关 Hive 的更多信息,请参阅我们的 Hive 教程。
昵称: 邮箱:
Copyright © 2022 立地货 All Rights Reserved.
备案号:京ICP备14037608号-4