Hadoop教程
HBase
Hive
Pig
Sqoop
Spark

什么是HIVE

Hive是一个数据仓库系统,用于分析结构化数据。它建立在Hadoop的顶部。它由Facebook开发。
Hive提供读取,写入和管理驻留在分布式存储中的大型数据集的功能。它运行类似于SQL的查询,称为HQL(Hive查询语言),并在内部转换为MapReduce作业。
使用Hive,我们可以跳过编写复杂MapReduce程序的传统方法的要求。 Hive支持数据定义语言(DDL),数据操作语言(DML)和用户定义的功能(UDF)。

Hive的功能

以下是这些功能Hive的功能:
Hive快速且可扩展。 它提供了类似SQL的查询(即HQL),这些查询已隐式转换为MapReduce或Spark作业。 它能够分析存储在HDFS中的大型数据集。 它允许使用不同的存储类型,例如纯文本,RCFile和HBase。 它使用索引来加速查询。 它可以对Hadoop生态系统中存储的压缩数据进行操作。 它支持用户定义的功能(UDF),用户可以在其中提供其功能。

Hive的限制

Hive无法处理实时数据。 它不是为在线交易处理而设计的。 Hive式查询包含高延迟。

Hive和Pig之间的区别

Hive Pig
Hive是数据分析师常用的 程序员通常使用Pig。
它遵循类似SQL的查询。 它遵循数据流语言。
它可以处理结构化数据。 它可以处理半结构化数据。
它在HDFS群集的服务器端工作。 它在HDFS群集的客户端上工作。
Hive比Pig慢。 Pig比Hive快。
昵称: 邮箱:
Copyright © 2022 立地货 All Rights Reserved.
备案号:京ICP备14037608号-4