什么是HIVE
Hive是一个数据仓库系统,用于分析结构化数据。它建立在Hadoop的顶部。它由Facebook开发。
Hive提供读取,写入和管理驻留在分布式存储中的大型数据集的功能。它运行类似于SQL的查询,称为HQL(Hive查询语言),并在内部转换为MapReduce作业。
使用Hive,我们可以跳过编写复杂MapReduce程序的传统方法的要求。 Hive支持数据定义语言(DDL),数据操作语言(DML)和用户定义的功能(UDF)。
Hive的功能
以下是这些功能Hive的功能:
Hive快速且可扩展。
它提供了类似SQL的查询(即HQL),这些查询已隐式转换为MapReduce或Spark作业。
它能够分析存储在HDFS中的大型数据集。
它允许使用不同的存储类型,例如纯文本,RCFile和HBase。
它使用索引来加速查询。
它可以对Hadoop生态系统中存储的压缩数据进行操作。
它支持用户定义的功能(UDF),用户可以在其中提供其功能。
Hive的限制
Hive无法处理实时数据。
它不是为在线交易处理而设计的。
Hive式查询包含高延迟。
Hive和Pig之间的区别
Hive |
Pig |
Hive是数据分析师常用的 |
程序员通常使用Pig。 |
它遵循类似SQL的查询。 |
它遵循数据流语言。 |
它可以处理结构化数据。 |
它可以处理半结构化数据。 |
它在HDFS群集的服务器端工作。 |
它在HDFS群集的客户端上工作。 |
Hive比Pig慢。 |
Pig比Hive快。 |