Sqoop教程

Sqoop 导入

本章介绍如何将数据从 MySQL 数据库导入到 Hadoop HDFS。 "导入工具"将单个表从 RDBMS 导入到 HDFS。表中的每一行都被视为 HDFS 中的一条记录。所有记录都以文本数据形式存储在文本文件中，或以二进制数据形式存储在 Avro 和 Sequence 文件中。

语法

以下语法用于将数据导入 HDFS。

$ sqoop import (generic-args) (import-args) 
$ sqoop-import (generic-args) (import-args)

示例

让我们以名为 emp、 emp_add 和 emp_contact 的三个表为例，它们位于名为 userdb 的数据库中MySQL 数据库服务器。

三个表及其数据如下。

emp:

id	name	deg	salary	dept
1201	gopal	manager	50,000	TP
1202	manisha	Proof reader	50,000	TP
1203	khalil	php dev	30,000	AC
1204	prasantd	php dev	30,000	AC
1204	krantdi	admin	20,000	TP

emp_add:

id	hno	street	city
1201	288A	vgiri	jublee
1202	108I	aoc	sec-bad
1203	144Z	pgutta	hyd
1204	78B	old city	sec-bad
1205	720X	hitec	sec-bad

emp_contact:

id	phno	email
1201	2356742	gopal@tp.com
1202	1661663	manisha@tp.com
1203	8887776	khalil@ac.com
1204	9988774	prasantd@ac.com
1205	1231231	krantdi@tp.com

导入表格

Sqoop 工具‘import’用于将表中的表数据作为文本文件或二进制文件导入到Hadoop文件系统中。

以下命令用于将 emp表从MySQL数据库服务器导入HDFS。

$ sqoop import \
--connect jdbc:mysql://localhost/userdb \
--username root \
--table emp--m 1

如果执行成功，那么你会得到以下输出。

14/12/22 15:24:54 INFO sqoop.Sqoop: Running Sqoop version: 1.4.5
14/12/22 15:24:56 INFO manager.MySQLManager: Preparing to use a MySQL streaming resultset.
14/12/22 15:24:56 INFO tool.CodeGenTool: Beginning code generation
14/12/22 15:24:58 INFO manager.SqlManager: Executing SQL statement: 
   SELECT t.* FROM `emp` AS t LIMIT 1
14/12/22 15:24:58 INFO manager.SqlManager: Executing SQL statement: 
   SELECT t.* FROM `emp` AS t LIMIT 1
14/12/22 15:24:58 INFO orm.CompilationManager: HADOOP_MAPRED_HOME is /usr/local/hadoop
14/12/22 15:25:11 INFO orm.CompilationManager: Writing jar file: 
   /tmp/sqoop-hadoop/compile/cebe706d23ebb1fd99c1f063ad51ebd7/emp.jar
-----------------------------------------------------
-----------------------------------------------------
14/12/22 15:25:40 INFO mapreduce.Job: tde url to track tde job: 
   http://localhost:8088/proxy/application_1419242001831_0001/
14/12/22 15:26:45 INFO mapreduce.Job: Job job_1419242001831_0001 running in uber mode : 
   false
14/12/22 15:26:45 INFO mapreduce.Job: map 0% reduce 0%
14/12/22 15:28:08 INFO mapreduce.Job: map 100% reduce 0%
14/12/22 15:28:16 INFO mapreduce.Job: Job job_1419242001831_0001 completed successfully
-----------------------------------------------------
-----------------------------------------------------
14/12/22 15:28:17 INFO mapreduce.ImportJobBase: Transferred 145 bytes in 177.5849 seconds 
   (0.8165 bytes/sec)
14/12/22 15:28:17 INFO mapreduce.ImportJobBase: Retrieved 5 records.

要验证 HDFS 中导入的数据，请使用以下命令。

$ $HADOOP_HOME/bin/hadoop fs-cat /emp/part-m-*

它显示了 emp 表数据和字段用逗号 (,) 分隔。

1201, gopal,    manager, 50000, TP
1202, manisha,  preader, 50000, TP
1203, kalil,    php dev, 30000, AC
1204, prasantd, php dev, 30000, AC
1205, krantdi,  admin,   20000, TP

导入目标目录

我们可以在使用Sqoop导入工具将表数据导入HDFS时指定目标目录。

以下是将目标目录指定为 Sqoop 导入命令选项的语法。

--target-dir <new or exist directory in HDFS>

以下命令用于将 emp_add表数据导入'/queryresult'目录。

$ sqoop import \
--connect jdbc:mysql://localhost/userdb \
--username root \
--table emp_add \
--m 1 \
--target-dir /queryresult

以下命令用于验证/queryresult目录表单 emp_add表中导入的数据。

$ $HADOOP_HOME/bin/hadoop fs-cat /queryresult/part-m-*

它会用逗号 (,) 分隔的字段显示 emp_add 表数据。

1201, 288A, vgiri,   jublee
1202, 108I, aoc,     sec-bad
1203, 144Z, pgutta,  hyd
1204, 78B,  oldcity, sec-bad
1205, 720C, hitech,  sec-bad

导入表数据的子集

我们可以使用 Sqoop 导入工具中的"where"子句导入表的子集。它在相应的数据库服务器中执行相应的 SQL 查询，并将结果存储在 HDFS 的目标目录中。

where 子句的语法如下。

--where <condition>

以下命令用于导入 emp_add 表数据的子集。子集查询是检索居住在塞康德拉巴德市的员工 ID 和地址。

$ sqoop import \
--connect jdbc:mysql://localhost/userdb \
--username root \
--table emp_add \
--m 1 \
--where “city =’sec-bad’” \
--target-dir /wherequery

以下命令用于验证 emp_add表中/wherequery目录中导入的数据。

$ $HADOOP_HOME/bin/hadoop fs-cat /wherequery/part-m-*

它将向您显示 emp_add 表数据，其中包含逗号 (,) 分隔字段。

1202, 108I, aoc,     sec-bad
1204, 78B,  oldcity, sec-bad
1205, 720C, hitech,  sec-bad

增量导入

增量导入是一种仅导入表中新添加的行的技术。需要添加"incremental"、"check-column"和"last-value"选项来执行增量导入。

以下语法用于 Sqoop 导入命令中的增量选项。

--incremental <mode>
--check-column <column name>
--last value <last check column value>

让我们假设新添加到 emp 表中的数据如下-

1206, satish p, grp des, 20000, GR

以下命令用于在 emp表中进行增量导入。

$ sqoop import \
--connect jdbc:mysql://localhost/userdb \
--username root \
--table emp \
--m 1 \
--incremental append \
--check-column id \
-last value 1205

以下命令用于验证从 emp表导入的数据到HDFS emp/目录。

$ $HADOOP_HOME/bin/hadoop fs-cat /emp/part-m-*

它向您显示 emp 表数据，其中包含逗号 (,) 分隔字段。

1201, gopal,    manager, 50000, TP
1202, manisha,  preader, 50000, TP
1203, kalil,    php dev, 30000, AC
1204, prasantd, php dev, 30000, AC
1205, krantdi,  admin,   20000, TP
1206, satish p, grp des, 20000, GR

以下命令用于查看 emp表中修改或新添加的行。

$ $HADOOP_HOME/bin/hadoop fs-cat /emp/part-m-*1

它向您显示新添加到 emp 表中的行，其中包含逗号 (,) 分隔字段。

1206, satish p, grp des, 20000, GR

找工作要求35岁以下，35岁以上的程序员都干什么去了？

长久以来，一直有一个问题困扰着技术人——如何打破“程序员的35岁职业魔咒”，这一天迟早会到来，或早或晚。

或许是选错了行业，程序员薪水虽高，但光鲜的外表下，背后的苦衷只有自己知道。三十多岁本该是一个人事业的黄金期，但技术变化日新月异，行业竞争异常残酷，对一个企业来说，永远有比你更年轻、劳动成本更低的人可以选择，这让你的中年危机提前到来。破局的智慧可以看看这本书！>>

<< Sqoop 安装 Sqoop 导入所有表 >>

昵称：邮箱：