一、试题部分
使用 Sqoop 导入工具,要求只追加导入检查列中时间晚于或等于 last-value 的记录,则 incremental 模式应该设置为____?
A. merge
B. lastmodified
C. last-value
D. append
sqoop 导出采用调用模式时,以下说法正确的是?
A. 使用 --call 参数 调用 存储过程
B. 存储过程需要提前在 hive 中创建
C. 存储过程需要提前在 hdfs 中创建
D. 使用 --caii 参数 调用存储过程
sqoop 导入到 HDFS 中的所有记录默认存储为____格式。
A. 文本格式
B. 序列化文件
C. txt 格式
D. 二进制格式
关于 Sqoop 的说法:Sqoop 运行的核心是 Agent。它是一个完整的数据收集工具,含有三个核心组件,分别是 source、channel、sink;Event 从 Source 流向 Channel,再到 Sink,本身为一个 byte 数组,并可携带 headers 信息。
A. (1)对(2)错
B. (1)对(2)错
C. (1)和(2)都对
D. (1)错(2)对
关于 Sqoop 的说法:下列对象 不属于 ETL的三个部分?抽取、加载、查询
对
错
sqoop 使用更新模式默认的方式,导出数据时?
A. 可以既更新数据,又插入数据
B. 只能更新数据
C. 当数据不存在时,可以更新成功
D. 必须指定 --update-mode 参数
关于 Sqoop 的说法:Sqoop 导入目标可以为 HBase、Hive、HDFS
A. Sqoop 支持直接导出 HBase 表中数据到数据库中
B. 以上说法都是正确的
C. Sqoop 支持直接导出 HDFS 路径中数据到数据库中
D. Sqoop 支持直接导出 Hive 表中数据到数据库中
下面 Sqoop 导出说法正确的是?
A. Sqoop 支持直接导出 HBase 表中数据到数据库中
B. 以上说法都是正确的
C. Sqoop 支持直接导出 HDFS 路径中数据到数据库中
D. Sqoop 支持直接导出 Hive 表中数据到数据库中
9使用 Sqoop 导入工具,要求只追加导入检查列中时间晚于或等于 last-value 的记录,则 incremental 模式应该设置为____?
A. merge
B. lastmodified
C. last-value
D. append
解析:
1. 使用 Sqoop 导入工具,要求只追加导入检查列中时间晚于或等于 last-value 的记录,则 incremental 模式应该设置为____?
答案:B. lastmodified
解析:Sqoop 的 incremental
模式用于导入数据时只处理新增或更新的记录。lastmodified
模式是基于某个时间戳列(如 last-value
)来判断记录是否需要导入。如果记录的该列时间晚于或等于上次导入时记录的 last-value
,则会被导入。而 append
模式则主要用于处理整行追加的场景,不涉及时间戳列的判断。
2. Sqoop 导出采用调用模式时,以下说法正确的是?
答案:A. 使用 --call 参数 调用 存储过程
解析:Sqoop 支持通过 --call
参数调用存储过程来实现数据导出。存储过程需要在目标数据库中提前创建,而不是在 Hive 或 HDFS 中创建。--call
是正确的参数,而 --caii
是拼写错误。
3. Sqoop 导入到 HDFS 中的所有记录默认存储为____格式。
答案:A. 文本格式
解析:Sqoop 默认将数据导入到 HDFS 时以文本格式存储。虽然 Sqoop 也支持其他格式(如 SequenceFile、Avro 等),但默认格式是文本格式。
4. 关于 Sqoop 的说法:Sqoop 运行的核心是 Agent。它是一个完整的数据收集工具,含有三个核心组件,分别是 source、channel、sink;Event 从 Source 流向 Channel,再到 Sink,本身为一个 byte 数组,并可携带 headers 信息。
答案:D. (1)错(2)对
解析:这部分描述的是 Apache Flume 的架构,而不是 Sqoop。Sqoop 是一个数据导入和导出工具,其核心功能是通过 MapReduce 任务将数据在关系型数据库和 Hadoop 生态系统之间传输。而 Flume 是一个分布式、可靠、可用的系统,用于高效地收集、聚合和移动大量日志数据。
5. 关于 Sqoop 的说法:下列对象 不属于 ETL的三个部分?抽取、加载、查询
答案:错
解析:ETL(Extract, Transform, Load)的三个核心部分是抽取(Extract)、转换(Transform)和加载(Load)。查询(Query)并不是 ETL 的标准组成部分,而是可能在抽取或转换阶段使用的一种手段。
6. Sqoop 使用更新模式默认的方式,导出数据时?
答案:A. 可以既更新数据,又插入数据
解析:Sqoop 的更新模式默认是 allowinsert
,这意味着在导出数据时,如果目标表中存在匹配的记录,则更新该记录;如果不存在,则插入新记录。
7. 关于 Sqoop 的说法:Sqoop 导入目标可以为 HBase、Hive、HDFS
答案:B. 以上说法都是正确的
解析:Sqoop 支持将数据导入到 HDFS、Hive 和 HBase。这三种目标是 Sqoop 常见的使用场景。
8. 下面 Sqoop 导出说法正确的是?
答案:C. Sqoop 支持直接导出 HDFS 路径中数据到数据库中
解析:Sqoop 支持从 HDFS 导出数据到关系型数据库。虽然 Sqoop 也可以与 Hive 和 HBase 集成,但导出数据时通常是直接从 HDFS 路径读取数据并写入目标数据库。选项 A、B 和 D 都不准确。
9. 使用 Sqoop 导入工具,要求只追加导入检查列中时间晚于或等于 last-value 的记录,则 incremental 模式应该设置为____?
答案:B. lastmodified