Hive SQL 精进系列：FROM_JSON 函数的应用-EW帮帮网

一、引言

JSON 以其简洁、易读且易于解析的特点，被广泛应用于数据交换和存储。Hive SQL 作为大数据处理的重要工具，提供了 from_json 和 get_json_object 这两个用于处理 JSON 数据的函数。本文将详细介绍 from_json 函数的语法、应用场景，同时对比 from_json 与 get_json_object 的差异，以及使用时的注意事项。

二、from_json 函数基础

2.1 基本语法

from_json 函数的基本语法如下：

from_json(json_str, schema [, options])

参数解释与示例

1. `json_str`

解释：这是要解析的 JSON 字符串，是函数必需的输入。它可以是一个直接的 JSON 字符串常量，也可以是表中存储 JSON 数据的列名。
示例：假设我们有一个简单的 JSON 字符串 {"name": "Tom", "age": 25}，我们可以将其作为 json_str 传入 from_json 函数进行解析。

SELECT from_json('{"name": "Tom", "age": 25}', 'struct<name:string, age:int>');

在这个例子中，函数会尝试将 JSON 字符串解析为包含 name（字符串类型）和 age（整数类型）字段的结构体。

2. `schema`

解释：指定 JSON 数据的结构，即定义 JSON 数据的类型和层次结构，同样是必需参数。schema 告诉 Hive 如何解析 JSON 字符串。常见的类型包括 struct（结构体）、array（数组）、map（映射）等。
- struct 类型：用于表示 JSON 对象，每个字段都有一个名称和对应的类型。
- array 类型：用于表示 JSON 数组，需要指定数组元素的类型。
- map 类型：用于表示键值对的映射，需要指定键和值的类型。
示例：
- struct 类型示例：继续使用上面的 JSON 字符串 {"name": "Tom", "age": 25}，schema 为 'struct<name:string, age:int>'，表示 JSON 数据是一个包含 name 字符串字段和 age 整数字段的结构体。
- array 类型示例：假设有一个 JSON 数组字符串 ["apple", "banana", "cherry"]，我们可以使用 from_json 函数将其解析为字符串数组。

SELECT from_json('["apple", "banana", "cherry"]', 'array<string>') AS fruit_array;

在这个例子中，schema 为 'array<string>'，表示 JSON 数据是一个字符串数组。函数会将 JSON 字符串解析为一个包含三个字符串元素的数组。
- map 类型示例：假设有一个 JSON 映射字符串 {"key1": "value1", "key2": "value2"}，我们可以使用以下代码进行解析。

SELECT from_json('{"key1": "value1", "key2": "value2"}', 'map<string, string>') AS key_value_map;

这里的 schema 为 'map<string, string>'，表示 JSON 数据是一个键和值都是字符串类型的映射。

3. `options`

解释：可选参数，用于指定解析 JSON 数据的一些选项。例如，'ignore.malformed' 选项可以让函数忽略格式错误的 JSON 数据，而不是抛出错误。
示例：假设我们有一个包含格式错误 JSON 数据的表 json_table，其中 json_column 列包含一些格式错误的 JSON 字符串。我们可以使用 'ignore.malformed' 选项来忽略这些错误。

-- 创建示例表
CREATE TABLE json_table (
    id INT,
    json_column STRING
);

-- 插入示例数据，包含一个格式错误的 JSON 字符串
INSERT INTO json_table VALUES
(1, '{"name": "Alice", "age": 30}'),
(2, '{"name": "Bob", "age": 35, }'); -- 格式错误，多余的逗号

-- 使用 'ignore.malformed' 选项解析 JSON 数据
SELECT 
    id,
    from_json(json_column, 'struct<name:string, age:int>', 'ignore.malformed') AS person_info
FROM 
    json_table;

在这个例子中，对于格式错误的 JSON 字符串，函数会忽略错误并返回 NULL，而不会导致整个查询失败。

返回值

from_json 函数会根据指定的 schema 解析 json_str，并返回一个符合 schema 定义的结构化数据。如果解析失败，可能会返回 NULL。

三、应用场景

3.1 处理日志数据

在日志记录中，很多系统会将相关信息以 JSON 格式记录下来。例如，一个网站的访问日志可能包含用户的 IP 地址、访问时间、访问页面等信息，这些信息以 JSON 格式存储在日志文件中。我们可以使用 from_json 函数将这些 JSON 日志数据解析为结构化数据，方便进行统计和分析。

-- 创建示例表
CREATE TABLE access_logs (
    log_id INT,
    log_json STRING
);

-- 插入示例数据
INSERT INTO access_logs VALUES
(1, '{"ip": "192.168.1.1", "timestamp": "2024-01-01 10:00:00", "page": "/home"}'),
(2, '{"ip": "192.168.1.2", "timestamp": "2024-01-01 10:10:00", "page": "/about"}');

-- 解析 JSON 数据
SELECT 
    log_id,
    from_json(log_json, 'struct<ip:string, timestamp:string, page:string>') AS log_info
FROM 
    access_logs;

通过这个查询，我们可以将 log_json 列中的 JSON 字符串解析为包含 ip、timestamp 和 page 字段的结构化数据。

3.2 数据集成与转换

在数据集成过程中，不同系统之间的数据格式可能不一致。如果某个系统提供的数据是 JSON 格式，而我们需要将其集成到 Hive 表中进行统一处理，就可以使用 from_json 函数进行数据转换。

-- 创建源数据表
CREATE TABLE source_data (
    id INT,
    json_data STRING
);

-- 插入示例数据
INSERT INTO source_data VALUES
(1, '{"product_id": 1001, "product_name": "iPhone", "price": 999}'),
(2, '{"product_id": 1002, "product_name": "iPad", "price": 599}');

-- 创建目标表
CREATE TABLE target_data (
    id INT,
    product_id INT,
    product_name STRING,
    price DOUBLE
);

-- 插入数据并解析 JSON
INSERT INTO target_data
SELECT 
    id,
    parsed.product_id,
    parsed.product_name,
    parsed.price
FROM 
    source_data
LATERAL VIEW 
    explode(from_json(json_data, 'struct<product_id:int, product_name:string, price:double>')) exploded_table AS parsed;

在这个示例中，我们将 source_data 表中的 JSON 数据解析为结构化数据，并插入到 target_data 表中，实现了数据的集成和转换。

3.3 复杂嵌套 JSON 数据处理

JSON 数据可以是嵌套的，即一个 JSON 对象中包含另一个 JSON 对象或数组。from_json 函数也可以处理这种复杂的嵌套 JSON 数据。

{
    "order_id": 12345,
    "customer": {
        "name": "Alice",
        "email": "alice@example.com"
    },
    "items": [
        {
            "product_name": "Book",
            "quantity": 2,
            "price": 19.99
        },
        {
            "product_name": "Pen",
            "quantity": 5,
            "price": 2.99
        }
    ]
}

SELECT 
from_json(
	'{"order_id": 12345, "customer": {"name": "Alice", "email": "alice@example.com"}, "items": [{"product_name": "Book", "quantity": 2, "price": 19.99}, {"product_name": "Pen", "quantity": 5, "price": 2.99}]}',
	'struct<order_id:int, customer:struct<name:string, email:string>, items:array<struct<product_name:string, quantity:int, price:double>>>'
) AS order_info;

在这个示例中，schema 定义了一个复杂的嵌套结构，包括一个整数类型的 order_id、一个包含 name 和 email 字段的 customer 结构体，以及一个包含多个 item 结构体的数组 items。from_json 函数会根据这个 schema 解析嵌套的 JSON 数据。

3.4 使用 `explode(from_json(column, 'array<string>'))` 展开 JSON 数组

在实际场景中，我们可能会遇到 JSON 数据以数组形式存储在表的某一列中，并且需要将数组中的每个元素展开成单独的行进行处理。这时可以结合使用 from_json 函数和 explode 函数。

-- 创建示例表
CREATE TABLE json_array_table (
    record_id INT,
    json_array_column STRING
);

-- 插入示例数据
INSERT INTO json_array_table VALUES
(1, '["red", "green", "blue"]'),
(2, '["apple", "banana", "cherry"]');

-- 使用 explode 和 from_json 展开 JSON 数组
SELECT 
    record_id,
    color
FROM 
    json_array_table
LATERAL VIEW 
    explode(from_json(json_array_column, 'array<string>')) exploded_table AS color;

在上述代码中：

首先创建了一个名为 json_array_table 的表，其中 json_array_column 列存储了 JSON 数组字符串。
然后插入了两条示例数据，每条数据包含一个 JSON 数组。
最后在查询中，使用 LATERAL VIEW explode 和 from_json 函数。from_json(json_array_column, 'array<string>') 将 json_array_column 列中的 JSON 字符串解析为字符串数组，explode 函数将这个数组展开成单独的行，每行包含数组中的一个元素。这样就可以方便地对数组中的每个元素进行进一步的分析和处理。

四、from_json 与 get_json_object 的对比

4.1 功能概述

from_json：可以将 JSON 字符串解析为符合指定 schema 的结构化数据，支持多种复杂的数据类型，如 struct、array、map 等，能够全面地解析 JSON 数据的结构。
get_json_object：用于从 JSON 字符串中提取指定路径的值，它更侧重于根据 JSON 路径表达式来获取特定的值。

4.2 适用场景对比

4.2.1 struct 类型数据处理

对于简单的 struct 类型 JSON 数据，get_json_object 和 from_json 都可以处理，但使用方式和效果有所不同。

使用 get_json_object：

-- 假设我们有一个 JSON 字符串
SELECT 
    get_json_object('{"name": "Tom", "age": 25}', '$.name') AS name,
    get_json_object('{"name": "Tom", "age": 25}', '$.age') AS age;

在这个例子中，get_json_object 通过 JSON 路径表达式 $.name 和 $.age 分别获取 name 和 age 的值。但它每次只能提取一个值，如果要获取多个字段，需要多次调用该函数。

使用 from_json：

SELECT 
    from_json('{"name": "Tom", "age": 25}', 'struct<name:string, age:int>').name AS name,
    from_json('{"name": "Tom", "age": 25}', 'struct<name:string, age:int>').age AS age;

from_json 可以一次性将整个 JSON 字符串解析为一个结构体，然后通过点号 . 来访问结构体中的各个字段。如果需要处理多个字段，from_json 会更简洁。

4.2.2 array 类型数据处理

对于 array 类型的 JSON 数据，from_json 具有明显优势。

使用 from_json：

SELECT 
    from_json('["apple", "banana", "cherry"]', 'array<string>') AS fruit_array;

from_json 可以直接将 JSON 数组字符串解析为 Hive 中的数组类型，方便后续的处理，如使用 explode 函数展开数组。

使用 get_json_object：
get_json_object 很难直接处理数组类型的数据，它主要用于获取特定路径的值，对于数组的处理能力有限。如果要处理数组中的元素，需要编写复杂的逻辑。

4.2.3 复杂嵌套 JSON 数据处理

对于复杂的嵌套 JSON 数据，from_json 更能发挥其优势。

使用 from_json：

SELECT 
    from_json(
        '{"order_id": 12345, "customer": {"name": "Alice", "email": "alice@example.com"}, "items": [{"product_name": "Book", "quantity": 2, "price": 19.99}, {"product_name": "Pen", "quantity": 5, "price": 2.99}]}',
        'struct<order_id:int, customer:struct<name:string, email:string>, items:array<struct<product_name:string, quantity:int, price:double>>>') AS order_info;

from_json 可以根据定义的复杂 schema 一次性解析整个嵌套 JSON 数据，将其转换为对应的结构化数据。

使用 get_json_object：
使用 get_json_object 处理复杂嵌套 JSON 数据会变得非常繁琐，需要多次调用该函数并使用复杂的路径表达式来获取各个字段的值。

4.3 性能差异

一般来说，from_json 在处理复杂 JSON 数据时，由于需要解析整个数据结构，可能会有一定的性能开销。而 get_json_object 只关注指定路径的值，相对来说性能开销可能会小一些。但具体的性能还会受到数据量、数据复杂度等因素的影响。

五、使用注意事项

5.1 `schema` 定义的准确性

使用 from_json 时，schema 的定义必须与 JSON 数据的实际结构和类型一致，否则可能会导致解析失败或得到错误的结果。在定义 schema 时，需要仔细检查 JSON 数据的结构和字段类型，确保 schema 准确无误。

5.2 空值和格式错误处理

如果 JSON 数据中包含空值或格式错误，from_json 和 get_json_object 函数可能会返回 NULL 或抛出异常。可以使用 from_json 的 options 参数来处理这些情况，例如使用 'ignore.malformed' 选项忽略格式错误的 JSON 数据。

5.3 性能问题

对于大规模的 JSON 数据解析，from_json 和 get_json_object 函数都可能会影响性能。可以考虑在数据导入阶段进行预处理，或者使用分布式计算框架来提高解析效率。

六、总结

Hive SQL 的 from_json 函数为处理 JSON 格式的数据提供了强大的支持，尤其在处理复杂的 JSON 数据结构（如数组、嵌套对象）时表现出色。而 get_json_object 则更适合于简单的 JSON 数据提取，通过指定路径获取特定的值。在实际应用中，需要根据具体的业务需求和数据特点，合理选择使用这两个函数。同时，要注意 schema 的准确性、空值和格式错误处理以及性能问题。合理使用这些函数，可以更好地处理和分析 JSON 数据，挖掘数据中的价值。

Hive SQL 精进系列：FROM_JSON 函数的应用

目录

一、引言

二、from_json 函数基础

2.1 基本语法

参数解释与示例

1. `json_str`

2. `schema`

3. `options`

返回值

三、应用场景

3.1 处理日志数据

3.2 数据集成与转换

3.3 复杂嵌套 JSON 数据处理

3.4 使用 `explode(from_json(column, 'array<string>'))` 展开 JSON 数组

四、from_json 与 get_json_object 的对比

4.1 功能概述

4.2 适用场景对比

4.2.1 struct 类型数据处理

4.2.2 array 类型数据处理

4.2.3 复杂嵌套 JSON 数据处理

4.3 性能差异

五、使用注意事项

5.1 `schema` 定义的准确性

5.2 空值和格式错误处理

5.3 性能问题

六、总结

网站公告

今日签到

热门文章

最新发布

Hive SQL 精进系列：FROM_JSON 函数的应用

目录

一、引言

二、from_json 函数基础

2.1 基本语法

参数解释与示例

1. json_str

2. schema

3. options

返回值

三、应用场景

3.1 处理日志数据

3.2 数据集成与转换

3.3 复杂嵌套 JSON 数据处理

3.4 使用 explode(from_json(column, 'array<string>')) 展开 JSON 数组

四、from_json 与 get_json_object 的对比

4.1 功能概述

4.2 适用场景对比

4.2.1 struct 类型数据处理

4.2.2 array 类型数据处理

4.2.3 复杂嵌套 JSON 数据处理

4.3 性能差异

五、使用注意事项

5.1 schema 定义的准确性

5.2 空值和格式错误处理

5.3 性能问题

六、总结

网站公告

今日签到

热门文章

最新发布

1. `json_str`

2. `schema`

3. `options`

3.4 使用 `explode(from_json(column, 'array<string>'))` 展开 JSON 数组

5.1 `schema` 定义的准确性