SQL语法
CREATE TABLE
CREATE TABLE table_name (
column_1 datatype,
column_2 datatype,
column_3 datatype
);
ALTER TABLE
ALTER TABLE table_name ADD column_name datatype;
UPDATE TABLE
UPDATE table_name
SET column1 = value1, column2 = value2, ...
WHERE condition;
UPDATE table_1 SET column_1 = "value_1" where column_2 = "value_2"
ALTER TABLE table_1 DROP PARTITION (p_date = "20240501")
ALTER TABLE table_1 CHANGE COLUMN col_old col_new col_type;
DELETE TABLE
DELETE FROM table_name WHERE condition
INSERT TABLE
INSERT INTO table_name (column_1, column_2, column_3) VALUES (value_1, 'value_2', value_3)
DROP TABLE
DROP TABLE table_name;
SELECT basics
IN用法、Between用法、LIKE用法、NOT LIKE用法
# select ... from ... where ...
select population from world where name = 'Germany'
# IN 用法
select name, population from world where name in ('Sweden', 'Norway', 'Denmark')
# Between 用法
select name, area from world where area between 200000 and 250000
# LIKE 用法
select name, population from world where name like "Al%"
select name from world where name like '%a' or name like '%l'
GROUP BY用法、HAVING用法
Hive中在group by查询的时候要求出现在select后面的列都必须是出现在group by后面
#GROUP BY合并行和汇总数据
select continent, population from world group by continent
#HAVING过滤由GROUP BY子句聚合的数据,得到有限记录集
select continent, population from world group by continent having population > 1000
AVG、AS、COUNT、MAX、MIN
LIMIT用法,限制结果返回的行数
# 返回前n行记录
select ... from ... limit n
# 返回从第m行开始的n行记录
select ... from ... limit m, n
ORDER BY用法【desc降序,asc升序】
select name_1, name_2, name_3 from table_1 order by name_2 desc;
select name_1, name_2, name_3 from table_1 order by name_2 asc;
JOIN用法【其中LEFT JOIN等同于LEFT OUTER JOIN】
# INNER JOIN 【也叫 Inner Join,在两个表中选择具有匹配值的记录】
select * from table_1 as a join table_2 as b on a.id = b.id
# LEFT JOIN 【返回左表的所有记录,以及右表的匹配记录。即使右表中没有匹配的记录,左表中的记录也会被返回。左表中的行如果在右表中没有匹配,那么右表的值将为 null】
select * from table_1 as a left join table_2 as b on a.id = b.id
# RIGHT JOIN 【返回右表的所有记录,以及左表的匹配记录。与 LEFT JOIN 相反,这将返回右表的所有记录,即使在左表中没有匹配的记录。右表中的行如果在左表中没有匹配,那么左表的列就会有 null】
select * from table_1 as a right join table_2 as b on a.id = b.id
# FULL OUTER JOIN 【返回所有在其中一个表中有匹配的记录。因此,如果左表中有一些记录在右表中没有匹配,这些记录将被包括在内。同时,如果右表中有一些记录在左表中没有匹配,这些记录也会被包括在内】
Select table_1.name, table_2.id from table_1 full outer join table_2 on table_1.name = table_2.name order by table_1.id
CASE WEHN ... THEN ... ELSE ... END用法
select
case
when play_cnt < 2000 then 1
when play_cnt < 4000 then 2
else 3
end play_num
from
table_1
where
column_1 = "value_1"
CONCAT用法
- concat()用于将多个字符拼接起来,CONCAT(str1,str2,…)
- concat_ws()函数用于在拼接的时候指定分隔符,CONCAT_WS(separator,str1,str2,…)
- group_concat()函数返回一个字符串结果,该结果由分组中的值连接组合而成
# concat用法
select concat(str1, str2) from table_1 where column_1 = "value_1"
# concat_ws用法
select
concat_ws(
"_",
name_1,
name_2,
name_3
)
from
table_1
where
name_1 = "value_1"
group_concat函数用法
有表如下
+----------+----+--------------------------+
| locus | id | journal |
+----------+----+--------------------------+
| AB086827 | 1 | Unpublished |
| AB086827 | 2 | Submitted (20-JUN-2002) |
| AF040764 | 23 | Unpublished |
| AF040764 | 24 | Submitted (31-DEC-1997) |
+----------+----+--------------------------+
SELECT locus,GROUP_CONCAT(id) FROM info WHERE locus IN('AB086827','AF040764') GROUP BY locus;
SELECT locus,GROUP_CONCAT(distinct id ORDER BY id DESC SEPARATOR '_') FROM info WHERE locus IN('AB086827','AF040764') GROUP BY locus;
SELECT locus,GROUP_CONCAT(concat_ws(', ',id,journal) ORDER BY id DESC SEPARATOR '. ') FROM info WHERE locus IN('AB086827','AF040764') GROUP BY locus;
CONCAT_WS(SEPARATOR ,collect_set(column)) 等同于 GROUP_CONCAT() 但是丧失排序性
SPLIT用法【HIVE】
在Hive中,可以使用内置的函数split来将一个字符串按照指定分隔符分割;split函数返回的结果是一个数组类型,因此在进行一些操作时需要将其转换为其他适合的数据类型,例如字符串或结构体等。可以使用函数concat_ws、explode、array等函数来进行转换。
split(str, regex)
select split(name_1, ',') from table_1 where name_2 = "value_2"
EXPLODE用法
将列表中的数据展开
select explode(name_1) from table_1
Lateral View Explode
使用Hive中的LATERAL VIEW关键字来进行表的展开操作,并将展开的结果作为一列结果集中的元素。这种操作在Hive中被称为“表的侧视图转换(Lateral View Explode)”。
select
a.name_1, photo_id
from
table_1 a LATERAL VIEW explode(split(a.name_2, ',')) exploed_table as photo_id
where
a.name_1 = "value_1"
WITH ... AS ... 用法
# 单个别名
with tmp as (select * from table_1)
# 多个别名
with
tmp as (select * from table_1)
tmp2 as (select * from table_2)
...
# 相当于构建临时表
with
e as (select * from table_1),
d as (select * from table_2)
select * from e, d where e.value = d.value
with temp as (
select
*
from
table_1
where
p_date = "20240415"
)
select
count(*)
from
temp
Hive内置的json解析函数
get_json_object
【解析 json 的字符串 json_string, 返回 path 指定的内容。如果输入的 json 字符串无效,结果返回 NULL】
get_json_object(json_string, '$.column')
json_tuple
【解析 json 的字符串 json_string, 同时指定多个 json 数据中的 column,返回对应的 value。如果输入的 json 字符串无效,结果返回 NULL】
json_tuple(json_string, column1, column2, column3 ...)
select
t1.name,
t1.age,
t1.prefer,
t1.height,
t1.nation
from
(
select
json_data
from
test_table1
) t0 lateral view json_tuple(
t0.json_data,
'name',
'age',
'prefer',
'height',
'nation'
) t1 as name,
age,
prefer,
height,
nation;
- get_json_object 函数的使用语法中,使用到$.加上 json 的 key;
- json_tuple 函数的使用语法中,不能使用$.加上 json 的 key,如果使用则会导致解析失败;
- json_tuple 函数与 get_json_object 函数对比,可以发现 json_tuple 函数的优点是一次可以解析多个 json 字段;
- 但是如果被要求解析的 json 是一个 json 数组,那么这两个函数都无法完成解析;
collect_list/collect_set函数
它们将分组中某列转换成一个数组返回, collect_list不去重, collect_set去重
select username, collect_list(video_name) from t_visit_video group by username ;
select username, collect_set(video_name) from t_visit_video group by username;
select username, collect_list(video_name)[0] from t_visit_video group by username;
array_join函数
在 Hive 中,array_join 函数用于将一个数组中的元素按照指定的分隔符连接成一个字符串。
array_join(array, delimiter)
SELECT array_join(items, ',') FROM test;
HIVE、Spark SQL、MySQL区别
Hive、Spark SQL和MySQL都使用SQL语言进行数据查询和操作,存在细微语法区别
1. 变量的定义和使用
# Hive、Spark SQL中, 使用${}语法定义、使用变量
SET my_var = 'value'
select * from my_table where my_col = '${my_var}';
# MySQL中,使用@语法定义、使用变量
SET @my_var = 'value'
SELECT * from my_table where my_col = @my_var;
2. NULL值比较
# 在Hive中,需要使用IS NULL或IS NOT NULL来比较NULL值
SELECT * FROM my_table WHERE my_col IS NULL;
# 在MySQL中,可以使用= NULL或!= NULL来比较NULL值
SELECT * FROM my_table WHERE my_col = NULL;
3. 数据类型的格式转换
# 在Hive和Spark SQL中,需要使用CAST函数来显式转换数据类型
SELECT CAST(my_col AS INT) FROM my_table;
# 在MySQL中,需要使用CONVERT()函数来显式转换数据类型
SELECT CONVERT(my_col, INT) FROM my_table;
4. 时间戳的格式化
# 在Hive和Spark SQL中,可以使用FROM_UNIXTIME()函数将时间戳格式化为可读的时间字符串
SELECT FROM_UNIXTIME(my_timestamp, 'yyyy-MM-dd HH:mm:ss') FROM my_table;
# 在MySQL中,可以使用DATE_FORMAT()函数将时间戳格式化为可读的时间字符串
SELECT DATE_FORMAT(FROM_UNIXTIME(my_timestamp), '%Y-%m-%d %H:%i:%s') FROM my_table;
SUBSTRING_INDEX
regexp_replace(bs_key, '\\.jpg$', '')