regex
函数提取
import scala.util.matching.Regex
// 输入表达式
val expression = "[a#0, round(a#0, 0) AS round(a, 0)#1, abs(a#0) AS abs(a)#2, len(cast(a#0 as string)) AS len(a)#3]"
// 定义一个正则表达式来提取函数名称
val functionPattern: Regex = """(\w+)\((.*?)\)""".r
// 提取所有函数的名称并去重
val functions = functionPattern.findAllIn(expression)
.matchData
.map(m => m.group(1)) // 只提取函数名
.toList // 转换为List
.distinct // 去重
// 打印结果
println(functions)
object ExtractFunctionNames {
def main(args: Array[String]): Unit = {
val input = "[round(a#0, 2) AS round(a, 2)#1, a#0]"
// 使用正则表达式匹配所有类似于函数名的部分
val regex = """([a-zA-Z_][a-zA-Z0-9_]*)\(""".r
// 提取所有函数名并去重
val functionNames = regex.findAllIn(input)
.matchData
.map(_.group(1)) // 获取匹配的函数名
.toSet // 使用 Set 去重
// 输出去重后的函数名
println(functionNames)
}
}
提取 Aggregate 函数
import scala.util.matching.Regex
val expr = "HashAggregate(keys=[ss_store_sk#9], functions=[sum(UnscaledValue(ss_sales_price#15)), sum(UnscaledValue(ss_net_profit#24))])"
// 定义正则表达式来匹配functions=后的函数列表
val pattern: Regex = """functions=\[(.*?)\]""".r
// 从字符串中查找匹配到的函数列表
val functionList = pattern.findAllMatchIn(expr).flatMap { m =>
// 通过逗号分隔函数名,然后提取每个函数名
val functions = m.group(1).split(",").map(_.trim) // 按逗号分隔并去除多余空格
functions.map { f =>
// 提取函数名(去掉函数名后的括号)
f.split("\\(")(0)
}
}.toList.distinct
println(functionList)
提取 Window 函数
import scala.util.matching.Regex
// 输入字符串
val input = "[ss_store_sk#9, ss_customer_sk#5], [ss_sold_date_sk#2 DESC NULLS LAST], row_number(), 1, Final"
// 使用正则表达式:匹配函数名(以括号 `()` 结尾的部分)
val pattern: Regex = """(\w+)(?=\()""".r
// 使用正则表达式提取函数名
val functionNames = pattern.findAllIn(input).toSet
// 输出结果
println(functionNames) // List(row_number)