Scala 之 正则

发布于:2025-03-28 ⋅ 阅读:(27) ⋅ 点赞:(0)

regex

函数提取
import scala.util.matching.Regex

// 输入表达式
val expression = "[a#0, round(a#0, 0) AS round(a, 0)#1, abs(a#0) AS abs(a)#2, len(cast(a#0 as string)) AS len(a)#3]"

// 定义一个正则表达式来提取函数名称
val functionPattern: Regex = """(\w+)\((.*?)\)""".r

// 提取所有函数的名称并去重
val functions = functionPattern.findAllIn(expression)
  .matchData
  .map(m => m.group(1))  // 只提取函数名
  .toList  // 转换为List
  .distinct  // 去重

// 打印结果
println(functions)
object ExtractFunctionNames {
  def main(args: Array[String]): Unit = {
    val input = "[round(a#0, 2) AS round(a, 2)#1, a#0]"

    // 使用正则表达式匹配所有类似于函数名的部分
    val regex = """([a-zA-Z_][a-zA-Z0-9_]*)\(""".r

    // 提取所有函数名并去重
    val functionNames = regex.findAllIn(input)
      .matchData
      .map(_.group(1)) // 获取匹配的函数名
      .toSet  // 使用 Set 去重

    // 输出去重后的函数名
    println(functionNames)
  }
}

提取 Aggregate 函数
import scala.util.matching.Regex

val expr = "HashAggregate(keys=[ss_store_sk#9], functions=[sum(UnscaledValue(ss_sales_price#15)), sum(UnscaledValue(ss_net_profit#24))])"

// 定义正则表达式来匹配functions=后的函数列表
val pattern: Regex = """functions=\[(.*?)\]""".r

// 从字符串中查找匹配到的函数列表
val functionList = pattern.findAllMatchIn(expr).flatMap { m =>
  // 通过逗号分隔函数名,然后提取每个函数名
  val functions = m.group(1).split(",").map(_.trim) // 按逗号分隔并去除多余空格
  functions.map { f =>
    // 提取函数名(去掉函数名后的括号)
    f.split("\\(")(0)
  }
}.toList.distinct

println(functionList)
提取 Window 函数
import scala.util.matching.Regex

// 输入字符串
val input = "[ss_store_sk#9, ss_customer_sk#5], [ss_sold_date_sk#2 DESC NULLS LAST], row_number(), 1, Final"

// 使用正则表达式:匹配函数名(以括号 `()` 结尾的部分)
val pattern: Regex = """(\w+)(?=\()""".r

// 使用正则表达式提取函数名
val functionNames = pattern.findAllIn(input).toSet

// 输出结果
println(functionNames)  // List(row_number)