rust 中的 EBNF 介绍

发布于:2025-05-10 ⋅ 阅读:(10) ⋅ 点赞:(0)

在 rust 参考手册中,有大量类似:

句法
MacroInvocation :
	SimplePath ! DelimTokenTree

DelimTokenTree :
	  ( TokenTree* )
	| [ TokenTree* ]
	| { TokenTree* }

TokenTree :
	   Token排除 定界符(delimiters) | DelimTokenTree

MacroInvocationSemi :
	  SimplePath ! ( TokenTree* ) ;
	| SimplePath ! [ TokenTree* ] ;
	| SimplePath ! { TokenTree* }

这样抽象的玩意儿(宏 - Rust 参考手册)。这种阅读体验差的要死的东西,一看就是学术界搞出来的东西,这篇文章就是讲这种东西应该怎么读。

1. 什么是 EBNF?

在计算机科学中,当我们描述一种语言(比如编程语言、数据格式或配置文件)的结构时,需要一种精确、无歧义的方式。扩展巴科斯范式 (Extended Backus-Naur Form, EBNF) 就是这样一种元语言(描述其他语言的语言)标记法。它通过一系列严格定义的规则,清晰地表达一种语言的语法。

EBNF 源自并扩展了巴科斯范式 (Backus-Naur Form, BNF)。BNF 最初由约翰·巴科斯 (John Backus) 和彼得·诺尔 (Peter Naur) 为描述 ALGOL 60 编程语言的语法而设计。EBNF 在 BNF 的基础上增加了一些方便的符号,使得语法描述更为简洁和易读。

2. 核心概念

在学习 EBNF 之前,我们需要了解几个基本概念:

  • **规则 (Rule / Production):**EBNF 的核心是规则。每条规则定义了一个特定的语法结构是如何由更小的部分组成的。
  • **非终结符 (Non-terminal Symbol):**代表一个语法概念或一个可以被进一步分解的结构。它通常是其他规则的名称,表示“这里可以放置一个符合某某规则定义的结构”。在 EBNF 中,非终结符通常用描述性的名称表示,例如表达式, 语句, 数字。在一些传统 BNF 中,非终结符会被尖括号 < > 包围,如 <expression>,但在现代 EBNF 中,直接使用名称更为常见。
  • **终结符 (Terminal Symbol):**代表语言中最小的、不可再分的词法单元或字面值。它们是语法结构最终落实到的具体字符或字符串。例如,编程语言中的关键字 (if, while)、操作符 (+, -, *, /)、数字字面量 (123, 3.14)、字符串字面量 ("hello") 等都是终结符。在 EBNF 中,终结符通常用引号 "' 包围,或者直接写出(如果不会引起歧义)。

3. EBNF 语法符号详解

EBNF 通过一些特殊符号来组织规则、非终结符和终结符:

  • ::==(定义为):

    • 这是规则定义的核心操作符,读作“被定义为”或“由…组成”。它将左侧的非终结符(要定义的结构)与右侧的该结构的具体构成联系起来。
    • 示例:数字 ::= "0" | "1" | "2" | "3" | "4" | "5" | "6" | "7" | "8" | "9"
      • 这条规则定义了“数字”可以是什么。
  • |(或 / 选择):

    • 竖线表示“或者”,用于在规则定义的右侧提供多个可能的选择。被 | 分隔的各项是互斥的选项。
    • 示例:布尔值 ::= "true" | "false"
      • “布尔值”可以是 “true” 或者 “false”。
  • 并列(顺序连接):

    • 当规则定义的右侧有多个符号(终结符或非终结符)依次排列时,它们表示这些部分必须按照给定的顺序出现。
    • 示例:赋值语句 ::= 标识符 "=" 表达式
      • 一条“赋值语句”由一个“标识符”,后跟一个等号终结符,再后跟一个“表达式”组成。
  • ()(分组):

    • 圆括号用于将一组符号括起来,形成一个逻辑单元。这使得可以将重复、可选等操作符应用于整个组。
    • 示例:函数调用 ::= 函数名 "(" (参数列表)? ")"
      • 这里 (参数列表)? 被括号括起来,表示可选的参数列表部分。
  • ?(可选 / 零次或一次):

    • 问号表示其紧邻的前一个符号或分组是可选的,即可以出现零次或一次。
    • 示例:整数 ::= ("+" | "-")? 数字序列
      • 一个“整数”可以有一个可选的正负号,后面跟着一个“数字序列”。
  • *(重复零次或多次):

    • 星号表示其紧邻的前一个符号或分组可以出现零次、一次或多次。
    • 示例:标识符 ::= 字母 (字母 | 数字)*
      • 一个“标识符”由一个“字母”开头,后面可以跟零个或多个“字母”或“数字”。
  • +(重复一次或多次):

    • 加号表示其紧邻的前一个符号或分组必须至少出现一次,也可以出现多次。
    • 示例:数字序列 ::= 数字+
      • 一个“数字序列”由至少一个“数字”组成。
  • [...](可选分组 - 另一种常见表示):

    • 一些 EBNF 变体使用方括号 [] 来表示一个可选的部分,等同于 (...)?
    • 示例:参数列表 ::= "[" 参数 ("," 参数)* "]" (这里假设 [] 是可选参数列表的定界符)
      • 或者:整数 ::= ["+" | "-"] 数字序列 (等同于上面的 ("+" | "-")?)
  • {...}(重复分组 - 另一种常见表示):

    • 一些 EBNF 变体使用花括号 {} 来表示一个可以重复零次或多次的部分,等同于 (...)*
    • 示例:注释 ::= "/*" {任意字符} "*/"
      • 一个“注释”由 /* 开始,中间可以有零个或多个“任意字符”,并以 */ 结束。
  • 终结符的表示:

    • 如前所述,终结符通常用引号包围,例如 "if", '+'
    • 如果终结符本身就是一个不会引起歧义的字符序列(例如不包含 EBNF 特殊符号),有时也可以直接写出。
  • 注释:

    • 不同的 EBNF 工具或规范可能有不同的注释方式,常见的有 (* 这是一个注释 *) 或类似 C 语言的 //。本教程主要关注语法规则本身。

4. 如何阅读 EBNF 规则

  1. 找到规则定义: 每条规则通常以一个非终结符开始,后跟 ::==
  2. 从左到右分析: 阅读定义右侧的符号序列。
  3. 理解选择: 遇到 | 时,知道这代表多个选项中的一个。
  4. 注意顺序: 并列的符号表示它们必须按顺序出现。
  5. 识别重复和可选: 留意 *, +, ? (或 [], {}) 的含义。
  6. 处理分组: () (以及有时 []{}) 会将一部分符号视为一个整体。
  7. 递归: 规则的右侧可以包含规则本身或其他非终结符,这种递归是定义复杂结构(如嵌套表达式)的关键。
  8. 区分终结符与非终结符: 终结符是语言的“原子”,非终结符是需要进一步展开的“概念”。

5. 示例

让我们看一些使用 EBNF 定义的例子:

示例 1:简单的电子邮件地址

EBNF

邮箱地址 ::= 用户名 "@" 域名
用户名   ::= 字符+
域名     ::= (子域名 ".")*顶级域名
子域名   ::= 字符+
顶级域名 ::= 字符+
字符     ::= 字母 | 数字 | "_" | "-"
字母     ::= "a" | ... | "z" | "A" | ... | "Z" // 省略所有字母
数字     ::= "0" | ... | "9"             // 省略所有数字
  • 这个例子定义了“邮箱地址”的结构。
  • 用户名字符 用了 + 表示至少一个。
  • 域名 中的 (子域名 ".")* 表示可以有零个或多个由点分隔的子域名。

示例 2:算术表达式(简化版)

EBNF

表达式 ::= 项 (("+" | "-") 项)*
项     ::= 因子 (("*" | "/") 因子)*
因子   ::= 数字 | "(" 表达式 ")"
数字   ::= ("0"|"1"|"2"|"3"|"4"|"5"|"6"|"7"|"8"|"9")+
  • 这个例子展示了如何定义包含运算符优先级和括号的算术表达式。
  • 表达式 的定义是递归的(因子中包含 表达式),这允许嵌套。
  • (("+" | "-") 项)* 表示可以有零个或多个由加号或减号连接的“项”。

示例 3:一个简单列表结构

EBNF

列表 ::= "[" [元素 ("," 元素)*] "]"
元素 ::= 标识符 | 数字
标识符 ::= 字母 (字母 | 数字)*
// 字母和数字的定义同上
  • 列表由方括号包围。
  • [元素 ("," 元素)*] 表示方括号内的内容是可选的(因为整个被 [] 包裹,这里 [] 是 EBNF 的可选符号,而非列表的定界符——为了清晰,我们也可以写成 (元素 ("," 元素)*)?)。
  • 如果列表非空,则至少有一个“元素”,后续可以有零个或多个由逗号分隔的“元素”。

6. 优点与局限

  • 优点:

    • 精确性: 能够无歧义地描述复杂的语法结构。
    • 可读性: 相较于其他形式化方法,EBNF 相对容易阅读和理解(尤其是带有扩展符号时)。
    • 标准化: 虽然存在一些变体,但核心概念是共通的。
    • 工具支持: 有许多工具(如解析器生成器 ANTLR, YACC/Bison)可以直接使用 EBNF 或类似的语法定义来自动生成解析代码。
  • 局限:

    • 上下文无关: EBNF 主要描述上下文无关文法。它通常不直接处理那些依赖于上下文的语义规则(例如,变量必须先声明后使用,类型匹配等)。这些通常需要额外的语义分析来处理。
    • 歧义性: 尽管目标是无歧义,但仍可能写出有歧义的 EBNF 规则(即一个输入串可以有多种解析方式)。消除歧义有时需要重写规则或依赖解析器的特定策略(如运算符优先级和结合性声明)。
    • 冗余和复杂性: 一旦里面定义的内容多了,难读得要死。

网站公告

今日签到

点亮在社区的每一天
去签到