在 rust 参考手册中,有大量类似:
句法
MacroInvocation :
SimplePath ! DelimTokenTree
DelimTokenTree :
( TokenTree* )
| [ TokenTree* ]
| { TokenTree* }
TokenTree :
Token排除 定界符(delimiters) | DelimTokenTree
MacroInvocationSemi :
SimplePath ! ( TokenTree* ) ;
| SimplePath ! [ TokenTree* ] ;
| SimplePath ! { TokenTree* }
这样抽象的玩意儿(宏 - Rust 参考手册)。这种阅读体验差的要死的东西,一看就是学术界搞出来的东西,这篇文章就是讲这种东西应该怎么读。
1. 什么是 EBNF?
在计算机科学中,当我们描述一种语言(比如编程语言、数据格式或配置文件)的结构时,需要一种精确、无歧义的方式。扩展巴科斯范式 (Extended Backus-Naur Form, EBNF) 就是这样一种元语言(描述其他语言的语言)标记法。它通过一系列严格定义的规则,清晰地表达一种语言的语法。
EBNF 源自并扩展了巴科斯范式 (Backus-Naur Form, BNF)。BNF 最初由约翰·巴科斯 (John Backus) 和彼得·诺尔 (Peter Naur) 为描述 ALGOL 60 编程语言的语法而设计。EBNF 在 BNF 的基础上增加了一些方便的符号,使得语法描述更为简洁和易读。
2. 核心概念
在学习 EBNF 之前,我们需要了解几个基本概念:
- **规则 (Rule / Production):**EBNF 的核心是规则。每条规则定义了一个特定的语法结构是如何由更小的部分组成的。
- **非终结符 (Non-terminal Symbol):**代表一个语法概念或一个可以被进一步分解的结构。它通常是其他规则的名称,表示“这里可以放置一个符合某某规则定义的结构”。在 EBNF 中,非终结符通常用描述性的名称表示,例如
表达式
,语句
,数字
。在一些传统 BNF 中,非终结符会被尖括号< >
包围,如<expression>
,但在现代 EBNF 中,直接使用名称更为常见。 - **终结符 (Terminal Symbol):**代表语言中最小的、不可再分的词法单元或字面值。它们是语法结构最终落实到的具体字符或字符串。例如,编程语言中的关键字 (
if
,while
)、操作符 (+
,-
,*
,/
)、数字字面量 (123
,3.14
)、字符串字面量 ("hello"
) 等都是终结符。在 EBNF 中,终结符通常用引号"
或'
包围,或者直接写出(如果不会引起歧义)。
3. EBNF 语法符号详解
EBNF 通过一些特殊符号来组织规则、非终结符和终结符:
::=
或=
(定义为):- 这是规则定义的核心操作符,读作“被定义为”或“由…组成”。它将左侧的非终结符(要定义的结构)与右侧的该结构的具体构成联系起来。
- 示例:
数字 ::= "0" | "1" | "2" | "3" | "4" | "5" | "6" | "7" | "8" | "9"
- 这条规则定义了“数字”可以是什么。
|
(或 / 选择):- 竖线表示“或者”,用于在规则定义的右侧提供多个可能的选择。被
|
分隔的各项是互斥的选项。 - 示例:
布尔值 ::= "true" | "false"
- “布尔值”可以是 “true” 或者 “false”。
- 竖线表示“或者”,用于在规则定义的右侧提供多个可能的选择。被
并列(顺序连接):
- 当规则定义的右侧有多个符号(终结符或非终结符)依次排列时,它们表示这些部分必须按照给定的顺序出现。
- 示例:
赋值语句 ::= 标识符 "=" 表达式
- 一条“赋值语句”由一个“标识符”,后跟一个等号终结符,再后跟一个“表达式”组成。
()
(分组):- 圆括号用于将一组符号括起来,形成一个逻辑单元。这使得可以将重复、可选等操作符应用于整个组。
- 示例:
函数调用 ::= 函数名 "(" (参数列表)? ")"
- 这里
(参数列表)?
被括号括起来,表示可选的参数列表部分。
- 这里
?
(可选 / 零次或一次):- 问号表示其紧邻的前一个符号或分组是可选的,即可以出现零次或一次。
- 示例:
整数 ::= ("+" | "-")? 数字序列
- 一个“整数”可以有一个可选的正负号,后面跟着一个“数字序列”。
*
(重复零次或多次):- 星号表示其紧邻的前一个符号或分组可以出现零次、一次或多次。
- 示例:
标识符 ::= 字母 (字母 | 数字)*
- 一个“标识符”由一个“字母”开头,后面可以跟零个或多个“字母”或“数字”。
+
(重复一次或多次):- 加号表示其紧邻的前一个符号或分组必须至少出现一次,也可以出现多次。
- 示例:
数字序列 ::= 数字+
- 一个“数字序列”由至少一个“数字”组成。
[...]
(可选分组 - 另一种常见表示):- 一些 EBNF 变体使用方括号
[]
来表示一个可选的部分,等同于(...)?
。 - 示例:
参数列表 ::= "[" 参数 ("," 参数)* "]"
(这里假设[
和]
是可选参数列表的定界符)- 或者:
整数 ::= ["+" | "-"] 数字序列
(等同于上面的("+" | "-")?
)
- 或者:
- 一些 EBNF 变体使用方括号
{...}
(重复分组 - 另一种常见表示):- 一些 EBNF 变体使用花括号
{}
来表示一个可以重复零次或多次的部分,等同于(...)*
。 - 示例:
注释 ::= "/*" {任意字符} "*/"
- 一个“注释”由
/*
开始,中间可以有零个或多个“任意字符”,并以*/
结束。
- 一个“注释”由
- 一些 EBNF 变体使用花括号
终结符的表示:
- 如前所述,终结符通常用引号包围,例如
"if"
,'+'
。 - 如果终结符本身就是一个不会引起歧义的字符序列(例如不包含 EBNF 特殊符号),有时也可以直接写出。
- 如前所述,终结符通常用引号包围,例如
注释:
- 不同的 EBNF 工具或规范可能有不同的注释方式,常见的有
(* 这是一个注释 *)
或类似 C 语言的//
。本教程主要关注语法规则本身。
- 不同的 EBNF 工具或规范可能有不同的注释方式,常见的有
4. 如何阅读 EBNF 规则
- 找到规则定义: 每条规则通常以一个非终结符开始,后跟
::=
或=
。 - 从左到右分析: 阅读定义右侧的符号序列。
- 理解选择: 遇到
|
时,知道这代表多个选项中的一个。 - 注意顺序: 并列的符号表示它们必须按顺序出现。
- 识别重复和可选: 留意
*
,+
,?
(或[]
,{}
) 的含义。 - 处理分组:
()
(以及有时[]
或{}
) 会将一部分符号视为一个整体。 - 递归: 规则的右侧可以包含规则本身或其他非终结符,这种递归是定义复杂结构(如嵌套表达式)的关键。
- 区分终结符与非终结符: 终结符是语言的“原子”,非终结符是需要进一步展开的“概念”。
5. 示例
让我们看一些使用 EBNF 定义的例子:
示例 1:简单的电子邮件地址
EBNF
邮箱地址 ::= 用户名 "@" 域名
用户名 ::= 字符+
域名 ::= (子域名 ".")*顶级域名
子域名 ::= 字符+
顶级域名 ::= 字符+
字符 ::= 字母 | 数字 | "_" | "-"
字母 ::= "a" | ... | "z" | "A" | ... | "Z" // 省略所有字母
数字 ::= "0" | ... | "9" // 省略所有数字
- 这个例子定义了“邮箱地址”的结构。
用户名
和字符
用了+
表示至少一个。域名
中的(子域名 ".")*
表示可以有零个或多个由点分隔的子域名。
示例 2:算术表达式(简化版)
EBNF
表达式 ::= 项 (("+" | "-") 项)*
项 ::= 因子 (("*" | "/") 因子)*
因子 ::= 数字 | "(" 表达式 ")"
数字 ::= ("0"|"1"|"2"|"3"|"4"|"5"|"6"|"7"|"8"|"9")+
- 这个例子展示了如何定义包含运算符优先级和括号的算术表达式。
表达式
和项
的定义是递归的(因子
中包含表达式
),这允许嵌套。(("+" | "-") 项)*
表示可以有零个或多个由加号或减号连接的“项”。
示例 3:一个简单列表结构
EBNF
列表 ::= "[" [元素 ("," 元素)*] "]"
元素 ::= 标识符 | 数字
标识符 ::= 字母 (字母 | 数字)*
// 字母和数字的定义同上
列表
由方括号包围。[元素 ("," 元素)*]
表示方括号内的内容是可选的(因为整个被[]
包裹,这里[]
是 EBNF 的可选符号,而非列表的定界符——为了清晰,我们也可以写成(元素 ("," 元素)*)?
)。- 如果列表非空,则至少有一个“元素”,后续可以有零个或多个由逗号分隔的“元素”。
6. 优点与局限
优点:
- 精确性: 能够无歧义地描述复杂的语法结构。
- 可读性: 相较于其他形式化方法,EBNF 相对容易阅读和理解(尤其是带有扩展符号时)。
- 标准化: 虽然存在一些变体,但核心概念是共通的。
- 工具支持: 有许多工具(如解析器生成器 ANTLR, YACC/Bison)可以直接使用 EBNF 或类似的语法定义来自动生成解析代码。
局限:
- 上下文无关: EBNF 主要描述上下文无关文法。它通常不直接处理那些依赖于上下文的语义规则(例如,变量必须先声明后使用,类型匹配等)。这些通常需要额外的语义分析来处理。
- 歧义性: 尽管目标是无歧义,但仍可能写出有歧义的 EBNF 规则(即一个输入串可以有多种解析方式)。消除歧义有时需要重写规则或依赖解析器的特定策略(如运算符优先级和结合性声明)。
- 冗余和复杂性: 一旦里面定义的内容多了,难读得要死。