文章目录
从验证用户输入,到从大量文本中提取特定信息,再到进行复杂的文本替换, 正则表达式搜索凭借其强大的模式匹配能力。软件RegexBuddy安装介绍参考[2]
一、正则表达式
正则表达式,简而言之,是一种用于描述字符串模式的语法。这些模式可以非常简单,比如匹配一个特定的字符或字符串;也可以极为复杂,组合多个字符类、量词和运算符,以匹配各种复杂的文本模式。在 Python、JavaScript 等编程语言中,都内建了对正则表达式的支持,方便开发者使用。
二、正则表达式的基本语法
字符类
普通字符
字符类允许我们匹配一类字符中的任意一个。
字符 | 描述 |
---|---|
[abc] | 匹配 a、b 或 c 中的任意一个字符,方括号内可以使用连字符 - 表示范围 |
[^abc] | 匹配 除a、b 或 c 中的所有字符 |
[0-9] | 表示匹配任意一个数字 |
[A-Z] | 匹配任意一个大写字母 |
[\s\S] | 匹配所有。 \s是匹配所有空白符,包括换行;\S非空白符,不包括换行 |
\w | 匹配字母、数字、下环线。等价于[A-Za-z0-9_] |
非打印字符
字符 | 描述 |
---|---|
\cx | 匹配由x指明的控制字符。例如, \cM 匹配一个 Control-M 或回车符。x 的值必须为 A-Z 或 a-z 之一。否则,将 c 视为一个原义的 ‘c’ 字符 |
\f | 匹配一个换页符。等价于 \x0c 和 \cL |
\n | 匹配一个换行符。等价于 \x0a 和 \cJ |
\r | 匹配一个回车符。等价于 \x0d 和 \cM |
\s | 匹配任何空白字符,包括空格、制表符、换页符等等。等价于 [ \f\n\r\t\v]。注意 Unicode 正则表达式会匹配全角空格符 |
\S | 匹配任何非空白字符。等价于 [^ \f\n\r\t\v] |
\t | 匹配一个制表符。等价于 \x09 和 \cI |
\v | 匹配一个垂直制表符。等价于 \x0b 和 \cK |
特殊字符
字符 | 描述 |
---|---|
$ | 匹配输入字符串的结尾位置。如果设置了 RegExp 对象的 Multiline 属性,则 $ 也匹配 ‘\n’ 或 ‘\r’。 |
( ) | 标记一个子表达式的开始和结束位置。子表达式可以获取供以后使用 |
. | 匹配除换行符 \n 之外的任何单字符 |
[ | 标记一个中括号表达式的开始 |
\ | 将下一个字符标记为或特殊字符、或原义字符、或向后引用、或八进制转义符。例如, ‘n’ 匹配字符 ‘n’。‘\n’ 匹配换行符 |
^ | 匹配输入字符串的开始位置,除非在方括号表达式中使用,当该符号在方括号表达式中使用时,表示不接受该方括号表达式中的字符集合 |
{ | 标记限定符表达式的开始 |
| | 指明两项之间的一个选择 |
量词限定符
限定符用来指定正则表达式的一个给定组件必须要出现多少次才能满足匹配。有 ***** 或 + 或 ? 或 {n} 或 {n,} 或 {n,m} 共6种。
字符 | 描述 |
---|---|
* | 匹配前面的子表达式零次或多次。例如,zo* 能匹配 “z” 以及 “zoo”。* 等价于{0,}。 |
+ | 匹配前面的子表达式一次或多次。例如,‘zo+’ 能匹配 “zo” 以及 “zoo”,但不能匹配 “z”。+ 等价于 {1,}。 |
? | 匹配前面的子表达式零次或一次。例如,“do(es)?” 可以匹配 “do” 、 “does” 中的 “does” 、 “doxy” 中的 “do” 。? 等价于 {0,1}。 |
{n} | n 是一个非负整数。匹配确定的 n 次。例如,‘o{2}’ 不能匹配 “Bob” 中的 ‘o’,但是能匹配 “food” 中的两个 o。 |
{n,} | n 是一个非负整数。至少匹配n 次。例如,‘o{2,}’ 不能匹配 “Bob” 中的 ‘o’,但能匹配 “foooood” 中的所有 o。‘o{1,}’ 等价于 ‘o+’。‘o{0,}’ 则等价于 ‘o*’。 |
{n,m} | m 和 n 均为非负整数,其中n <= m。最少匹配 n 次且最多匹配 m 次。例如,“o{1,3}” 将匹配 “fooooood” 中的前三个 o。‘o{0,1}’ 等价于 ‘o?’。请注意在逗号和两个数之间不能有空格。 |
* 和 +限定符都是贪婪的,它们会尽可能多的匹配文字,但在它们的后面加上一个 ? 就可以实现非贪婪或最小匹配。
锚点
锚点用于指定匹配的位置。
字符 | 描述 |
---|---|
^ | 表示匹配字符串的开头 |
$ | 表示匹配字符串的结尾 |
\b | 陪陪单词边界,即单词与空格间的位置 |
\B | 非单词边界匹配 |
比如,^hello 只匹配以 hello 开头的字符串,world$ 只匹配以 world 结尾的字符串。
注意:不能将限定符与定位符一起使用。由于在紧靠换行或者单词边界的前面或后面不能有一个以上位置,因此不允许诸如 ^* 之类的表达式。
修饰符(标记)
标记也称为修饰符,正则表达式的标记用于指定额外的匹配策略。
标记不写在正则表达式里,标记位于表达式之外,格式如下:
/pattern/flags
修饰符 | 描述 |
---|---|
i | ignore - 不区分大小写 将匹配设置为不区分大小写,搜索时不区分大小写: A 和 a 没有区别。 |
g | global - 全局匹配 查找所有的匹配项。 |
m | multi line - 多行匹配 使边界字符 ^ 和 $ 匹配每一行的开头和结尾,记住是多行,而不是整个字符串的开头和结尾。 |
s | 特殊字符圆点 . 中包含换行符 \n 默认情况下的圆点 . 是 匹配除换行符 \n 之外的任何字符,加上 s 修饰符之后, . 中包含换行符 \n。 |
三、在 Python 中使用正则表达式
Python 通过 re 模块支持正则表达式操作。下面我们通过几个示例来展示如何在 Python 中使用正则表达式进行搜索。
简单搜索
import re
text = "The quick brown fox jumps over the lazy dog."
match = re.search(r"fox", text)
if match:
print(f"找到匹配项:{match.group()}")
在上述代码中,re.search 函数在字符串 text 中搜索模式 fox,如果找到匹配项,就打印出匹配的内容。
提取信息
假如我们有一个包含日期的字符串,格式为 YYYY - MM - DD,想提取出年、月、日的信息。
date_text = "2023-05-15"
match = re.match(r"(\d{4})-(\d{2})-(\d{2})", date_text)
if match:
year, month, day = match.groups()
print(f"年:{year},月:{month},日:{day}")
re.match 函数从字符串开头进行匹配,圆括号 () 用于分组,match.groups() 方法可以获取每个分组匹配到的内容。
替换文本
正则表达式还能方便地进行文本替换。
text = "旧文本,旧文本,需要替换的旧文本"
new_text = re.sub(r"旧文本", "新文本", text)
print(new_text)
re.sub 函数将字符串 text 中所有匹配 旧文本 的部分替换为 新文本。
参考
[1] https://blog.csdn.net/Jack0610/article/details/134810112
[2] https://blog.csdn.net/qq_22889431/article/details/140340565