正则表达式

发布于:2024-09-18 ⋅ 阅读:(43) ⋅ 点赞:(0)

来源:正则表达式

元字符

字符

. . 匹配任意单个字符,但不匹配换行符。 例如,表达式 .ar 匹配一个任意字符后面跟着是 a 和 r 的字符串。
[] [] 用来指定一个字符集。 在方括号中使用连字符来指定字符集的范围。 在方括号中的字符集不关心顺序。 例如,表达式 [Tt]he 匹配 the 和 The。
[^ ] [^ ] 用来指定一个否定的字符集。 一般来说 ^ 表示一个字符串的开头,但它用在一个方括号的开头的时候,它表示这个字符集是否定的。 例如,表达式[^c]ar 匹配任意一个除了 c 的字符带上 ar 的字符串
() () 中包含的内容将会被看成一个整体,和数学中小括号( )的作用相同。例如, 表达式 (ab)* 匹配连续出现 0 或更多个 ab。
**可以在 () 中用或字符

重复次数

? 在正则表达式中元字符 ? 标记在符号前面的字符为可选,即在 ? 之前的**字符出现 0 或 1 次**。 例如,表达式 [T]?he 匹配字符串 he 和 The。
* * 号匹配 在 * 之前的**字符出现大于等于 0 次**。 例如,表达式 a* 匹配 0 或更多个以 a 开头的字符。表达式 [a-z]* 匹配一个行中所有以小写字母开头的字符串。
+ + 号匹配 + 号之前的**字符出现大于等于 1 次**。 例如表达式 c.+t 匹配以首字母c开头以t结尾,中间跟着至少一个字符的字符串。
{} {} 是一个量词,常用来**限定字符重复出现的次数**。 例如, 表达式 [0-9]{2,3} 匹配最少 2 位最多 3 位 0~9 的数字。

转义符和锚点

反斜线 \ 在表达式中用于转码紧跟其后的字符。

在正则表达式中,想要匹配指定开头或结尾的字符串就要使用到锚点。^ 指定开头,$ 指定结尾。

\ \ 在表达式中用于转码紧跟其后的字符。用于指定 { } [ ] / \ + * . $ ^ | ? 这些特殊字符。如果想要匹配这些特殊字符则要在其前面加上反斜线 \。
^ ^ 匹配的字符串必须在所匹配字符串的开头。
例如,^(T|t)he 匹配以 The 或 the 开头的字符串。
$ $ 匹配的字符串必须在所匹配字符串的结尾。
例如,(at.)$ 匹配以 at. 结尾的字符串。

简写字符集

正则表达式提供一些常用的字符集简写。

简写 描述
. 除换行符外的所有字符
\w 匹配所有字母数字,等同于 [a-zA-Z0-9_]
\W 匹配所有非字母数字,即符号,等同于: [^\w]
\d 匹配数字: [0-9]
\D 匹配非数字: [^\d]
\s 匹配所有空格字符,等同于: [\t\n\f\r\p{Z}]
\S 匹配所有非空格字符: [^\s]
\f 匹配一个换页符
\n 匹配一个换行符
\r 匹配一个回车符
\t 匹配一个制表符
\v 匹配一个垂直制表符
\p 匹配 CR/LF(等同于 \r\n),用来匹配 DOS 行终止符

零宽度断言

零宽度断言(Zero-width assertions)是正则表达式中的一种特殊类型的断言,它们**在符合断言的情况下才匹配相应的字符**。由于不消耗字符(即不占用位置),它们被称为“零宽度”。常见的零宽度断言包括先行断言、先行否定断言、后行断言、和后行否定断言。

符号 描述
?= 正先行断言-匹配某个位置后面跟着某个特定的模式
例子:\d(?=px) 匹配一个数字,前提是这个数字后面跟着 “px”。
?! 负先行断言-匹配某个位置后面不跟着某个特定的模式
例子:a(?!b) 匹配 “a”,前提是它后面不跟着 “b”。
?<= 正后发断言-存在
例子:(?<=$)\d+ 匹配一个数字,前提是它前面有一个美元符号($)。
?<! 负后发断言-排除
例子:(?<!$)\d+ 匹配一个数字,前提是这个数字前面不跟着 $。

标志

标志也叫模式修正符,因为它可以用来修改表达式的搜索结果。 这些标志可以任意的组合使用,它也是整个正则表达式的一部分。

例子:

/^the$/ign 能分配匹配

The
the

中的 The 和 the

标志 描述
i 忽略大小写。
g 全局搜索。
m 多行修饰符:锚点元字符 ^ $ 工作范围在每行的起始。

贪婪和惰性匹配

正则表达式默认采用贪婪匹配模式,在该模式下意味着会匹配尽可能长的子串。我们可以使用 ? 将贪婪匹配模式转化为惰性匹配模式。

“/(.*at)/” => The fat cat sat on the mat.

“/(.*?at)/” => The fat cat sat on the mat.


网站公告

今日签到

点亮在社区的每一天
去签到