shell编程之正则表达式

发布于:2025-04-17 ⋅ 阅读:(33) ⋅ 点赞:(0)

目录

1,正则表达式的定义

2,正则表达式用途

正则表达式的常用选项及示例(grep为例):

sed基本语法及常用选项:

awk的基本语句及常用选项:

扩展正则表达式(egrep)

元字符总结:

3,基础的正则表达式

4,文本处理工具(sed)

 sed工具用法示例:

5,awk工具

 awk用法示例

1,正则表达式的定义

正则表达式又称正规表达式、常规表达式。在代码中常简写为 regex、regexp 或 RE。正则表达式是使用单个字符串来描述、匹配一系列符合某个句法规则的字符串,简单来说,是一种匹配字符串的方法,通过一些特殊符号,实现快速查找、删除、替换某个特定字符串。
正则表达式一般用于脚本编程与文本编辑器中。很多文本处理器与程序设计语言均支持正则表达式,例如 Linux 系统中常见的文本处理器(grep、egrep、sed、awk)以及应用比较广泛的 Python 语言。正则表达式具备很强大的文本匹配功能,能够在文本海洋中快速高效地处理文本。

2,正则表达式用途

正则表达式对于系统管理员来说是非常重要的,系统运行过程中会产生大量的信息,这些信息有些是非常重要的,有些则仅是告知的信息。身为系统管理员如果直接看这么多的信息数据,无法快速定位到重要的信息,如“用户账号登录失败”“服务启动失败”等信息。这时可以通过正则表达式快速提取“有问题”的信息。如此一来,可以将运维工作变得更加简单、方便。

正则表达式的常用选项及示例(grep为例):

选项 作用 示例

grep  root

筛选文件中包含root的行

grep  root  /etc/passwd

grep  ^root

筛选以root开头的行

grep  ^root  /etc/passwd

grep  bash$

筛选以bash结尾的行

grep  bash$  /etc/passwd

grep  -v  root

筛选文中不包含root的行

grep  -v  root  /etc/passwd

grep  'r..d'

筛选出r 和d 之间有两个字符的行

grep  'r..d'  /etc/passwd

grep  '[^s]bin'

筛选bin前面不是s的行

grep  '[^s]bin'  /etc/passwd

grep  '^$'

筛选出空白行

grep  '^$'  /etc/passwd

grep  't[es]'

筛选包含字符串te或ts的行

grep  't[es]'  /etc/passwd

grep  '0\{1,\}'

筛选数字0出现1次或1次以上的行

grep  '0\{1,\}'  /etc/passwd

 -e参数

 查找多个模式

grep  -e  'ntp'  -e  'root'  /etc/passwd

grep  [0-3]

筛选包含数字0-3的行

grep  [0-3]  /etc/passwd

grep  '[^a-z]ae'

筛选ae前面不是小写字母的行

grep  '[^a-z]ae'  /etc/passwd

grep  '^[a-z]ae'

筛选ae前面是小写字母的行

grep  '^[a-z]ae'  /etc/passwd

grep -n

过滤出包含  the  的行,显示行号

grep -n  'the'  1.txt

grep -ni  'the' 

过滤出包含  the  的行,显示行号,不区分大小写

grep -ni  'the'  1.txt

grep -vn  'the'  1.txt

过滤出不包含 the 的行,显示行号

grep -vn  'the'  1.txt

grep -n  'sh[io]rt'

过滤出包含 shirt  和short的行

grep -n  'sh[io]rt'  1.txt

grep -n  '[w]oo' 

/过滤出oo前面是 w的行

grep -n  '[w]oo'  1.txt

grep -n  '[^w]oo' 

过滤出oo前面不是 w 的行

grep -n  '[^w]oo'  1.txt

grep -n  '[^a-z]oo' 

过滤出oo前面不是小写字母的行

grep -n  '[^a-z]oo'  1.txt

grep -n '[a-z]' 

过滤出包含任意一位小写字母的行

grep -n '[a-z]'  1.txt

grep -n  '^[a-z]' 

过滤出以小写字母开头的行

grep -n  '^[a-z]'  1.txt

grep -n  '[a-zA-Z]' 

过滤出包含任意一位字母的行

grep -n  '[a-zA-Z]'  1.txt

grep -n  '^$'

过滤出空行

grep -n  '^$'  1.txt

grep -n 'ooo*' 

过滤出2个以上的o的行

grep -n 'ooo*'  1.txt

grep -n  '[0-9][0-9]' 

过滤出任意2位数字的行

grep -n  '[0-9][0-9]'  1.txt

grep -n  '[0-9][0-9]*'  

过滤出任意1位以上的数字

grep -n  '[0-9][0-9]*'  1.txt

+

匹配前面的子表达式1次以上

egrep  0+  /etc/passwd

匹配前面的字表达式0次或者1次

egrep  '(root|ntp)'  /etc/passwd

()

将 () 号中的字符串作为一个整体

egrep  '(root|ntp)'  /etc/passwd

|

将 () 号中的字符串作为一个整体

egrep  '(root|ntp)'  /etc/passwd

sed基本语法及常用选项:

命令语法:

sed [选项] 文件路径

常用选项:

选项 作用 示例

-e

指定要执行的命令,只有一个编辑命令时可省略

sed  -e  ‘编辑指令’  文件名

-n

只输出处理后的行,读入时不显示

sed  -n  -e  ‘编辑指令’  文件名

-i

直接原编辑文件,而不输出结果

sed  -i  -e  ‘编辑指令’  文件名

p

输出指定的行

sed  -n  'p'  /etc/passwd

d

删除指定的行

sed  '1d'  /etc/passwd

s

字串替换

sed  -n  's/root/admin/2p'  /etc/passwd

r

读取指定文件

sed '/the/r /etc/aaa' test.txt 

将文件aaa的内容添加到test.txt文件以后

w

保存为文件

sed -n '/bash/w /aaa.txt'  /etc/passwd ##将包含bash的行保存到aaa.txt文件下
i

插入,在当前行前面插入一行或多行

ed -n '3i abc' /etc/passwd ##在第三行前面插入abc 
a

在当前行下面增加一行指定内容

sed -n '3a abc' /etc/passwd ##在第三行追加ab
c

将选定行替换为指定内容

sed -n '2c new' /etc/passwd ##将第二行替换为new
y

字符转换

sed -n 'y/aaa/AAA' /etc/passwd

awk的基本语句及常用选项:

基本语法(两种语法结构):

awk 【选项】 ‘模式或条件 {编辑指令}’  文件1  文件2

awk  -f  脚本文件  文件1  文件2

常用选项:

选项 说明
-F 指定字段分隔符(默认空格/Tab)
-v 定义变量(如 -v var=value
-f 从脚本文件读取命令(如 -f script.awk
-i 直接修改原文件

扩展正则表达式(egrep)

通常情况下会使用基础正则表达式就已经足够但有时为了简化整个指令,需要使用范围更广的护展正则表达式。例如,使用基础正则表达式査询除文件中空白行与行首为“#”之外的行(通常用于查看生效的配置文件),执行“grep -v'^$’test.txt| grep -v'^#’”即可实现。这里需要使用管道命令来搜索两次。如果使用扩展正则表达式,可以简化为“egrep-v'^$|^#’test.txt”,其中,单引号内的管道符号表示或者(or)。

与基础正则表达式类型相同,扩展正则表达式也包含多个元字符。常见的扩展正则表达式的元字符主要包括以下几个:

元字符 作用 示例
+ 重复一个或者一个以上的前一个字符 执行“egrep -n'wo+d' test.txt”命令,即可査询"wood""woood""woooooood"等字符串
零个或者一个的前一个字符 执行“egrep -n'bes?t' test.txt"命令,即可査询“bet""best”这两个字符串
| 使用或者(or)的方式找出多个字符 执行“egrep -n'oflis|on' test.txt”命令即可査询"of"或者"if"或者"on"字符串
() 查找“组”字符串 “egrep -n "t(ale)st test.txt"。“tast"与“test"因为这两个单词的"“"与"s!"是重复的,所以将"a"与"e”列于“()”符号当中,并以“"分隔,即可査询"tast"或者"test"字符串
()+ 辨别多个重复的组 “egrep -n'A(xyz)+C' test.txt"。该命令是査询开头的"A"结尾是"C",中间有一个以上的"xyz"字符串的意思

常用内置变量: 

内置变量 作用
NR 当前处理的行号(从1开始)
NF 当前行的字段总数
$0 整行内容
$1, $2 第1、2个字段
FS 输入字段分隔符(同 -F
OFS 输出字段分隔符(默认空格)
FILENAME 当前处理的文件名

awk还可以使用关系运算符作为“条件”,用于比较数字与字符串,只有条件为真,才执行指定的动作。 

> < >= <= == != && || ! + - * / % ^
大于 小于 大于等于 小于等于 等于 不等于 取余 乘方

元字符总结:

字符 作用
/ 将下一个字符标记为一个特殊字符、或一个原义字符、或一个 向后引用、或一个八进制转义符
^ 匹配输入字符串的开始位置
$ 匹配输入字符串的结束位置
* 匹配前面的子表达式零次或多次
+ 匹配前面的子表达式一次或多次
? 匹配前面的子表达式零次或一次
. 匹配除换行符(\n、\r)之外的任何单个字符
[a-z] 字符范围。匹配指定范围内的任意字符。
{n} n是一个非负整数,匹配确定的n次
{n,} n是一个非负整数,至少匹配n 次
{n,m} m 和 n均为非负整数,其中n<= m。最少匹配n次目最多匹配m次
\d 匹配一个数字字符。等价于 [0-9]
\D 匹配一个非数字字符。等价于[^0-9]
\s 匹配任何空白字符,包括空格、制表符、换页符等等。等价于[\fn\r\t\v]
\S 匹配任何非空白字符。等价于[^ \fn\r\t\v]
\w 匹配字母、数字、下划线。等价于'[A-Za-z0-9]'
\W 匹配非字母、数字、下划线。等价于'[^A-Za-z0-9_]'
\n 匹配一个换行符
\f 匹配一个换页符
\r 匹配一个回车符

3,基础的正则表达式

  • 查找特定字符

查找特定字符非常简单,如执行以下命令即可从 test.txt 文件中査找出特定字符“the”所在位置其中“-n”表示显示行号、“-1”表示不区分大小写。命令执行后,符合匹配标准的字符,字体颜色会变为红色(本章中全部通过加粗显示代替)。

 若反向选择,如查找不包含“the”字符的行,则需要通过 grep 命令的“-v”选项实现,并配合“-n”
起使用显示行号。

  • 利用中括号 [  ] 来查找集合字符

想要査找“shirt”与“short”这两个字符串时,可以发现这两个字符串均包含“sh”与“rt”。此时执行以下命令即可同时査找到“shirt”与“short”这两个字符串,其中“[]”中无论有几个字符,都仅代表一个字符,也就是说“[io]”表示匹配“i”或者“o”。

若要查找包含重复单个字符“oo”时,只需要执行以下命令即可。

若査找“oo”前面不是“w”的字符串,只需要通过集合字符的反向选择“[^]”来实现该目的。例如执行“grep -n'[^w]oo'test.txt”命令表示在 test.txt 文本中査找“oo”前面不是“w”的字符串。

查询不包含指定字符开头的行,例如不包含小写字母的行grep -n '[^a-z]' text.txt

  • 查找行首与行尾字符

 基础正则表达式包含两个定位元字符:“^”(行首)与“$”(行尾)。在上面的示例中,查询“the”字符串时出现了很多包含“the”的行,如果想要査询以“the”字符串为行首的行,则可以通过“^”元字符来实现。

查询以小写字母开头的行可以通过“^[a-z]”规则来过滤,

査询大写字母开头的行则使用“^[A-Z]”规则

若查询不以字母开头的行则使用“^[^a-zA-Z]”规则

“^”符号在元字符集合“[]”符号内外的作用是不一样的,在“[]”符号内表示反向选择,在“[]”符号外则代表定位行首。反之,若想查找以某一特定字符结尾的行则可以使用“$”定位符。

查询以小数点(.)结尾的行:

 查询空白行时,执行 grep -n '^$' test.txt 命令

  • 查找任意一个字符与重复字符

在正则表达式中小数点(.)也是一个元字符,代表任意一个字符。例如执行以下命令就可以査找“w??d”的字符串,即共有四个字符,以 w开头 d 结尾。

若想要査询 00、000、ooooo 等资料,则需要使用星号(*)元字符。但需要注意的是,“*”代表的是重复零个或多个前面的单字符。“o*”表示拥有零个(即为空字符)或大于等于一个“o”的字符,因为允许空字符,所以执行“grep-n'o*' test.txt”命令会将文本中所有的内容都输出打印,同理,若査询包含至少两个 。 以上的字符串,则执行“grep -n 'ooo*' test.txt”命令即可。

査询以 w开头 d 结尾,中间包含至少一个 。的字符串,

执行以下命令即可查询以 w开头 d 结尾,中间的字符可有可无的字符串。

执行以下命令即可查询任意数字所在行。

  • 查找连续字符范围

如果想要限制一个范围内的重复的字符串该如何实现呢?例如,查找三到五个。的连续字符,这个时候就需要使用基础正则表达式中的限定范围的字符“{}”。因为“{}”在 she11 中具有特殊意义,所以在使用“{}”字符时,需要利用转义字符“\”,将“{}”字符转换成普通字符。

查找两个o的字符:

查询以w开头以d结尾,中间包含2-5个o的字符串:

查询以w开头以d结尾,中间包含2个或2个以上o的字符串:

4,文本处理工具(sed)

sed(stream EDitor)是一个强大而简单的文本解析转换工具,可以读取文本,并根据指定的条件对文本内容进行编辑(删除、替换、添加、移动等),最后输出所有行或者仅输出处理的某些行。sed 也可以在无交互的情况下实现相当复杂的文本处理操作,被广泛应用于 she11 脚本中,用以完成各种自动化处理任务,主要包括三个过程:

读取:sed 从输入流(文件、管道、标准输入)中读取一行内容并存储到临时的缓冲区中(又称模式空间,pattern space)。
 

执行:默认情况下,所有的 sed 命令都在模式空间中顺序地执行,除非指定了行的地址,否则 sed命令将会在所有的行上依次执行。

显示:发送修改后的内容到输出流。在发送数据后,模式空间将会被清空。

 sed工具用法示例:

  • 输出符合条件的文本(p表示正常输出)
sed -n 'p' test.txt              ##输出所有内容,等同于cat test.txt

sed -n '3p' test.txt             ##输出第三行

sed -n '3,5p' test.txt           ##输出3-5行
 
sesd -n 'p;n' test.txt           ##输出所有奇数行

sed -n 'n;p' test.txt            ##输出所有偶数行

sed -n '1,5{p;n}' test.txt       ##输出第1-5行之间的奇数行

sed -n '10,${n;p}' test.txt      ##输出第10行至文件尾之间的偶数行

sed -n '/the/p' test.txt         ##输出包含the的行

sed -n '4,/the/p' test.txt       ##输出从第4行至第一个包含the的行

sed -n '/the/=' test.txt         ##输出包含the的行所在的行号,等号(=)用来输出行号

sed -n '/^PI/p' test.txt         ##输出以PI开头的行

sed -n '/[0-9]$/p' test.txt      ##输出以数字结尾的行

sed -n '/\<wood\>/p' test.txt    ##输出包含单词wood的行,\<, \>代表单词边界
  • 删除符合条件的文本
sed  '1d'  /etc/passwd						删除第1行

sed  '$d'  /etc/passwd						删除最后1行

sed  '/^$/d'  etc/passwd					删除空行

sed  '2,4d'  /etc/passwd					删除第2~4行

sed  '/root/d'  /etc/passwd					删除含有root的行

sed  '/root/!d'  /etc/passwd				删除不包含root的行,!:表示取反

sed  '/^root/d'  /etc/passwd				删除以root开头的行

sed  '/nologin$/d'  /etc/passwd				删除以nologin结尾的行
  • 替换符合条件的文本
sed  's/root//g'  /etc/passwd				将文件中所有的root都删除

sed  '/root/c  aaaaa'  /etc/passwd	    将含有root的行替换为aaaaa

sed  -n  's/root/admin/2p'  /etc/passwd	将每行的第二个root替换成admin

sed  '/root/s/root/ROOT/g'  /etc/passwd		将包含root行的所有行中的root替换为ROOT

sed 	'1,3s/bin/BIN/g' 	/etc/passwd		将第1~3行中的所有bin都替换为BIN

sed  's/^/#/'  /etc/passwd				在每行行首插入 # 号

sed  's/$/ABC/'  /etc/passwd			在每行行尾插入字符 ABC

sed  '/root/s/^/#/'  /etc/passwd		将包含root的行的行首插入 # 号

sed  '1c ABC'  /etc/passwd				将第一行替换为 ABC

sed  'y/rot/ROT/'  /etc/passwd			将rot替换为ROT,y表示应替换

sed  '1,10y/root/ROOT/'  /etc/passwd    将第1~10行中的root对应替换为ROOT
  • 迁移符合条件的文本
参数 作用
H 复制到剪贴板
g G 将剪贴板中的数据覆盖,追加至指定行
w 保存为文件
r 读取指定文件
a 追加指定内容

 具体用法如下

sed'/the/{H;d};$G' test.txt        将包含 the 的行迁移至文件末尾,{;}用于多个操作

sed '1,5{H;d};17G' test.txt        将第 1~5 行内容转移至第 17 行后

sed '/the/w out.file' test.txt     将包含 the 的行另存为文件 out.file

sed "/the/r /etc/hostname test.txt 将文件/etc/hostname 的内容添加到包含 the 的每行以后

sed '3aNew'test.txt                在第 3 行后插入一个新行,内容为 New

sed "/the/aNew'test.txt            在包含 the 的每行后插入一个新行,内容为 New

sed "3aNew1\nNew2'test.txt         在第 3 行后插入多行内容,中间的\n 表示换行

5,awk工具

在 Linux/UNIX 系统中,awk 是一个功能强大的编辑工具,逐行读取输入文本,并根据指定的匹配模式进行查找,对符合条件的内容进行格式化输出或者过滤处理,可以在无交互的情况下实现相当复杂的文本操作,被广泛应用于 She11 脚本,完成各种自动化配置任务。格式如下:

awk 【选项】 ‘模式或条件 {编辑指令}’  文件1  文件2

awk  -f  脚本文件  文件1  文件2

 awk用法示例

  • 按行输出文本
awk -F":" '{print}' /etc/passwd					输出所有

awk -F":" '{print $0}' /etc/passwd			    输出所有

awk -F: 'NR==3,NR==6{print}' /etc/passwd		显示第3行到第6行

awk -F: 'NR>=3&&NR<=6{print}' /etc/passwd       显示第3行到第6行

awk -F: 'NR==3||NR==6{print}' /etc/passwd       显示第3行和第6行

awk '(NR%2)==1{print}' /etc/passwd			    显示奇数行

awk '(NR%2)==0{print}' /etc/passwd		        显示偶数行

awk '/^root/{print}' /etc/passwd				显示以root开头的行

awk '/nologin$/{print}' /etc/passwd		        显示以nologin结尾的行

awk 'BEGIN {x=0};/\/bin\/bash$/{x++};END {print x}' /etc/passwd    统计以/bin/bash结尾的行数

awk 'BEGIN{RS=""};END{print NR}' /etc/ssh/sshd_config 		统计以空行分隔的文本段落数

awk '{print NR,$0}' /etc/passwd                            输出每行的行号

awk -F: '{print NR,NF,$NF,"\t",$0}' /etc/passwd      依次打印行号,字段数,最后字段值,制表符,每行内容

awk -F: 'NR==5{print}'  /etc/passwd                        显示第5行

route -n|awk 'NR!=1{print}'                                不显示第一行


awk -F: '{print NF}' /etc/passwd                           显示每行有多少字段

awk -F: '{print $NF}' /etc/passwd                          将每行第NF个字段的值打印出来

 awk -F: 'NF==4 {print }' /etc/passwd                      显示只有4个字段的行

awk -F: 'NF>2{print $0}' /etc/passwd                       显示每行字段数量大于2的行


  • 按字段输出文本
awk -F":" '{print $3}' /etc/passwd		显示第三列

awk -F":" '{print $1 $3}' /etc/passwd   $1与$3相连输出,无空格,

awk -F":" '{print $1,$3}' /etc/passwd   多了一个逗号,输出第1和第3个字段,有空格

awk -F: '$2=="!!" {print}' /etc/shadow  统计密码为空的shadow记录

awk 'BEGIN {FS=":"}; $2=="!!" {print}' /etc/shadow    显示密码为空的用户的shadow信息 


awk -F ":" '$7~"/bash" {print $1}' /etc/passwd		  显示第七个字段为/bash的行的第一个字段

awk -F: 'NR==5{print}' /etc/passwd                    显示第5行

awk -F":" '{print $1 " " $3}' /etc/passwd             $1与$3之间手动添加空格分隔
  • 通过管道,双引号调用shell命令
awk -F: '/bash$/{print | "wc -l"}' /etc/passwd          统计bash用户的个数

awk 'BEGIN {while ("w" | getline) n++ ; {print n-2}}'   统计在线用户的数量

awk 'BEGIN {"hostname" | getline;print $0}'             输出当前主机名

awk -F: '$1~/mail/ && $3>6 {print }' /etc/passwd        逻辑与,$1匹配mail,并且$3>6

awk -F: '{if($1~/mail/ && $3>8) print }' /etc/passwd  

awk -F: '$1~/mail/ || $3>1000 {print }' /etc/passwd     逻辑或,统计以mail开头或第3列大于1000的行
awk -F: '{if($1~/mail/ || $3>1000) print }' /etc/passwd 


网站公告

今日签到

点亮在社区的每一天
去签到