Linux文本处理：sed与awk正则表达式实战

需积分: 10 10 浏览量更新于2024-07-26 收藏 156KB PDF 举报

"本资料主要介绍了sed和awk在处理文本时配合正则表达式的使用，同时也提及了其他一些常用的文本过滤工具，如head、tail、grep、sort、uniq和tr。通过实例详细解析了这些工具的功能和用法，帮助读者更好地理解和应用正则表达式在Linux系统中的文本处理操作。" 在文本处理领域，sed和awk是非常强大的工具，它们结合正则表达式可以实现对文本的复杂操作。sed是一个流编辑器，用于对输入流（标准输入或指定文件）进行读取、处理并输出。awk则是一种编程语言，专门处理结构化的文本数据，它能够根据模式匹配进行动作。 1. sed与正则表达式： - `sed` 常用命令：`/pattern/command`，其中`pattern`是正则表达式，`command`是对匹配行执行的操作，如`d`删除匹配行，`p`打印匹配行。 - `sed` 可以进行替换操作，例如：`sed 's/old/new/g' file`，将文件file中所有出现的"old"替换为"new"。 2. awk与正则表达式： - `awk` 使用`/pattern/{action}`语法，`pattern`是正则表达式，`action`是当匹配到模式时执行的代码块。 - `awk` 内置变量，如`$0`代表整行，`$1`到`$NF`代表字段，可以根据正则表达式进行分隔。 3. 其他文本过滤工具： - `head`：显示文件的前几行，如`head file`显示文件的前10行。 - `tail`：显示文件的末尾几行，如`tail file`显示文件的最后10行。 - `grep`：基于正则表达式的搜索工具，如`grep 'pattern' file`在文件file中查找包含"pattern"的行。 - `sort`：对文本进行排序，`sort file`按默认顺序排序文件内容。 - `uniq`：去除重复行，`uniq file`删除file中的连续重复行。 - `tr`：字符转换工具，如`tr 'a-z' 'A-Z' < file`将文件file中的小写字母转换为大写字母。 4. grep的高级用法： - `-i` 忽略大小写，如`grep -i pattern file`。 - `-v` 反向匹配，显示不包含模式的行。 - `-n` 显示匹配行的行号。 - `-l` 只列出包含模式的文件名。 5. egrep： - `egrep` 是增强版的grep，支持更复杂的正则表达式，如`egrep 'pattern1|pattern2' file`匹配包含"pattern1"或"pattern2"的行。 6. tr的用途： - `tr` 可以用来替换字符或字符集，例如用空格替换文件中的其他字符。 - `tr -s` 压缩连续的相同字符为一个，如压缩空格。 7. sort与tr的组合使用： - `sort` 可以与`tr`配合，先用`tr`处理文本格式，再用`sort`排序，如将文件中的大写字母转换为小写并排序。通过学习这些工具，你可以有效地处理文本数据，进行搜索、替换、排序、统计等操作，尤其在Linux或Unix环境中，它们是日常文本处理的得力助手。

sort

• 默认sort排序第一列，如何让sort排序第二列：

• sort –k start,end files

• sort –rn –k 2,2 abc.txt

第一个2表示第二列，第二2表示在第二列结束

•-n ：使用纯数字排序（否则就会以文字型

态来排序）

-r ：反向排序

-u ：相同出现的一行，只列出一次！

剩余47页未读，继续阅读

二进制泥水匠

粉丝: 8
资源: 4

Linux文本处理：sed与awk正则表达式实战

grep、sed、awk、perl等对正则表达式的支持的差别

sed awk正则表达式

sed-awk正则表达式

sed awk正则表达式.pdf

Linux_Shell正则表达式语法doc

grep awk sed 都有正则表达式个人收藏经典参考书，强烈推荐

使用sed、awk与正则表达式进行文本处理

掌握sed与awk：正则表达式与脚本编程实战

掌握基础：Shell脚本编程中的sed与awk与正则表达式应用

文本处理神器：grep, sed与awk的正则表达式与功能解析

最新资源