使用sed、awk与正则表达式进行文本处理

版权申诉

59 浏览量更新于2024-06-21 1 收藏 28KB DOCX 举报

"这篇资料主要介绍了在Linux环境中使用sed和awk命令处理正则表达式，以及与之相关的其他文本过滤工具，如head、tail、grep、sort、uniq和tr等。通过实例展示了如何查找、替换、筛选文本内容，以及统计单词出现次数、排序和去除重复行等功能。" 在Linux系统中，sed和awk是两个非常强大的文本处理工具，常用于数据处理和文件操作。正则表达式则是它们的核心，用于匹配和操作文本模式。 sed（流编辑器）可以逐行处理文件内容，执行查找、替换和删除等操作。例如，`sed 's/old/new/g' file` 将文件file中所有出现的"old"替换为"new"。它支持正则表达式，可以实现更复杂的模式匹配。 awk则更像是一种编程语言，用于处理结构化的文本数据。它的基本语法是`awk 'pattern {action}' file`，在满足pattern条件时执行action。awk也支持正则表达式，通过内建的正则函数如`match()`和`gsub()`进行文本匹配和替换。除了sed和awk，描述中提到了其他几个常用的文本过滤工具： - `head` 和 `tail` 分别用于显示文件的前几行和后几行。 - `grep` 是一个强大的文本搜索工具，可以使用正则表达式搜索文本。例如，`grep "pattern" file` 会显示文件file中包含"pattern"的行。`grep -i` 不区分大小写，`grep -v` 显示不包含指定模式的行。 - `sort` 用于对文件内容进行排序，`sort -n` 可以按照数值进行排序。 - `uniq` 用于去除连续重复的行，`uniq -c` 还可以统计每行出现的次数。另外，`tr` 命令用于转换字符集，例如将大写转换为小写，或替换特定字符。例如，`tr 'A-Z' 'a-z'` 可以将所有大写字母转换为小写。在示例中，`egrep` 是增强版的`grep`，支持更复杂的正则表达式，如`egrep '2|5' 1.txt` 可以匹配包含数字2或5的行。文本处理工具的组合使用可以实现更复杂的文本操作。例如，`tr` 用来转换字符，`sort` 对处理后的结果排序，`uniq` 去除重复行，可以有效地统计单词频率。通过这些命令的组合，我们可以高效地分析和处理大量文本数据。

sort

•

默认sort排序第一列，如何让sort排序第二列：

•

sort –k start,end files

•

sort –rn –k 2,2 abc.txt

第一个2表示第二列，第二2表示在第二列结束

•

-n ：使用纯数字排序（否则就会以文字型

态来排序）

-r ：反向排序

-u ：相同出现的一行，只列出一次！

剩余47页未读，继续阅读

小小哭包

粉丝: 2092

使用sed、awk与正则表达式进行文本处理

sed awk正则表达式

sed_awk正则表达式

正则表达式、sed与awk

sed awk正则表达式.pdf

电子书--正则表达式之道

Linux教程-linux正则表达式.docx

grep awk sed 都有正则表达式个人收藏经典参考书，强烈推荐

shell编程-正则表达式/awk/sed

Linux文本处理：sed与awk正则表达式实战

掌握sed与awk：正则表达式与脚本编程实战

最新资源