Linux教程：正规表示法与grep在服务器广告过滤中的应用

需积分: 0 98 浏览量更新于2024-08-04 收藏 742KB PDF 举报

本章节深入探讨了Linux系统中的正规表示法与文件格式化处理，特别是在服务器管理中的应用。正规表示法是一种强大的文本处理工具，用于精确匹配和搜索字符串，特别适用于在大量数据中筛选和清除垃圾广告邮件等无用信息。它依赖于编程语言的语系支持，如在C语系中，字符和数字的编码规则与非C语系（如zh_TW）有所不同。正规表示法的关键概念包括： 1. 字符集和类别：[:alnum:] 匹配字母和数字，[:alpha:] 匹配所有字母，[:upper:] 匹配大写字母，[:lower:] 匹配小写字母，[:digit:] 匹配数字。这些类别在不同语系下有不同的范围。 2. grep 工具的高级用法：grep 是一个常用的文本搜索工具，可以指定搜索特定字符串（-e或--regexp选项），选择性地显示行前后（-A, -B），并使用颜色高亮（--color=auto）。例如，grep -i the 文件名会忽略大小写进行搜索，而grep [test|taste] 可以匹配多个相似的字符组合。 3. 特殊字符的使用：^ 表示行首，$ 表示行尾。在字符集内，^ 表示否定，用于查找不包含某个字符的行；而在字符集外，^ 表示实际的行首位置。同样，$ 在行尾用于查找以特定字符结束的行。 4. 语系兼容性：在处理多国字符时，需要考虑编码问题，如在zh_TW语系下，某些特殊符号的匹配规则可能与C语系不同。通用的做法是使用正则表达式中的非字符类别，如[^[:lower:]] 和[^[:digit:]]，以确保跨平台的兼容性。这一章的内容涵盖了正规表示法的基础理论和实际操作技巧，对于Linux系统管理员、开发者以及数据处理人员来说，理解和掌握这些内容对于日常维护和文本处理任务至关重要。通过熟练运用正规表示法和grep，可以大大提高文本处理的效率和准确性。

第十二章、正规表示法与文件格式化处理

1、正规表示法是处理字符串的方法

2、用途：在服务器上删除垃圾广告信件

3、正规表示法也需要支持工具程序来辅助，比如 grep

4、语系对正规表示法的影响：字符和数字都是通过编码表转换来的，不同语系有不同编码

表，比如

LANG=C 时：0 1 2 3 4 ... A B C D ... Z a b c d ...z

LANG=zh_TW 时：0 1 2 3 4 ... a A b B c C d D ... z Z

LANG=C，[A-Z] 只有大写英文字母

LANG=zh_TW，[A-Z] 里大小写英文字母都包括进去了

我们一般用的是 C 这个语系

5、特殊符号的代表意义

[:alnum:] 代表英文大小写字符及数字，即 0-9, A-Z, a-z

[:alpha:] 代表任何英文大小写字符，即 A-Z, a-z

[:upper:] 代表大写字符，即 A-Z

[:lower:] 代表小写字符，即 a-z

[:digit:] 代表数字而已，即 0-9

6、grep 的进阶用法：

grep [-A] [-B] [--color=auto] '要搜寻的字符串' filename

-A ：后面可加数字，为 after 的意思，除了列出该行外，后续的 n 行也列出来；

-B ：就是前面的 n 行

--color=auto 可将要搜寻的字符串用颜色标注出来

加上行号和颜色（奇怪，默认就标注颜色的吗）

同时显示出前两行和后三行

找到前面困惑的解答了，原来默认设定了 grep --color=auto 的命令别名为 grep

下载后可阅读完整内容，剩余8页未读，立即下载

小崔个人精进录

粉丝: 39
资源: 316

Linux教程：正规表示法与grep在服务器广告过滤中的应用

嵌入式Linux开发入门：第1-12章详解

嵌入式Linux应用程序开发详解 - 第1-12章

ARM9嵌入式Linux软件设计基础教程第12章

Linux 24学时教程1-12章

嵌入式Linux应用程序开发详解1到12章

LINUX高级程序设计（中文第二版）第十二章 LINUX SOCKET网络编程

第十二章 Linux的DHCP服务器.docx

第二十二章 Linux中SQUID代理服务器.docx

Linux内核（12章，PDF文档）

第12章 Linux权限管理.docx

最新资源

LINUX高级程序设计（中文第二版）第十二章　LINUX　SOCKET网络编程