正则表达式入门教程：深入解析与应用

需积分: 3 150 浏览量更新于2024-12-02 收藏 41KB DOCX 举报

"深入浅出之正则表达式" 正则表达式是计算机科学中的一个重要概念，用于描述文本模式，常用于数据验证、文本检索和替换等任务。在本文中，我们将探讨正则表达式的基本概念、不同的正则表达式引擎以及文字符号和特殊字符的用法。首先，让我们理解什么是正则表达式。正则表达式（Regex）是一种规则，用于定义一组文本模式。简单来说，它可以匹配符合特定规则的一串字符。在本文中，我们用"regex"来指代具体的正则表达式实例。基础的正则表达式可以是单个文本字符，比如"abc"，它将匹配包含连续字符"a"、"b"、"c"的字符串。正则表达式引擎是处理这些规则的软件组件，它们嵌入到各种应用程序中。由于不同的软件环境，各个正则表达式引擎可能存在差异。本教程主要关注Perl5类型的引擎，这类引擎在实际应用中最为广泛。然而，其他引擎如.NET的正则库和Java的JDK正则包也有其特点，虽然它们与Perl5类型引擎相似，但并非完全相同。接下来，我们探讨文字符号。最基本的正则表达式由单个文字符号构成，如"abc"，它会匹配字符串中的"abc"子串。注意，引擎默认区分大小写，"cat"不会匹配大写的"Cat"，除非你明确设置引擎忽略大小写。特殊字符在正则表达式中扮演着关键角色。有11个字符被视为元字符，具有特殊的含义，它们是：`[]\^$.|?*+()`。如果希望这些字符作为普通文本字符出现，需要在其前面加上反斜杠 `\` 进行转义，比如`\(`匹配左括号，`\+`匹配加号本身。这些元字符各自有不同的功能： - `.` 匹配任意单个非换行符的字符。 - `[]` 创建字符类，匹配其中任何字符。 - `\^` 在字符类内部表示不匹配，而在正则表达式开头表示匹配行首。 - `$` 表示匹配行尾。 - `.` 用于重复匹配前面的表达式零次或多次。 - `*` 重复匹配前面的表达式零次或多次。 - `+` 重复匹配前面的表达式一次或多次。 - `?` 重复匹配前面的表达式零次或一次。 - `|` 表示选择，匹配左侧或右侧的表达式。 - `()` 用于分组和捕获，以及改变运算优先级。了解这些基础知识后，你可以构建更复杂的正则表达式来处理更复杂的文本匹配需求。通过组合使用文字符号、特殊字符以及量词（如*、+、?），可以创建出强大的文本匹配模式。在实际应用中，正则表达式是程序员和数据分析师的得力工具，能够高效地处理大量文本数据。

 取反字符集

在左方括号“&”后面紧跟一个尖括号“)”，将会对字符集取反。结果是字符集将匹配任何不在方括号中

的字符。不像“”，取反字符集是可以匹配回车换行符的。

需要记住的很重要的一点是，取反字符集必须要匹配一个字符。 @&)'并不意味着：匹配一个

@，后面没有  跟着。它意味着：匹配一个 @，后面跟着一个不是  的字符。所以它不会匹配“J@”中的

@，而会匹配“J@!”中的 @ 和一个空格符。事实上，空格符是匹配中的一部分，因为它是一个“不

是  的字符”。

如果你只想匹配一个 @，条件是 @ 后面有一个不是  的字符，我们可以用后面将讲到的向前查看来解

决。



 字符集中的元字符

需要注意的是，在字符集中只有 4 个字符具有特殊含义。它们是：“'()<”。“'”代表字符集定义的结

束；“(”代表转义；“)”代表取反；“<”代表范围定义。其他常见的元字符在字符集定义内部都是正常字符，

不需要转义。例如，要搜索星号-或加号.，你可以用&.-'。当然，如果你对那些通常的元字符进行转

义，你的正则表达式一样会工作得很好，但是这会降低可读性。

在字符集定义中为了将反斜杠“(”作为一个文字字符而非特殊含义的字符，你需要用另一个反斜杠对

它进行转义。&(('将会匹配一个反斜杠和一个 G。“')<”都可以用反斜杠进行转义，或者将他们放在一

个不可能使用到他们特殊含义的位置。我们推荐后者，因为这样可以增加可读性。比如对于字符“ )”，将

它放在除了左括号“&”后面的位置，使用的都是文字字符含义而非取反含义。如&)'会匹配一个  或)。

&''会匹配一个“'”或“”。&<'或&<'都会匹配一个“<”或“”。



 字符集的简写

因为一些字符集非常常用，所以有一些简写方式。

(代表&7<8'K

(:代表单词字符。这个是随正则表达式实现的不同而有些差异。绝大多数的正则表达式实现的

单词字符集都包含了#<H<?7<8I'。

(代表“白字符”。这个也是和不同的实现有关的。在绝大多数的实现中，都包含了空格符和 "

符，以及回车换行符((。

字符集的缩写形式可以用在方括号之内或之外。 ((匹配一个白字符后面紧跟一个数字。&((

'匹配单个白字符或数字。&(<C#<>'将匹配一个十六进制数字。

取反字符集的简写

&(L'1&)('

&(9'1&)(:'

&('1&)('

 字符集的重复

如果你用“,-.”操作符来重复一个字符集，你将会重复整个字符集。而不仅是它匹配的那个字符。正

则表达式&7<8'.会匹配 M3N 以及 222。

如果你仅仅想重复被匹配的那个字符，可以用向后引用达到目的。我们以后将讲到向后引用。



6. 使用?*或+进行重复

,：告诉引擎匹配前导字符 7 次或一次。事实上是表示前导字符是可选的。

.：告诉引擎匹配前导字符 % 次或多次

-：告诉引擎匹配前导字符 7 次或多次

剩余10页未读，继续阅读

yilong欧巴

粉丝: 1
资源: 3

正则表达式入门教程：深入解析与应用

深入浅出之正则表达式（一）

深入浅出之正则表达式(二)

【java毕业设计】图书管理系统源码（ssm+jsp+mysql+说明文档+LW）.zip

Google Maps API Web 服务的 Python 客户端库.zip

一个字符串小游戏设计实现

基于Flask elasticsearch Niputv动漫视频网全部资料+详细文档.zip

基于C++和Qt实现的仿QQ影音视频播放器源码+项目说明.zip

GoodbyeDPI - 深度数据包检测规避实用程序（适用于 Windows）.zip

windows server 2019 安装net franework3.5.，添加功能-勾选3.5-确认步骤【指定备用源路径】，指定解压后路径，即可成功安装

Android 库显示进度，就像谷歌在其某些服务中所做的那样 .zip

最新资源