没有合适的资源?快使用搜索试试~ 我知道了~
首页Java正则表达式详解+基于HTMLParser解析HTML网页
Java正则表达式详解+基于HTMLParser解析HTML网页
需积分: 50 735 浏览量
更新于2023-03-16
评论 3
收藏 677KB PPT 举报
如何在Java程序中利用正则表达式实现对字符串的解析.另外,HTMLParser是一款很强大的对HTML网页进行解析的工具,其中大量地用到正则表达式.
资源详情
资源评论
资源推荐

Java 正则表达式入门 +
HTMLParser 使
用详解

一、 Java 正则表达式入门
众所周知,在程序开发中,难免会遇到需要匹配、查找、
替换、判断字符串的情况发生,而这些情况有时又比较复杂,
如果用纯编码方式解决,往往会浪费程序员的时间及精力。
因此,学习及使用正则表达式,便成了解决这一矛盾的主
要手段。
大家都知道,正则表达式是一种可以用于模式匹配和替换的
规范,一个正则表达式就是由普通的字符(例如字符 a 到
z )以及特殊字符(元字符)组成的文字模式,它 用以描述
在查找文字主体时待匹配的一个或多个字符串。正则表达式
作为一个模板,将某个字符模式与所搜索的字符串进行匹配。
自从 jdk1.4 推出 java.util.regex 包,就为我们提供了很
好的 JAVA 正则表达式应用平台。

说明转义符
\a
\f
响铃符 = \x07
换页符 = \x0C ,换页符
\n 响铃符 = \x07 ,换行 (‘\u000A’)
\r 回车符 = \x0D ,回车 (‘\u000D’)
\t 制表符 = \x09 ,间隔 (‘\u0009’)
\v 垂直制表符 = \x0B
\e ESC 符 = \x1B , Escape
\x20 使用两位十六进制表示形式,可与该编号的字符匹配
\u002B 使用四位十六进制表示形式,可与该编号的字符匹配
\
x{20A060}
使用任意位十六进制表示形式,可与该编号的字符匹配

说明字符
^
$
匹配输入字符串的开始位置。要匹配 "^" 字符本身,请使用 "\^"
匹配输入字符串的结尾位置。要匹配 “ $” 字符本身,请使用 “ \$”
(
)
标记一个子表达式的开始和结束位置。要匹配小括号,请使用 "\(" 和 "\)"
[
]
用来自定义能够匹配 ' 多种字符 ' 的表达式。要匹配中括号,请使用 "\[" 和
"\]"
{
}
修饰匹配次数的符号。要匹配大括号,请使用 "\{" 和 "\}"
.
匹配除了换行符( \n )以外的任意一个字符。要匹配小数点本身,请使用
"\."
?
修饰匹配次数为 0 次或 1 次。要匹配 "?" 字符本身,请使用 "\?"
+
修饰匹配次数为至少 1 次。要匹配 "+" 字符本身,请使用 "\+"
*
修饰匹配次数为 0 次或任意次。要匹配 "*" 字符本身,请使用 "\*"
|
左右两边表达式之间 " 或 " 关系。匹配 "|" 本身,请使用 "\|"

说明字符集合
.
\w
小数点可以匹配除了换行符( \n )以外的任意一个字符
可以匹配任何一个字母或者数字或者下划线,单独字符 [a-zA-Z_0-9]
\W W 大写,可以匹配任何一个字母或者数字或者下划线以外的字符,非单独
字符 [^a-zA-Z_0-9]
\s 可以匹配空格、制表符、换页符等空白字符的其中任意一个,空白符号 [\t\
n\x0B\f\r]
\S S 大写,可以匹配任何一个空白字符以外的字符,非空白符号 [^\t\n\x0B\f\r]
\d 可以匹配任何一个 0~9 数字字符,数字 等价于 [0-9]
\D D 大写,可以匹配任何一个非数字字符,非数字 等价于 [^0-9]
字符集合
字符集合
可以匹配 “ 多个字符” 其中任意一个字符的正则表达式。虽然是 “ 多
个字符” ,但每次只能匹配其中一个。 DEELX 正则表达式中标准
的字符集合有:
剩余63页未读,继续阅读















安全验证
文档复制为VIP权益,开通VIP直接复制

评论0