Java去除HTML标签的正则表达式方法

5星 · 超过95%的资源需积分: 49 173 浏览量更新于2024-09-13 收藏 78KB DOC 举报

"Java 中过滤Html标签" 在Java编程中，有时我们需要处理包含HTML标签的字符串，例如在从网页抓取数据或者用户输入时。为了提取纯文本内容，我们需要过滤掉这些HTML标签。本资源主要介绍了如何使用Java的正则表达式来实现这一功能。在提供的代码中，可以看到一个名为`FilterStr`的类，它包含了一个静态方法`FilterHtmlText`，用于过滤HTML标签。以下是对这个方法的详细解释： 1. 首先，定义了两个变量`htmlStr`和`textStr`，分别存储原始含HTML标签的字符串和最终处理后的纯文本字符串。 2. 接下来，定义了一系列的正则表达式模式（`Pattern`对象）来匹配不同的HTML元素： - `regEx_script`：用于匹配JavaScript脚本标签`<script>`，包括`<script>`、`</script>`以及注释``。 - `regEx_style`：用于匹配CSS样式标签`<style>`，同样包括开始和结束标签及注释。 - `regEx_html`：这是一个通用的HTML标签匹配正则，用于匹配任何形式的HTML标签，但不包括内容。 - `regEx_html1`：与`regEx_html`类似，也是用来匹配HTML标签，可能用于不同的过滤策略。 3. 使用`Pattern.compile()`方法编译正则表达式，以创建匹配模式的`Matcher`对象，如`m_script`、`m_style`和`m_html`等。 4. 使用`Matcher`对象的`matcher()`方法在`htmlStr`上执行正则表达式的匹配，并通过`replaceAll()`方法将匹配到的HTML标签替换为空字符串，从而达到过滤HTML标签的目的。 5. 在示例代码中，只展示了对`regEx_script`的匹配和替换，但实际上，类似的过程会应用到其他正则表达式上，以确保删除所有HTML标签。通过这样的方式，可以有效地从字符串中清除HTML标记，得到仅包含文本内容的结果。这种方法虽然简单易用，但可能无法处理复杂的情况，如嵌套标签或者自定义标签。对于更复杂的HTML解析，可能需要使用像Jsoup这样的库，它可以提供更强大的解析和处理HTML文档的能力。

Java 中过滤 Html 全部 Html 标签：

核心是利用正则表达式搜索到标签挂念子，在利用 java 类替换字符串；

方法一：

package com.system;

import java.util.regex.Matcher;

import java.util.regex.Pattern;

public class FilterStr {

public static String FilterHtmlText(String inputString) {

String htmlStr = inputString; // 含html标签的字符串

String textStr = "";

java.util.regex.Pattern p_script;

java.util.regex.Matcher m_script;

java.util.regex.Pattern p_style;

java.util.regex.Matcher m_style;

java.util.regex.Pattern p_html;

java.util.regex.Matcher m_html;

java.util.regex.Pattern p_html1;

java.util.regex.Matcher m_html1;

try {

String regEx_script = "<[//s]*?script[^>]*?>[//s//S]*?

<[//s]*?///[//s]*?script[//s]*?>"; // 定义script的正则表达式{或

String regEx_style =

"<[//s]*?style[^>]*?>[//s//S]*?<[//s]*?///[//s]*?style[//s]*?>"; //

定义style的正则表达式{或<style[^>]*?>[//s//S]*?<///style>

String regEx_html = "<[^>]+>"; // 定义HTML标签的正则表达式

String regEx_html1 = "<[^>]+";

p_script = Pattern.compile(regEx_script,

Pattern.CASE_INSENSITIVE);

m_script = p_script.matcher(htmlStr);

htmlStr = m_script.replaceAll(""); // 过滤script标签

p_style = Pattern.compile(regEx_style,

Pattern.CASE_INSENSITIVE);

m_style = p_style.matcher(htmlStr);

htmlStr = m_style.replaceAll(""); // 过滤style标签

下载后可阅读完整内容，剩余5页未读，立即下载

spjhandsomeman

粉丝: 18
资源: 70

Java去除HTML标签的正则表达式方法

html java处理工具类

java正则表达式过滤html标签

PHP中HTML标签过滤技巧

java过滤html标签

java 读取html过滤标签

java使用正则表达式过滤html标签

java过滤html标签获取纯文本信息的实例

Java过滤器,字符过滤,标签过滤

Java正则表达式过滤html标签1[参考].pdf

java过滤html代码

最新资源