首页java提取出html代码中的每一段文字

java提取出html代码中的每一段文字

时间: 2024-04-15 15:28:27 浏览: 18

你可以使用Java中的正则表达式来提取HTML代码中的每一段文字。下面是一个简单的示例代码： ```java import java.util.regex.Matcher; import java.util.regex.Pattern; public class HtmlTextExtractor { public static void main(String[] args) { String htmlCode = "<html><body><h1>Title</h1><p>This is a paragraph.</p></body></html>"; // 使用正则表达式提取文字内容 Pattern pattern = Pattern.compile("<.*?>"); Matcher matcher = pattern.matcher(htmlCode); String text = matcher.replaceAll(""); System.out.println(text); } } ``` 这个示例使用了`<.*?>`的正则表达式模式来匹配HTML标签，并使用`matcher.replaceAll("")`将匹配到的标签替换为空字符串，从而提取出每一段文字内容。输出结果为："TitleThis is a paragraph."。请注意，这个示例代码只是一个简单的演示，对于复杂的HTML结构可能不够鲁棒。在实际应用中，你可能需要使用更复杂的正则表达式模式或者借助第三方的HTML解析库来提取HTML代码中的文字内容。