C#代码：高效过滤HTML标签的方法

4星 · 超过85%的资源需积分: 44 127 浏览量更新于2024-09-21 收藏 4KB TXT 举报

"这篇文章主要介绍了如何在C#中过滤HTML标签的方法，提供了具体的代码实现，旨在帮助开发者清除HTML文档中的脚本、标签等元素，确保只保留纯文本内容。" 在C#编程中，处理HTML内容时，有时我们需要将HTML标签过滤掉，仅保留文本信息。以下是一些常见的C#方法来实现这一目标： 1. 删除脚本标签：首先，我们可以使用正则表达式来移除HTML文档中的`<script>`标签及其内容。这一步至关重要，因为脚本可能包含执行恶意代码的风险。例如： ```csharp Htmlstring = Regex.Replace(Htmlstring, @"<script[^>]*?>.*?</script>", "", RegexOptions.IgnoreCase); ``` 此正则表达式会匹配所有以`<script>`开头，`</script>`结尾，并且可能包含任何数量和类型的字符的行。 2. 删除HTML标签：接下来，我们处理其他HTML标签，使用另一个正则表达式将它们替换为空字符串，以移除HTML结构： ```csharp Htmlstring = Regex.Replace(Htmlstring, @"<(.[^>]*)>", "", RegexOptions.IgnoreCase); ``` 这个表达式会匹配所有HTML标签，无论其名称是什么，只要它以`<`开始，`>`结束，并且中间没有更多的`>`符号。 3. 处理空白字符：在去除HTML标签后，可能还会有一些多余的空格或换行符。可以使用下面的正则表达式来合并连续的空白字符： ```csharp Htmlstring = Regex.Replace(Htmlstring, @"([\r\n])[\s]+", "", RegexOptions.IgnoreCase); ``` 这将删除换行符后面的多个空格。 4. 处理注释： HTML注释（``）也需要被移除，以避免不必要的内容： ```csharp Htmlstring = Regex.Replace(Htmlstring, @"-->", "", RegexOptions.IgnoreCase); Htmlstring = Regex.Replace(Htmlstring, @"<!--.*", "", RegexOptions.IgnoreCase); ``` 5. 解码HTML实体：为了保持文本的可读性，还需要将HTML实体转换为对应的字符。例如： - `"` -> `"` - `&` -> `&` - `<` -> `<` - `>` -> `>` - ` ` -> 空格每个实体都可以通过如下的正则表达式进行替换： ```csharp Htmlstring = Regex.Replace(Htmlstring, @"&(quot|#34);", "\"", RegexOptions.IgnoreCase); Htmlstring = Regex.Replace(Htmlstring, @"&(amp|#38);", "&", RegexOptions.IgnoreCase); Htmlstring = Regex.Replace(Htmlstring, @"&(lt|#60);", "<", RegexOptions.IgnoreCase); Htmlstring = Regex.Replace(Htmlstring, @"&(gt|#62);", ">", RegexOptions.IgnoreCase); Htmlstring = Regex.Replace(Htmlstring, @"&(nbsp|#160);", "", RegexOptions.IgnoreCase); ``` 这些步骤综合起来，就可以有效地过滤掉HTML文档中的所有标签、脚本以及HTML实体，使结果仅包含纯文本。然而，这种方法并不适用于所有情况，对于复杂的HTML结构或嵌套标签，可能需要更复杂的方法，如使用HTML解析库如AngleSharp或HtmlAgilityPack。但对大多数简单的需求来说，上述方法已经足够。

/**/ /// <summary>
/// 去除HTML标记
/// </summary>
/// <param name="NoHTML">包括HTML的源码 </param>
/// <returns>已经去除后的文字</returns>
public static string NoHTML(string Htmlstring)
{
//删除脚本
Htmlstring = Regex.Replace(Htmlstring, @"<script[^>]*?>.*?</script>", "",
RegexOptions.IgnoreCase);
//删除HTML
Htmlstring = Regex.Replace(Htmlstring, @"<(.[^>]*)>", "",
RegexOptions.IgnoreCase);
Htmlstring = Regex.Replace(Htmlstring, @"([\r\n])[\s]+", "",
RegexOptions.IgnoreCase);
Htmlstring = Regex.Replace(Htmlstring, @"-->", "", RegexOptions.IgnoreCase);
Htmlstring = Regex.Replace(Htmlstring, @"<!--.*", "", RegexOptions.IgnoreCase);
Htmlstring = Regex.Replace(Htmlstring, @"&(quot|#34);", "\"",
RegexOptions.IgnoreCase);
Htmlstring = Regex.Replace(Htmlstring, @"&(amp|#38);", "&",
RegexOptions.IgnoreCase);
Htmlstring = Regex.Replace(Htmlstring, @"&(lt|#60);", "<",
RegexOptions.IgnoreCase);
Htmlstring = Regex.Replace(Htmlstring, @"&(gt|#62);", ">",
RegexOptions.IgnoreCase);
Htmlstring = Regex.Replace(Htmlstring, @"&(nbsp|#160);", " ",
RegexOptions.IgnoreCase);
Htmlstring = Regex.Replace(Htmlstring, @"&(iexcl|#161);", "\xa1",
RegexOptions.IgnoreCase);
Htmlstring = Regex.Replace(Htmlstring, @"&(cent|#162);", "\xa2",

下载后可阅读完整内容，剩余4页未读，立即下载

就是魁哥

粉丝: 0
资源: 9

C#代码：高效过滤HTML标签的方法

C#正则过滤HTML标签并保留指定标签的方法

C#过滤HTML标签源码，使用的正则表达式

C#实现过滤html标签并保留a标签的方法

C#实现过滤sql特殊字符的方法集合

过滤字符串中的HTML标签

asp.net 过滤图片标签的正则

ASP.NET过滤HTML字符串方法总结

java、HTML、SQL和 C#试题及答案

c#个人博客

WEB程序报表C# 源码

最新资源