c#提取html中的文本,c# – 如何从html中提取文本
时间: 2023-09-26 18:06:23 浏览: 86
### 回答1:
在 C# 中,可以使用正则表达式或者 HTML 解析器来从 HTML 中提取文本。下面分别介绍一下两种方法。
使用正则表达式:
```
using System.Text.RegularExpressions;
string html = "<html><body><h1>这是标题</h1><p>这是段落</p></body></html>";
string pattern = @"<[^>]+>| ";
string text = Regex.Replace(html, pattern, "");
Console.WriteLine(text); // 输出:这是标题这是段落
```
这里定义了一个正则表达式 `"<[^>]+>| "`,它匹配所有的 HTML 标签和 ` ` 字符,并将它们替换为空字符串,最终得到纯文本。
使用 HTML 解析器:
```
using HtmlAgilityPack;
string html = "<html><body><h1>这是标题</h1><p>这是段落</p></body></html>";
HtmlDocument doc = new HtmlDocument();
doc.LoadHtml(html);
string text = doc.DocumentNode.InnerText;
Console.WriteLine(text); // 输出:这是标题这是段落
```
这里使用了第三方库 `HtmlAgilityPack`,它可以方便地解析 HTML 文档。首先将 HTML 文本加载到 `HtmlDocument` 对象中,然后通过 `DocumentNode.InnerText` 属性获取纯文本。
### 回答2:
C是指英文字母表中的第三个字母,在发音上是/tsi:/或/si:/。在数学中,C代表着复数集合中的一个特定数字,即纯虚数。在化学中,C是指碳元素的化学符号,是生命的基本元素之一。在音乐中,C代表着C调,是乐谱中的一个音高。在计算机科学中,C是一种高级编程语言的名称,它具有灵活性和高效性,被广泛应用于软件开发。在经济学中,C代表着消费者,即市场中的买方。此外,C还可以代表许多其他事物,如企业的商标、道德分级等。总的来说,C在不同的领域中代表着不同的概念,具有多种意义,并且对于人类社会的发展起着重要作用。