用C#提取下述html中<a>标签的title和href <a href="/book/158784/" title="深空彼岸"><img src="/public/image/nocover.jpg" alt="深空彼岸"></a>
时间: 2023-08-14 16:10:26 浏览: 179
你可以使用正则表达式来提取HTML中的<a>标签的title和href属性。以下是一个示例代码:
```csharp
using System;
using System.Text.RegularExpressions;
class Program
{
static void Main(string[] args)
{
string html = @"<a href=""/book/158784/"" title=""深空彼岸""><img src=""/public/image/nocover.jpg"" alt=""深空彼岸""></a>";
// 使用正则表达式提取<a>标签的title和href属性
string pattern = @"<a[^>]*?href=(['""])(.*?)\1[^>]*?title=(['""])(.*?)\3[^>]*?>";
Match match = Regex.Match(html, pattern);
if (match.Success)
{
string title = match.Groups[4].Value;
string href = match.Groups[2].Value;
Console.WriteLine($"标题:{title}");
Console.WriteLine($"链接:{href}");
}
else
{
Console.WriteLine("未找到<a>标签!");
}
}
}
```
以上代码使用了正则表达式来匹配HTML中的<a>标签,并提取出title和href属性的值。正则表达式模式`<a[^>]*?href=(['""])(.*?)\1[^>]*?title=(['""])(.*?)\3[^>]*?>`可以匹配类似于`<a href="/book/158784/" title="深空彼岸">`这样的<a>标签。
如果找到了匹配的<a>标签,我们使用`Match.Groups`属性来获取title和href属性的值,并将它们打印出来。如果没有找到<a>标签,会输出相应的提示信息。
请注意,正则表达式虽然可以用于简单的HTML提取,但对于复杂的HTML结构可能会有限制。在实际项目中,建议使用HTML解析库(如HtmlAgilityPack)来提取HTML中的内容。
阅读全文