C#编程：获取HTML页面源代码的方法

5星 · 超过95%的资源需积分: 18 38 浏览量更新于2024-09-18 收藏 2KB TXT 举报

该代码段展示了如何在C#中通过HttpWebRequest类获取一个HTML页面的源码。这个方法主要用于网络爬虫或者需要从网页抓取数据的场景。在C#中，获取HTML页面源码主要涉及到.NET Framework的System.Net命名空间，其中HttpWebRequest和HttpWebResponse是两个关键的类。下面我们将详细解释这段代码的工作原理和涉及的知识点： 1. **HttpWebRequest类**：这是C#中用于发起HTTP请求的类，它可以创建一个HTTP请求并发送到指定的URL。在这个例子中，我们通过`WebRequest.Create(url)`创建了一个指向给定URL的HttpWebRequest对象。 2. **允许重定向（AllowAutoRedirect）**：`request.AllowAutoRedirect = true;`表示如果服务器返回的状态码指示需要重定向，那么HttpWebRequest会自动处理重定向。 3. **超时设置**：`request.Timeout = 5000;`和`request.ReadWriteTimeout = 5000;`分别设置了请求的超时时间和读写超时时间，单位为毫秒。这里都设置为了5秒。 4. **UserAgent属性**：`request.UserAgent`用于设置客户端的用户代理字符串，这在某些网站可能会检查这个字段以确定访问者类型。在这里，我们模拟了一个IE9浏览器的用户代理。 5. **获取响应**：通过`request.GetResponse();`发送请求并获取HttpWebResponse对象，这个对象包含了服务器的响应信息。 6. **处理响应流**：`webResponse.GetResponseStream();`返回服务器响应的数据流。接着，我们使用StreamReader来读取这个流，并通过`reader2.ReadToEnd();`获取整个HTML源码。 7. **异常处理**：`catch`块用于捕获可能出现的异常，如网络问题、服务器错误等。当发生异常时，返回一个空字符串。 8. **资源释放**：在`finally`块中，我们确保无论是否出现异常，都会关闭HttpWebRequest和HttpWebResponse对象，释放占用的资源。这个方法简单而实用，适用于大多数需要获取网页源码的情况。但需要注意的是，对于需要登录、需要cookie或更复杂交互的网页，可能需要使用更高级的方法，如模拟登录、使用CookieContainer或使用更强大的库如HtmlAgilityPack等。此外，如果目标网页采用非UTF-8编码，可能需要根据实际情况调整`Encoding Ec`参数以正确解析页面内容。

/// <summary>
/// 获取源代码
/// </summary>
/// <param name="url"></param>
/// <param name="encoding"></param>
/// <returns></returns>
public string GetPage(string url, string PointStr,Encoding Ec
{
HttpWebRequest request = null;
HttpWebResponse webResponse = null;
try
{
request = (HttpWebRequest)WebRequest.Create(url);
request.AllowAutoRedirect = true;
request.Timeout = 5000;
request.ReadWriteTimeout = 5000;
//request.KeepAlive = true;
request.Method = "GET";
//request.ImpersonationLevel = System.Security.Principal.TokenImpersonationLevel.Anonymous;
request.UserAgent = "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0)";
webResponse = (HttpWebResponse)request.GetResponse();
using (System.IO.Stream stream = webResponse.GetResponseStream())
{
using (System.IO.StreamReader reader2 = new StreamReader(stream, Ec))
{
return reader2.ReadToEnd();
}
}
}
catch

下载后可阅读完整内容，剩余1页未读，立即下载

guang_hui_yang

粉丝: 10
资源: 54

C#编程：获取HTML页面源代码的方法

C#获取HTML中的文本信息

C#解析html，HtmlAgilityPack

C# 获取 网页中 的 全部 URL 源代码

使用C#获取网页HTML源码的例子

C#获取HTML源码及生成DOM树

C#获取静态源码的程序

j2ee java C# php 页面 获取摄像头 截图，源码

AfterWork.Html，HTML页面处理，C#源码。

C# 获取电脑外网IP的源码

C# 网络爬虫程序源码 C#网络舆论监控系统源码

最新资源

C# 获取网页中的全部 URL 源代码

j2ee java C# php 页面获取摄像头截图，源码