ASP+XMLHTTP实现Web数据采集：从基础到实战

asp

http

194 浏览量更新于2024-08-28 收藏 164KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

"本文介绍了如何使用ASP和XMLHTTP对象编写Web采集程序，涵盖了从抓取网页、处理乱码、下载图片到探测真实URL和避免重复下载等多个方面。文章还提到了正则表达式和调试工具RegEx的重要性，并提供了实战案例进行深入解析。" 在ASP+VBScript环境下编写Web采集程序，首先需要掌握的基础知识包括XMLHTTP对象和正则表达式。XMLHTTP对象是实现异步通信的核心，广泛应用于AJAX技术中，允许程序在不刷新整个页面的情况下与服务器交换数据。而正则表达式则是处理和匹配字符串的强大工具，对于解析网页内容至关重要。 1. **抓取一个远程网页并保存到本地** 通过XMLHTTP对象，可以发送HTTP请求到目标网站获取网页内容。然后，将接收到的数据保存到本地文件。在处理过程中，可以使用`Save2File`这样的辅助函数，它接受网页内容、文件路径、是否为文本以及是否覆盖已有文件等参数，将数据写入指定文件。 2. **处理乱码问题** 当抓取的网页包含非ASCII字符时，可能会出现乱码。解决方法是正确设置HTTP请求的编码类型，并在保存文件时确保编码一致。例如，如果网页是UTF-8编码，保存文件时也需要以UTF-8格式进行。 3. **下载远程网页的图片和其他文件** 除了抓取HTML文本，还可以扩展程序来探测并下载网页中的图片和其他资源。这通常涉及到解析HTML中的`<img>`标签或其他引用外部资源的标签，提取URL并发起新的HTTP请求下载。 4. **探测真实URL** 网页中的链接可能经过重定向，需要通过检查HTTP响应状态码或Location头来确定实际的URL。这有助于确保下载的是正确的目标资源。 5. **避免重复下载** 为了提高效率和节省存储空间，可以建立一个已下载URL的数据库或缓存，每次下载前检查目标URL是否已经存在于数据库中，避免重复下载。 6. **实战举例** 文章中可能给出了具体网站的抓取示例，涉及如何解析列表页，提取内容页链接，以及处理内容页中的上一页、下一页链接。此外，还可能讨论了字符集转换，如UTF-8与GB2312之间的转换，这对于处理中文网页尤其重要。 7. **高级主题** 更复杂的应用包括模拟登录抓取需要用户验证才能访问的内容，以及客户端伪造，即改变请求头信息以模仿不同浏览器或设备，以绕过某些网站的反爬虫机制。通过以上步骤和技巧，可以构建一个基本的Web采集程序，用于自动化地抓取和处理网络上的信息。不过，需要注意的是，这样的程序可能触及版权和道德问题，因此在实际使用时应遵守相关法律法规，尊重网站的robots.txt文件，并确保合理合法地使用抓取的数据。

资源详情

资源推荐

用用asp+xmlhttp编写编写web采集程序采集程序

web采集程序？网页抓取程序？小倫程序？不管怎么叫，这种程序应用倒是蛮广的。本文不讨论这种使用这种程序引起的版权

或道德问题，只谈这种程序在ASP+VBScript环境下的实现 

预备知识：除了一般的ASP+VBScript的知识外，你还需要了解xmlhttp对象和正则表达式对象。xmlhttp对象是时下风头正劲的

Ajax的主角；而学好了正则表达式，你再也不用为处理复杂的字符串犯愁。

在编写和调试正则表达式时，RegEx 这个小工具非常有用。

抓取一个远程网页并保存到本地

改进：处理乱码

同时下载远程网页的图片（和其它文件）

改进：探测真实URL

改进：避免重复下载

实战举例（以****为例）

分析列表页

内容页的技巧

高级主题：UTF-8和GB2312的转换

更多高级主题：登陆后抓取，客户端伪造

己有的采集程序

原文链接：http://gwx.showus.net/blog/article.asp?id=229

１.抓取一个远程网页并保存到本地

‘用于调试的过程，后面会多次调用检查中间结果

Dim inDebug:inDebug=True

Sub D(Str)

If inDebug = False Then Exit Sub

Response.Write(“<div style=’color:#003399; border: solid 1px #003399; background: #EEF7FF; margin: 1px; font-

size: 12px; padding: 4px;’>”)

Response.Write(Str &”</div>”)

Response.Flush()

End Sub

‘过程： Save2File

‘功能：把文本或字节流保存为文件

‘参数： sContent 要保存的内容

‘ sFile 保存到文件，形如”files/abc.htm”

‘ bText 是否是文本

‘ bOverWrite 是否覆盖己存在文件

Sub Save2File(sContent,sFile,bText,bOverWrite)

Call D(“Save2File:”+sFile+” *是否文本：”&bText)

Dim SaveOption,TypeOption

If (bOverWrite = True) Then SaveOption=2 Else SaveOption=1

If (bText = True) Then TypeOption=2 Else TypeOption=1

Set Ads = Server.CreateObject(“Adodb.Stream”)

With Ads

.Type = TypeOption

.Open

If (bText = True) Then .WriteText sContent Else .Write sContent

.SaveToFile Server.MapPath(sFile),SaveOption

.Cancel()

.Close()

End With

Set Ads=nothing

End Sub

关键的函数

‘函数： myHttpGet

‘功能：抓取一个远程文件（网页或图片等）并保存到本地

‘参数： sUrl 远程文件的URL

‘ bText 是否是文本（网页），下载远程图片是bText=False

‘返回：抓取的内容

Function myHttpGet(sUrl,bText)

Call D(“<font color=red>myHttpGet:</font>”+sUrl+” *是否文本：”&bText)

‘Set oXml = Server.CreateObject(“Microsoft.XMLHTTP”)

Set oXml = Server.CreateObject(“MSXML2.ServerXMLHTTP”) ‘服务器版本的XMLHTTP组件

‘理解下面的内容，你可以参考一下MSDN中的MSXML2.ServerXMLHTTP

With oXml

.Open “GET”,sUrl,False

下载后可阅读完整内容，剩余8页未读，立即下载

weixin_38500944

粉丝: 7
资源: 943

ASP+XMLHTTP实现Web数据采集：从基础到实战

ASP采集QQ天气预报程序

VB6 使用 Microsoft.XMLHTTP

vba 报错使用者尚未定义xmlhttp As MSXML2.xmlhttp

使用c#调用XMLHTTP（XMLHTTPClass） ,发送和返回 json

使用AJAX编写程序，实现判断表单中的用户名是否存在。

xmlhttp.send失败

用vba编写一个爬虫代码

vb6.0 有web服务么

先获取微信用户头像和用户名，asp+ajax无刷新的1v1实时聊天手机页面，显示代码

asp解析chatgpt api返回的json数据

asp 如何 http post 请求

HTML5网页调用Web Service的源码

Set objXMLHTTP=New MSXML2.XMLHTTP40 objXMLHTTP.Open“POST”,SPATH&"JIKKOU/NGJ020.ASP"，False objXMLHTTP.setRequestHeader "X-Numb"，"UPDATE" 更新数据

msxml2.xmlhttp

用vba编写一段爬虫，使用post方法请求一段json数据到服务器，列出案例

VB6 Dim http As New MSXML2.XMLHTTP 要引用什么

帮我检查下面的函数是否存在错误function buttont2(){ var xmlpost; xmlpost = new XMLHttpRequest; xmlhttp.open("post","/post/",true); xmlhttp.send(); }

最新资源