ASP+XMLHTTP实现Web采集程序教程

173 浏览量更新于2024-08-30 收藏 162KB PDF 举报

"这篇文章主要介绍了如何使用ASP和XMLHTTP对象编写Web采集程序，涵盖了从基础的网页抓取到更高级的主题，如字符编码转换、登录后的数据抓取和客户端伪造等。" 在ASP环境中，XMLHTTP对象允许我们通过异步方式发送HTTP请求，从而获取远程网页的数据。它是Ajax技术的核心组成部分，对于Web采集程序的开发至关重要。首先，我们需要了解XMLHTTP对象的基本用法，包括打开连接、发送请求和接收响应。 1. **抓取一个远程网页并保存到本地** 使用XMLHTTP对象的`Open`方法打开一个HTTP请求，通常是GET方法，然后调用`Send`发送请求。收到响应后，可以读取`ResponseText`属性获取HTML内容。将内容保存到本地文件，可以使用自定义的`Save2File`过程，传入HTML内容、文件路径以及是否覆盖已存在文件的标志。 2. **处理乱码** 在保存网页时可能会遇到编码问题。要解决这个问题，我们需要正确识别返回的网页编码，并使用对应的函数（如`ADODB.Stream`）进行转换，确保保存的文件与原始编码一致。 3. **同时下载远程网页的图片和其他文件** 除了HTML，采集程序还可能需要下载网页中引用的图片和其他资源。这通常通过解析HTML中的`<img>`、`<link>`等标签，提取URL并分别发送请求来实现。 4. **探测真实URL** 有些网站使用JavaScript动态生成或重定向URL，需要通过解析脚本或使用类似`document.createElement('a')`的方法来获取实际的链接。 5. **避免重复下载** 为了提高效率，可以维护一个已下载URL的数据库或文件，每次下载前先检查URL是否已经存在于数据库中，以防止重复下载。 6. **实战举例（以****为例）** 文章可能提供了具体的示例，例如分析某个网站的列表页和内容页结构，提取所需信息。这涉及到HTML解析，通常使用正则表达式或DOM解析器（如MSXML）。 7. **分析内容页中的上一页，下一页** 分析内容页的导航元素，如“上一篇”、“下一篇”，可以找到相邻页面的URL，从而继续抓取。 8. **高级主题** - **UTF-8和GB2312的转换**：处理不同编码的网页，可能需要将数据从一种编码转换成另一种编码。 - **登录后抓取，客户端伪造**：对于需要登录的网站，可能需要模拟登录过程，并设置合适的Cookies来获取登录后的数据。此外，可以通过设置User-Agent和其他HTTP头部信息来模仿不同的客户端，以避免被网站识别为机器人。这些知识点构成了一个基本的Web采集程序框架，但实际开发中还需要考虑如何处理反爬策略、优化性能、数据清洗和存储等问题。学习和理解这些技术对于进行Web数据挖掘和分析是非常有用的。

Function ProcessRemoteUrl(sContent,sSavePath,sPreceding)

Call D("ProcessRemoteUrl")

Set re=new RegExp

re.IgnoreCase =true

re.Global=True

'下面的正则中.SubMatches(4)=文件名全名.SubMatches(5)文件扩展名

re.Pattern = "((http):(?:\/\/){1}(?:(?:\w)+[.])+(net|com|cn|org|cc|tv|[0-9]{1,4})(\S*\/)((?:\S)+[.]{1}(gif|jpg|jpeg|png|bmp)))"

Set RemoteFile = re.Execute(sContent)

Dim SaveFileName

'RemoteFile 正则表达式Match对象的集合

'RemoteFileUrl 正则表达式Match对象

For Each RemoteFileUrl in RemoteFile

SaveFileName = RemoteFileUrl.SubMatches(4)

Call Save2File(myHttpGet(RemoteFileUrl,False),sSavePath&"/"&SaveFileName,False,True)

sContent=Replace(sContent,RemoteFileUrl,sPreceding&SaveFileName)

ProcessRemoteUrl=sContent

End Function

改进：探测真实URL

上面的ProcessRemoteUrl函数不能正确处理形如<img src="upload/abc.jpg" />和<a href="/upload/abc.gif" ...的内容，要处理

这些相对链接，我们可以先用下面的函数把网页中的相对链接都转换成绝对链接

'函数： DetectUrl

'功能：替换字符串中的远程文件相对路径为以http://..开头的绝对路径

'参数： sContent 要处理的含相对路径的网页的文本内容

' sUrl 所处理的远程网页自身的URL，用于分析相对路径

'返回：替换相对链接为绝对链接之后的新的网页文本内容

Function DetectUrl(sContent,sUrl)

Call D("DetectUrl:"&sUrl)

'分析URL

Dim re,sMatch

Set re=new RegExp

re.Multiline=True

re.IgnoreCase =true

re.Global=True

re.Pattern = "(http://[-A-Z0-9.]+)/[-A-Z0-9+&@#%~_|!:,.;/]+/"

Dim sHost,sPath

'http://localhost/get/sample.asp

Set sMatch=re.Execute(sUrl)

'http://localhost

sHost=sMatch(0).SubMatches(0)

'http://localhost/get/

sPath=sMatch(0)

re.Pattern = "(src|href)=""?((?!http://)[-A-Z0-9+&@#%=~_|!:,.;/]+)""?"

Set RemoteFile = re.Execute(sContent)

'RemoteFile 正则表达式Match对象的集合

'RemoteFileUrl 正则表达式Match对象,形如src="Upload/a.jpg"

Dim sAbsoluteUrl

For Each RemoteFileUrl in RemoteFile

'<img src="a.jpg">,<img src="f/a.jpg">,<img src="/ff/a.jpg">

If Left(RemoteFileUrl.SubMatches(1),1)="/" Then

sAbsoluteUrl=sHost

Else

sAbsoluteUrl=sPath

End If

sAbsoluteUrl = RemoteFileUrl.SubMatches(0)&"="""&sAbsoluteUrl&RemoteFileUrl.SubMatches(1)&""""

sContent=Replace(sContent,RemoteFileUrl,sAbsoluteUrl)

DetectUrl=sContent

End Function

剩余10页未读，继续阅读

weixin_38687539

粉丝: 9
资源: 923

ASP+XMLHTTP实现Web采集程序教程

vfp几个控件属性测试实例

VFP应用程序设计实例--学生学籍管理系统

用正则xmlHttp实现的偷(转)

ASP+XMLHTTP实现Web数据采集：从基础到实战

ASP+VBScript环境下XMLHttpRequest实现web采集教程

ASP采集QQ天气预报程序

asp手动采集图片程序并将图片保存到本地 v1.0.rar

ASP源码—网人ASP采集系统.zip

asp 采集实战代码

ASP源码—UFO ASP 爬虫采集 v1.0.zip

最新资源