网页数据抓取与控制策略详解

需积分: 0 18 浏览量更新于2024-07-22 收藏 90KB DOC 举报

网页数据下载与控制是一篇关于编程实践和技术分享的文章，作者针对从网络上抓取和处理网页数据进行了详细的探讨。主要内容包括： 1. **概述及感谢**：文章首先表达了作者在编写下载网页数据并操作程序过程中的学习经历，对可能存在的错误表示欢迎读者指正，并感谢Winland的指导。 2. **Maxthon的使用**：作为关键工具，Maxthon被用来辅助找到网页的真实URL。通过实际操作，如访问天气预报页面，作者揭示了如何利用Maxthon的viewpage功能识别内嵌框架的网址，以便在程序中直接调用。 3. **POST、GET与NAME、VALUE**：这部分介绍了HTTP请求方法POST和GET的区别，以及HTML表单中NAME和VALUE属性的作用。POST通常用于提交数据，而GET则公开数据，NAME关联于表单元素，VALUE则是用户输入的实际数据。 4. **WebBrowser和IE的使用**：文章可能提到使用Windows自带的WebBrowser控件或IE浏览器进行网页数据的抓取，这可能是处理HTML和JavaScript的一种方式。 5. **查询结果控制**：涉及如何处理查询结果，比如可能通过新窗口展示查询结果，或者通过POST方法发送数据。 6. **Excel获取网页数据**：作者提到了将网页数据导出到Excel，这可能是数据清洗或分析的一个步骤。 7. **实例演示**：通过一个具体的例子，展示了如何利用WebBrowser类来抓取网页数据，包括XMLHttpRequest对象的使用。 8. **ASP脚本解析**：解释了ASP脚本标签 <% 和 %> 的作用，这是服务器端脚本执行的区域，区分了客户端和服务器端的数据处理。这篇文章提供了一个实用的指南，帮助初学者理解如何有效地从网页中提取数据，包括选择合适的工具、处理HTTP请求、理解HTML表单元素以及利用浏览器控件进行数据抓取和分析。通过这些技术，可以实现程序自动化处理网页数据的需求。

< 8C">C=">")>$$<+ =

< 8CC=()K(3)#-)<+ =

< 8C>C=>#7>-.F<+ =

<+"=<B=

 与  的区别：

'、 是用来从服务器上获得数据，而  是用来向服务器上传递数据。

、 将表单中数据的按照 2($82$- 的形式，添加到 .( 所指向的 B 后面，并且两

者使用“6A连接，而各个变量之间使用“NA连接； 是将表单中的数据放在 5# 的数据体中，按照变量

和值相对应的方式，传递到 .( 所指向 B。

0、 是不安全的，因为在传输过程，数据被放在请求的 B 中，而如今现有的很多服务器、代理

服务器或者用户代理都会将请求 B 记录到日志文件中，然后放在某个地方，这样就可能会有一些隐私

的信息被第三方看到。另外，用户也可以在浏览器上直接看到提交的数据，一些系统内部消息将会一同显

示在用户面前。 的所有操作对用户来说都是不可见的。

1、 传输的数据量小，这主要是因为受 B 长度限制，只能传递大约 '1 字节；而  可以

传输大量的数据，可以达到 ，所以在上传文件只能使用 。

4、 限制 E# 表单的数据集的值必须为 " 字符；而  支持整个 '1 字符集。

、 是 E# 的默认方法。

五、使用 

使用  需要添加 “ (.5  浏览器 ”（  ）或 “ (.5  (

.$A（）。

'、 的简要使用方法：

I打开前

$8C&*++,'-,.+ 5 5#,&6"(7#89499.

99:9:.C

EM/7,',2(3$

EM/7,I这句话屏蔽时， 同样打开网页，不过不显示在桌面上

(2-'M-"3G7$(3H

 5',B)7<=B>?M"(-I页面调用是否

完毕

JJ

)-

、我们想要的网页内容：

一般说来，我们想要的网页内容，就在 ',).-#,)7,(#$ 和

',).-#,)7,( 中，通过替换、分析，得到我们想要的数据。

#$ 中的内容就是网页源码。

( 中的内容则是网页上所显示的内容。（这个内容就是我们把网页另存为文本时的内容）

个人认为使用 #$ 要方便一些。

剩余14页未读，继续阅读

红叶如雪

粉丝: 7
资源: 14

网页数据抓取与控制策略详解

VB网页数据下载与控制

网页数据下载与控制.pdf

VBA网页下载与控制.doc

物联网数据传输与远程控制实验网站代码

升级失真控制镜头数据 升级失真控制镜头数据

网站后台数据管理控制面板ui设计素材下载_AI_PSD_XD_.zip

LABVIEW 获取网页数据_labview访问网页下载文章

商业网站数据查询操作的自动化控制.pdf

oa系统_销售数据管理控制面板ui界面素材下载_PSD_.zip

通过weberver读写1200PLC数据（电脑与手机均可登录IP地址打开网页控制）

最新资源

升级失真控制镜头数据升级失真控制镜头数据