Web-Harvest入门教程：数据抓取与网页分析

5星 · 超过95%的资源需积分: 10 24 浏览量更新于2024-07-26 收藏 184KB PDF 举报

"Web-Harvest是一个开源的Java编写的Web数据提取工具，专注于从HTML/XML页面中抽取有用信息。它支持XSLT、XQuery和正则表达式等技术进行文本/XML处理，并允许通过编写自定义Java方法扩展功能。Web-Harvest通过XML配置文件定义数据提取流程，这些任务按顺序执行，彼此之间可以传递结果。例如，配置文件中的`<xpathexpression>`和`<html-to-xml>`元素用于从指定URL获取并解析HTML，然后提取锚标签中具有'rect'形状的链接地址。" 在Web数据处理领域，Web-Harvest扮演着重要的角色，帮助用户自动化地从网页中抽取结构化数据。由于网页内容通常混合了HTML代码和实际数据，手动提取不仅耗时且易出错，因此Web-Harvest这类工具应运而生。WebScraping和DataMining是此类活动的常见术语，它们旨在从万维网的海量数据中挖掘有价值的信息。 Web-Harvest的灵活性在于它的可扩展性。尽管它主要处理基于HTML/XML的页面，但通过编写自定义Java代码，用户可以处理更复杂的数据结构和特定的网页逻辑。配置文件采用XML格式，描述了数据提取的步骤，每个步骤（任务）可以是XPATH表达式、HTML到XML的转换，或者其他转换操作，任务之间通过结果传递形成数据处理链。例如，上述配置片段展示了如何使用XPath表达式从一个HTTP URL获取HTML，然后提取所有形状为'rect'的`<a>`标签的`href`属性。`<httpurl>`元素指定了要抓取的网页地址，而`<xpathexpression>`则定义了要提取的数据路径。 Web-Harvest是一个强大的工具，它为非程序员提供了数据提取的能力，同时也满足了高级用户自定义需求。通过学习和掌握Web-Harvest，用户能够高效地从互联网上收集和分析数据，无论是用于数据分析、市场研究还是其他需要大量网页数据的任务。

的一个实例。

http

httphttp

http

对象 http 提供了访问客户端和返回信息给 HTTP responses 的相关方法：

http.client

返回在配置执行时用于基本的 HTTP 客户端的

org.apache.commons.httpclient.HttpClient

类的一个实

例。

http.contentLength HTTP responses 内容的 bytes 长度

http.charset HTTP responses 文本的编码

http.mimeType HTTP responses 的 MIME 类型

http.headers HTTP responses headers 的映射 , 访问单个的 header, 请用

http.header.get(‘headername’)

http.statusCode 最后一个 HTTP responses 的状态码

http.statusText 最后一个 HTTP responses 的状态消息

http.totalLength 返回到客户端的全部 HTTP responses 的 bytes 的长度

http.totalResponse 返回到客户端的全部 HTTP responses 的个数

处理器

处理器处理器

处理器

config

configconfig

config：

：：

：

配置文件的根元素

语法

configuration body

</config>

属性

属性名称是否必要

默认值描述

charset no utf-8 定义配置文件的默认编码，下面可自定义编码的地方

如果没有再定义就默认使用这个编码

scriptlang

no beanshell

定义配置文件的默认脚本语言，下面可再配置语言的

地方如果没有再配置就默认使用这个语言

剩余26页未读，继续阅读

springyuhui

粉丝: 1
资源: 29

Web-Harvest入门教程：数据抓取与网页分析

Web-Harvest入门教程：数据提取与Web Scraping

Web-Harvest中文翻译：数据提取利器

深入理解Web-Harvest异常处理与标签使用

[Web-Harvest数据采集之一]Web-Harvest基础-配置文件分析源码

[Web-Harvest数据采集之二]Web-Harvest基础-抓取java代码分析

web-harvest

Web-Harvest手册

Web-Harvest学习笔记

web-Harvest帮助手册

试用Web-Harvest 使用手册

最新资源