Java实现简单网页数据抓取

需积分: 9 173 浏览量更新于2024-07-23 收藏 249KB DOC 举报

"该文档介绍了一个使用Java的htmlparser库来实现网页数据抓取的简单示例。通过创建一个名为`ScrubSelectedWeb`的类，程序能够从给定的URL下载HTML内容，并将其保存到本地文件。" 在这个Java代码示例中，主要涉及以下知识点： 1. **URL类**：`java.net.URL` 是用于表示统一资源定位符的类，它定义了如何构造、解析和表示URL。在代码中，通过`new URL("http://10.249.187.199:8083/injs100/")`创建了一个URL对象，用于指定要抓取的网页地址。 2. **IO流操作**： - `InputStream` 和 `InputStreamReader`：这些是Java的基本输入流，用于从输入源读取原始字节和字符数据。在这里，`ur.openStream()` 获取到与URL关联的输入流，`new InputStreamReader(instr)` 将字节流转换为字符流，方便处理文本内容。 - `BufferedReader`：提高读取效率，通过缓冲区一次性读取多个字符。代码中的`BufferedReader in = new BufferedReader(new InputStreamReader(instr))` 创建了一个缓冲字符输入流，用于逐行读取网页内容。 - `BufferedWriter` 和 `FileWriter`：用于写入字符数据到文件。`new BufferedWriter(new FileWriter("D:/outPut.txt"))` 创建一个缓冲字符输出流，将读取到的网页内容写入到指定的本地文件。 3. **文件操作**：通过`FileWriter` 实现对文件的写入操作，`out.close()` 和 `in.close()` 分别关闭输出流和输入流，确保资源得到正确释放。 4. **异常处理**：使用`try-catch`语句块处理可能出现的`MalformedURLException`（URL格式错误）和`IOException`（输入/输出错误），确保程序遇到问题时能够提供反馈并优雅地处理错误。 5. **字符串操作**： - `StringBuilder`：用于存储和构建字符串，避免频繁创建新的字符串对象，提高性能。 - `System.out.println(sb)` 打印出读取的HTML内容，便于调试。 - `str = new String(sb)` 将StringBuilder对象转换为字符串，然后写入到文件。虽然这个例子中没有使用`htmlparser`库，但通常情况下，抓取HTML数据会涉及到解析HTML结构，提取特定标签或属性的值。`htmlparser`库可以方便地解析HTML文档，找到目标元素，并从中提取所需信息。例如，使用`htmlparser`，你可以选择性地抓取页面上的特定标签，如`<title>`、`<p>`等，或者通过CSS选择器或XPath表达式来定位特定数据。如果要实现这样的功能，你需要在代码中导入`htmlparser`库的相关类，并使用它们提供的API进行解析和提取工作。请注意，实际的网页抓取可能需要处理更复杂的场景，例如处理JavaScript动态加载的内容、处理网络连接问题、处理编码问题、遵守网站的robots.txt规则，以及避免被服务器识别为机器人等。在生产环境中，你可能需要考虑使用更强大的库，如Jsoup或使用爬虫框架如Scrapy（Python语言）等。







 !"

!"

#$$

$基本能实现网页抓取，不过要手动输入 !"将整个 % 内容保存到指定文件

$

$&%%'

$

$#

((()

*"+','-../

#$$

$&

$#

(-01/)

')

!"+2!"-.%3##222#./

+-/

<

+2-2-//

(+2-/

+2-2-

.=3#,.//

2%--+"-//>+/)

(-?*"/

'-(/

+2-(/

2-/

-/

-/

@%- !"/)

A-/

@%-/)

A-/

4 利用 htmlparser 提取网页纯文本的例子



%F

%F

%,

%AF

%A(A

%F"

#$$

$标题3利用 % 提取网页纯文本的例子

$#

(ABA ",6)

#$$

$读取目标 % 内容

$

$#

(B-/)

')

*"

A

*"+..

A+..

S

!"S+2!"-

.%3##4567849:4883959;#455#./

B!"*S+-B!"*/S

*-/

S-/

S+S-/

S+2-

2-S//

2%--*"+S"-//>+/)

A?+*"?.RR.

A+A-A/

剩余35页未读，继续阅读

zhaofupobaoyang

粉丝: 3
资源: 2

Java实现简单网页数据抓取

40种网页常用小技巧.doc

node-htmlparser.zip

htmlparser(HTML页面解析)例子

htmlparser实现从网页上抓取数据doc

htmlparser实现从网页上抓取数据（+例子）

htmlparser实现爬虫.doc

Java使用HtmlParser实现简单的网络爬虫.zip

htmlparser网页分析

Java-培训大纲.doc

软件工程师个人简历表.doc

最新资源