Java编程实现网络机器人与网页爬虫

5星 · 超过95%的资源 需积分: 9 3 下载量 145 浏览量 更新于2024-07-24 收藏 2.96MB PDF 举报
"《网络机器人Java编程指南》是由Jeff Heaton撰写的一本关于网页爬虫和智能代理程序的书籍,由Sybex出版社在2002年2月出版。这本书主要介绍了如何使用Java编程语言来创建网络机器人,包括蜘蛛(Spider)、机器人(Bot)和聚合器(Aggregator)。这些工具能够在互联网上自动执行任务,无需人类干预。" 书中内容涵盖了基础的HTTP和网络编程,这是Java程序员构建此类应用的必备知识。作者首先讲解了Java网络编程的基础,让读者理解如何与网络进行低级别的交互。之后,书中的内容深入到如何利用这些基础知识创建出具有实际用途的智能代理应用程序。 "蜘蛛"(Spider)在网络爬虫中扮演的角色是自动遍历网络,寻找与特定主题相关的多个网站,并抓取信息。"机器人"(Bot)则更专注于单个网站内部的信息检索和整理。而"聚合器"(Aggregator)则能够从多个网站收集数据并整合到一个页面上,例如用于显示信用卡、银行账户和投资账户的数据。 本书不仅适用于有经验的Java程序员,还特别适合JSP程序员。随书附带的CD-ROM包含了作者的智能代理平台的全部源代码,读者可以直接使用这些代码作为基础,来构建自己的网络爬虫、机器人和聚合器。 通过对这本书的学习,读者将能够掌握构建高效、智能的网络爬虫和信息处理工具所需的技术和策略。无论你是想要提升网站的搜索引擎优化,还是希望自动化处理大量网络数据,这本书都将提供宝贵的指导和实践资源。