Java简单爬虫程序实现与解析

需积分: 10 88 浏览量更新于2024-09-10 收藏 40KB DOC 举报

"Java自制爬虫程序是一个简单的学习示例，使用Java编写，适用于初学者。这个爬虫能够从指定的主页开始，按照设定的深度抓取同一个域名下的网页，并生成一个索引。程序利用了多线程、泛型、文件操作、URL处理、Hashtable以及正则表达式等技术。在运行时，需要提供一个有效的URL作为主页地址，并可选地设置爬虫深度。代码中还包含了一个报告文件和一个文件索引文件的生成功能。虽然这个爬虫程序存在一些局限性，如对某些URL格式处理不完全和异常处理的简单化，但它为初学者提供了理解网络爬虫基本工作原理的基础。" 在Java自制爬虫程序中，以下几个关键知识点值得深入探讨： 1. **多线程**：程序使用了多线程来并发抓取网页，提高了爬取效率。`intThreadNum`变量定义了线程的数量，通过创建多个线程并行处理任务，可以加快爬虫对网页的抓取速度。 2. **静态变量和同步**：在多线程环境下，静态变量被所有线程共享，因此在访问这些变量时需要考虑线程安全。程序中可能使用了`synchronized`关键字或者`java.util.concurrent`包中的工具类来保证数据的一致性。 3. **泛型**：在ArrayList的声明中，使用了泛型 `<String>` 来限制列表只能存储String类型的对象，增强了代码的类型安全性和可读性。 4. **文件操作**：程序会生成两个文件，一个是`report.txt`记录爬虫运行情况，另一个是`fileindex.txt`维护网页文件索引。这涉及到Java的I/O流操作，如`FileOutputStream`、`InputStreamReader`、`BufferedReader`、`PrintWriter`等类的使用。 5. **URL类和URLConnection**：Java的`java.net.URL`类用于表示统一资源定位符，`URLConnection`类则用于打开与URL指向的资源的连接，进行读写操作。在爬虫中，这两个类用于获取网页内容。 6. **Hashtable类关联数组**：`Hashtable`是Java中的一个线程安全的键值对容器，常用于存储爬取到的URL及其相关信息。在这里，它可能被用来建立网页的索引。 7. **正则表达式及其相关类**：程序使用正则表达式（`Pattern`和`Matcher`类）来匹配HTML中的URL，提取出需要爬取的链接。 8. **命令行参数处理**：程序接受两个命令行参数，第一个参数是爬虫的启动URL，第二个参数是可选的爬虫深度。这需要使用`main`方法中的`args`数组来接收和处理。 9. **异常处理**：尽管程序中的异常处理较为简单，但它是任何Java程序中必不可少的部分，用于处理可能出现的错误情况，保证程序的健壮性。这个Java爬虫程序虽然基础，但它覆盖了许多重要的编程概念和技术，对于学习Java爬虫和网络编程的新手来说是一个很好的起点。通过理解并改进这个程序，开发者可以逐步掌握更复杂的网络爬虫技术，例如处理JavaScript渲染的页面、反爬虫策略、数据解析和存储等。

以下是一个 Java 爬虫程序，它能从指定主页开始，按照指定的深度抓取该站点域名下的网页并维护简单索引。

参数：private static int webDepth = 2;//爬虫深度。主页的深度为 1，设置深度后超过该深度的网页不会抓取。

private int intThreadNum = 10;//线程数。开启的线程数。

抓取时也会在程序源文件目录下生成一个 report.txt 文件记录爬虫的运行情况，并在抓取结束后生成一个 leindex.txt 文件维护网页文件索引。

本程序用到了多线程(静态变量和同步)，泛型，文件操作，URL 类和连接，Hashtable 类关联数组，正则表达式及其相关类。运行时需使用命令行参数，第一个参数应使用 http://开头的有

效 URL 字符串作为爬虫的主页，第二个参数（可选）应输入可转换为 int 型的字符串（用 Integer.parseInt(String s)静态方法可以转换的字符串，如 3）作为爬虫深度，如果没有，则默认

深度为 2。

本程序的不足之处是：只考虑了 href= href=' href="后加绝对 url 的这三种情况(由于 url 地址在网页源文件中情况比较复杂，有时处理也会出现错误)，还有相对 url 和 window.open('的

情况没有考虑。异常处理程序也只是简单处理。如果读者有改进办法可以把源代码帖出，不胜感激。

附上源代码如下（保存名为 GetWeb.java）：

import java.io.File;

import java.io.Bu4eredReader;

import java.io.FileOutputStream;

import java.io.InputStream;

import java.io.InputStreamReader;

import java.io.OutputStreamWriter;

import java.io.PrintWriter;

import java.net.URL;

import java.net.URLConnection;

import java.util.ArrayList;

import java.util.regex.Matcher;

import java.util.regex.Pattern;

import java.util.Hashtable;

public class GetWeb {

private int webDepth = 2;//爬虫深度

private int intThreadNum = 10;//线程数

private String strHomePage = "";//主页地址

private String myDomain;//域名

private String fPath = "web";//储存网页文件的目录名

private ArrayList<String> arrUrls = new ArrayList<String>();//存储未处理 URL

private ArrayList<String> arrUrl = new ArrayList<String>();//存储所有 URL 供建立索引

private Hashtable<String,Integer> allUrls = new Hashtable<String,Integer>();//存储所有 URL 的网页号

private Hashtable<String,Integer> deepUrls = new Hashtable<String,Integer>();//存储所有 URL 深度

private int intWebIndex = 0;//网页对应文件下标，从 0 开始

private String charset = "GB2312";

private String report = "";

private long startTime;

private int webSuccessed = 0;

private int webFailed = 0;

public GetWeb(String s)

下载后可阅读完整内容，剩余6页未读，立即下载

大牌忧愁呼噜妹

粉丝: 1
资源: 1

Java简单爬虫程序实现与解析

Java网络爬虫程序（源程序和数据库文件）

Java网络爬虫程序

简单的java爬虫程序

java爬虫程序

JAVA爬虫程序

Java爬虫程序

java开发爬虫程序必备jar包集合

java图片爬虫程序，包括连接数据库

简单java爬虫程序

爬虫程序爬虫程序 java 数据挖掘

最新资源