Heritrix在MyEclipse中的配置与启动脚本

需积分: 10 2 下载量 201 浏览量 更新于2024-09-30 收藏 30KB DOC 举报
本文档详细介绍了如何将Heritrix(一个用于网页抓取的开源软件)配置到MyEclipse集成开发环境中的步骤。Heritrix-1.14.1是一个版本的Heritrix,我们将通过以下步骤进行配置: 1. 下载与解压: - 下载Heritrix的官方压缩包(heritrix-1.14.1.zip)和源代码(heritrix-1.14.1.src),然后解压这两个文件。 - 解压后的`heritrix-1.14.1.jar`文件用于构建项目。 2. 创建Java项目: - 在MyEclipse中创建一个新的Java项目,命名为"heritrix",并将项目文件夹设置为"F:\workspace\myeclipse\heritrix"。 - 删除原有的`src`文件夹,以便重新导入源代码。 3. 导入源代码和资源: - 将解压后的`heritrix-1.14.1.zip`文件夹下的`lib`、`webapps`和`heritrix-1.14.1`目录复制到项目根目录下。 - 删除多余的`org`和`st`文件夹。 - 将`heritrix-1.14.1.src`文件夹下的`src\java\org`和`st`文件夹移动到项目内指定位置。 4. 配置`heritrix.properties`: - 修改`heritrix-1.14.1`目录下的`src\heritrix.properties`文件,将`heritrix.cmdline.admin=`设置为自定义的用户名和密码,如`heritrix.cmdline.admin=admin:sun`,这里仅作示例,实际使用时请替换为有效值。 5. 添加JAR包: - 右键点击"heritrix"工程,选择"属性" -> "Java Build Path" -> "Libraries" -> "Add Jars",将`lib`目录下的所有JAR文件添加到项目中。 6. 运行Heritrix: - 运行`org.archive.crawler.Heritrix`类,访问`http://localhost:8080/`,如果一切正常,你应该能看到Heritrix的初始界面。 7. 启动脚本: - 创建启动脚本:Windows上的`heritrix.bat`,内容是`java-classpath ".;lib/*;" -Xmx1024m org.archive.crawler.Heritrix -b 192.168.1.28`,这会启动Heritrix服务,并指定最大内存为1024MB。 - Linux上的启动脚本`heritrix.sh`,设置环境变量`BASE`为`/opt/heritrix`,然后执行Heritrix命令。 通过以上步骤,你已经成功地将Heritrix配置到MyEclipse中,并可以通过启动脚本启动和管理Heritrix的抓取任务。记得根据实际情况调整路径和参数,确保Heritrix能够在你的开发环境中顺利运行。