Heritrix在MyEclipse中的配置与启动脚本
需积分: 10 201 浏览量
更新于2024-09-30
收藏 30KB DOC 举报
本文档详细介绍了如何将Heritrix(一个用于网页抓取的开源软件)配置到MyEclipse集成开发环境中的步骤。Heritrix-1.14.1是一个版本的Heritrix,我们将通过以下步骤进行配置:
1. 下载与解压:
- 下载Heritrix的官方压缩包(heritrix-1.14.1.zip)和源代码(heritrix-1.14.1.src),然后解压这两个文件。
- 解压后的`heritrix-1.14.1.jar`文件用于构建项目。
2. 创建Java项目:
- 在MyEclipse中创建一个新的Java项目,命名为"heritrix",并将项目文件夹设置为"F:\workspace\myeclipse\heritrix"。
- 删除原有的`src`文件夹,以便重新导入源代码。
3. 导入源代码和资源:
- 将解压后的`heritrix-1.14.1.zip`文件夹下的`lib`、`webapps`和`heritrix-1.14.1`目录复制到项目根目录下。
- 删除多余的`org`和`st`文件夹。
- 将`heritrix-1.14.1.src`文件夹下的`src\java\org`和`st`文件夹移动到项目内指定位置。
4. 配置`heritrix.properties`:
- 修改`heritrix-1.14.1`目录下的`src\heritrix.properties`文件,将`heritrix.cmdline.admin=`设置为自定义的用户名和密码,如`heritrix.cmdline.admin=admin:sun`,这里仅作示例,实际使用时请替换为有效值。
5. 添加JAR包:
- 右键点击"heritrix"工程,选择"属性" -> "Java Build Path" -> "Libraries" -> "Add Jars",将`lib`目录下的所有JAR文件添加到项目中。
6. 运行Heritrix:
- 运行`org.archive.crawler.Heritrix`类,访问`http://localhost:8080/`,如果一切正常,你应该能看到Heritrix的初始界面。
7. 启动脚本:
- 创建启动脚本:Windows上的`heritrix.bat`,内容是`java-classpath ".;lib/*;" -Xmx1024m org.archive.crawler.Heritrix -b 192.168.1.28`,这会启动Heritrix服务,并指定最大内存为1024MB。
- Linux上的启动脚本`heritrix.sh`,设置环境变量`BASE`为`/opt/heritrix`,然后执行Heritrix命令。
通过以上步骤,你已经成功地将Heritrix配置到MyEclipse中,并可以通过启动脚本启动和管理Heritrix的抓取任务。记得根据实际情况调整路径和参数,确保Heritrix能够在你的开发环境中顺利运行。
2011-03-10 上传
2010-01-05 上传
2008-12-19 上传
点击了解资源详情
点击了解资源详情
2011-08-12 上传
yahui434592168
- 粉丝: 0
- 资源: 1
最新资源
- 正整数数组验证库:确保值符合正整数规则
- 系统移植工具集:镜像、工具链及其他必备软件包
- 掌握JavaScript加密技术:客户端加密核心要点
- AWS环境下Java应用的构建与优化指南
- Grav插件动态调整上传图像大小提高性能
- InversifyJS示例应用:演示OOP与依赖注入
- Laravel与Workerman构建PHP WebSocket即时通讯解决方案
- 前端开发利器:SPRjs快速粘合JavaScript文件脚本
- Windows平台RNNoise演示及编译方法说明
- GitHub Action实现站点自动化部署到网格环境
- Delphi实现磁盘容量检测与柱状图展示
- 亲测可用的简易微信抽奖小程序源码分享
- 如何利用JD抢单助手提升秒杀成功率
- 快速部署WordPress:使用Docker和generator-docker-wordpress
- 探索多功能计算器:日志记录与数据转换能力
- WearableSensing: 使用Java连接Zephyr Bioharness数据到服务器