在eclipe中配置并启动的步骤
1.首先解压heritrix-1.14.0.zip得到heritrix-1.14.0.jar,然后解压jar包,再解压heritrix-1.14.0-src.zip
2.我把两个解压后的jar文件和heritrix-1.14.0-src.zip分别放在了E:/MyWork/heritrix/heritrix-1.14-jar目录下和
E:/MyWork/libs/heritrix/heritrix-1.14.0-src/heritrix-1.14.0目录下
3.创建一个动态Web工程
4.把 E:/MyWork/heritrix/heritrix-1.14.0/lib目录下的所有jar文件导入工程,并且复制到工程下面的
WebContent/WEB_INF下面,工程会自动把这些jar放在Web App Libraries里面
5.把E:/MyWork/libs/heritrix/heritrix-1.14.0-src/heritrix-1.14.0/src/java下的com,org,st这三个目录都拷贝到
工程src下面
6.把 E:/MyWork/heritrix/heritrix-1.14-jar下的modules,arcMetaheaderBody.xsl,heritrix.properties,其修该内容是:
heritrix.cmdline.admin = admin:770629 (用户名:密码)
heritrix.cmdline.port = 8080 (heritrix服务器默认端口号8080,保证该端口不被占用就不用改了)
然后将其拷贝到工程src下面
7.把 E:/MyWork/libs/heritrix/heritrix-1.14.0-src/heritrix-1.14.0/src下的webapps拷贝到工程目录下面
8.在工程下面新建一个jobs文件夹,heritrix抓取的内容默认是放在该文件夹下面