没有合适的资源?快使用搜索试试~ 我知道了~
首页AnyFo - Heritrix大力金刚指.doc
资源详情
资源评论
资源推荐
AnyFo – Heritrix
大力金刚指
“大力金刚指,少林七十二决计之一……”
主编:安坤
版本:V.080303
1 Heritrix 控制台操作........................................................................................................................3
2 代码控制 Heritrix............................................................................................................................3
2.1 包的添加...............................................................................................................................3
2.2 设定爬行任务.......................................................................................................................3
2.2.1 配置爬行设置............................................................................................................3
2.2.2 建立网址列表............................................................................................................9
2.3 编写代码控制爬虫...............................................................................................................9
2.4 爬虫网址过滤方案.............................................................................................................10
2.4.1 需求..........................................................................................................................10
2.4.2 编写过滤器..............................................................................................................10
2.4.3 配置过滤器..............................................................................................................12
1 Heritrix 控制台操作
2 代码控制 Heritrix
2.1 包的添加
将 Heritrix 的包和其 lib 目录下的包添加到当前项目的 ClassPath 中。
注意:heritrix-1.12.1.jar 这个包一定要放在环境变量的最前面。
2.2 设定爬行任务
2.2.1 配置爬行设置
建立一个目录,作为爬行的任务目录。
在任务目录下建立一个 order.xml,并添加如下内容:
<?xml version="1.0" encoding="UTF-8"?>
<crawl-order xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:noNamespaceSchemaLocation="heritrix_settings.xsd">
<meta>
<name>ok</name>
<description>TestJob1</description>
<operator>Admin</operator>
<organization></organization>
<audience></audience>
<date>20080229101822</date>
</meta>
<controller>
<string name="settings-directory">settings</string>
<string name="disk-path"></string>
剩余12页未读,继续阅读
elifefly
- 粉丝: 604
- 资源: 27
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- ExcelVBA中的Range和Cells用法说明.pdf
- 基于单片机的电梯控制模型设计.doc
- 主成分分析和因子分析.pptx
- 共享笔记服务系统论文.doc
- 基于数据治理体系的数据中台实践分享.pptx
- 变压器的铭牌和额定值.pptx
- 计算机网络课程设计报告--用winsock设计Ping应用程序.doc
- 高电压技术课件:第03章 液体和固体介质的电气特性.pdf
- Oracle商务智能精华介绍.pptx
- 基于单片机的输液滴速控制系统设计文档.doc
- dw考试题 5套.pdf
- 学生档案管理系统详细设计说明书.doc
- 操作系统PPT课件.pptx
- 智慧路边停车管理系统方案.pptx
- 【企业内控系列】企业内部控制之人力资源管理控制(17页).doc
- 温度传感器分类与特点.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0