1 Heritrix 控制台操作........................................................................................................................3
2 代码控制 Heritrix............................................................................................................................3
2.1 包的添加...............................................................................................................................3
2.2 设定爬行任务.......................................................................................................................3
2.2.1 配置爬行设置............................................................................................................3
2.2.2 建立网址列表............................................................................................................9
2.3 编写代码控制爬虫...............................................................................................................9
2.4 爬虫网址过滤方案.............................................................................................................10
2.4.1 需求..........................................................................................................................10
2.4.2 编写过滤器..............................................................................................................10
2.4.3 配置过滤器..............................................................................................................12
评论0