"SiteFactory 使用手册提供了关于采集管理的详细说明,涵盖了从开始采集到管理采集项目的各个环节。手册强调了系统的强大采集功能,能够深入网页内容,抽取有效数据,并保持数据间的逻辑关系。采集功能包括AJAX技术的应用,字段为中心的设置,多种采集规则,线程技术和缓存技术的使用,以及支持多种模型类型的采集。此外,手册还介绍了采集管理的各个功能,如开始采集、添加采集项目、采集项目管理、采集历史记录、查看采集进度、添加和管理采集排除规则以及采集过滤管理。通过实例教程,解释了如何添加采集项目并进行信息采集的完整流程。"
SiteFactory 的采集管理系统是其核心特性之一,它允许用户高效地从互联网上抓取和组织信息。这个系统采用大量AJAX技术,使得采集设置实时生效,用户可以通过可视化预览选择需要截取的代码。系统以字段为基础,每个字段都有独立的采集规则设定,包括私有和公共过滤规则,且每个字段可以预览采集结果。采集规则根据字段类型定制,如文本类型和时间类型会有不同的设置界面。
在采集过程中,SiteFactory 运用线程技术,让用户在采集任务进行时可进行其他管理操作,而不影响采集进程。此外,系统使用缓存技术,先收集所有列表页链接再进行采集,有效节省了系统资源。采集支持各种模型类型,如图片和软件,以适应多样化的信息采集需求。
在管理界面,用户可以访问“采集管理”下的多个功能,包括开始采集,添加新采集项目,管理现有项目,查看历史记录,监控采集进度,以及设置和管理采集排除规则。这些功能帮助用户精细化控制采集行为,防止重复采集,并能有效地过滤不必要的内容。
“采集流程”章节提供了一个实际操作的例子,教导用户如何创建采集项目,以从特定网站(如动易官方网站的“公司动态”栏目)中提取信息。这个过程涉及设置采集规则,定义要过滤的标题和正文字符,以及监控采集任务的执行进度。
SiteFactory 的采集管理系统是强大且灵活的工具,不仅适用于新闻站点的数据采集,还能适应各种类型的在线信息抓取需求。用户可以根据手册的指导,高效地构建和管理自己的采集任务,确保数据的准确性和效率。