JEECMS数据库表结构详解-采集表jc_acquisitionCMS

需积分: 9 51 下载量 113 浏览量 更新于2024-07-23 收藏 784KB DOC 举报
"本文将详细解析JEECMS系统的数据库设计,特别是jc_acquisitionCMS采集表的字段及其功能,帮助理解JEECMS如何管理和执行采集任务。" 在JEECMS系统中,jc_acquisitionCMS采集表是用于管理内容采集任务的核心数据表。这个表包含了与采集任务相关的各种配置和状态信息,以下是对各个字段的详细解释: 1. **acquisition_id**:这是每个采集任务的唯一标识符,类型为int(11),作为主键(P),不允许为空,无初始值。 2. **site_id**:关联了采集任务所属的站点,类型为int(11),是外键(F),用于链接到站点表,也可能为空。 3. **channel_id**:指定了采集内容的频道或分类,也是外键,类型为int(11),用于关联JEECMS的频道定义。 4. **type_id**:可能表示采集任务的类型,如定时采集、实时采集等,同样为int(11)的外键。 5. **user_id**:记录创建或负责该采集任务的用户ID,类型为int(11),是外键。 6. **acq_name**:采集任务的名称,便于识别,类型为varchar(50),允许为空。 7. **start_time**:采集任务的开始时间,采用datetime类型,允许为空,表示任务可以随时启动。 8. **end_time**:采集任务的结束时间,datetime类型,允许为空,表明任务可能有固定的运行周期。 9. **status**:当前采集任务的状态,用int(11)表示,可能的值有0(静止)、1(采集中)、2(暂停),方便监控任务运行情况。 10. **curr_num**:当前采集到的号码,int(11),用于追踪采集进度,初始值为0。 11. **curr_item**:当前采集到的条目数,类型同上,初始值也为0。 12. **total_item**:每页采集的总条目数,int(11),设置采集量的阈值。 13. **pause_time**:如果任务被暂停,此字段记录暂停的时间,单位为毫秒,int(11),初始值为0。 14. **page_encoding**:页面的字符编码,如GBK,varchar(20),确保正确解析网页内容。 15. **plan_list**:存储采集计划的详细信息,使用longtext类型,允许为空,可能包含URL列表或其他配置。 16. **dynamic_addr**:动态地址,可能用于处理动态加载的内容,varchar(255),允许为空。 17. **dynamic_start**:页码开始,int(11),允许为空,用于动态加载时的起始页码。 18. **dynamic_end**:页码结束,int(11),允许为空,用于设定动态加载的终止页码。 19. **linkset_start**:内容链接区开始的标记,varchar(255),用于提取链接,允许为空。 20. **linkset_end**:内容链接区结束的标记,与linkset_start配合使用,同类型,允许为空。 21. **link_start**:内容链接开始的HTML标签或字符串,用于提取内容链接,varchar(255),允许为空。 22. **link_end**:内容链接结束的HTML标签或字符串,与link_start配合,同类型,允许为空。 23. **title_start**:标题开始的标记,用于提取网页标题,varchar(255),允许为空。 24. **title_end**:标题结束的标记,与title_start配合,同类型,允许为空。 25. **keywords_start**:关键字开始的标记,可能是meta标签,varchar(255),允许为空。 通过这些字段,JEECMS能够精确控制和管理采集任务,包括任务的创建、调度、状态跟踪以及内容的抓取策略。这样的设计使得JEECMS能够灵活适应不同网站结构,实现高效的内容自动更新。