关关采集器规则编写完全指南(图文)

版权申诉

5星 · 超过95%的资源 179 浏览量更新于2024-08-22 收藏 13KB DOCX 举报

身份认证购VIP最低享 7 折!

30元优惠券

"关关采集器规则编写教程(图文详解版)详细介绍了如何编写关关采集器的规则，包括各种常用的正则表达式符号及其在杰奇后台中的对应标签，如\d*、\s*、.+?、.*等，并通过实例讲解了如何处理分卷、章节名和章节地址的获取。" 在关关采集器规则编写中，掌握正则表达式是至关重要的。正则表达式是用于匹配字符串的强大工具，以下是一些基本的正则符号及其含义： 1. `\d*` 表示匹配任意数量的数字，从零个到多个。 2. `\s*` 匹配任意数量的空格，包括换行符，允许字符串中存在空格或换行。 3. `+?` 是非贪婪版本的 `+`，表示匹配一个或多个字符，但尽可能少地匹配。 4. `.*` 匹配任意字符（除了换行符），可以出现零次或多次。 5. `()` 用于定义捕获组，括号内的内容会被保存以便后续使用。在与杰奇后台的标签对应关系中： 6. `!` 相当于 `([^>]+)`，通常用于提取HTML标签内的内容。 7. `PubIndexUrl` 是公众目录页地址，通常包含变量 `{NovelPubKey}`，用于指定小说的公共目录页面。 8. `PubVolumeSplit` 分割分卷的正则表达式，正确设置至关重要，因为它影响章节名的获取。例如，通过分析源代码，可能发现分卷的标识是某个特定的HTML标签。 9. `PubVolumeName` 用于获取分卷名称，匹配模式为 `(.+?)`，这将捕获分卷的文本内容。 10. `PubChapterName` 获得章节名，如示例中的“第一章降临五行山”。对于包含时间、日期等非章节内容的标签，可以使用 `.+?` 忽略它们。 11. `PubChapter_GetChapterKey` 提取章节地址（章节编号），此编号在 `PubContentUrl` 中使用，确保章节地址与章节名匹配。若章节页顺序混乱，推荐获取章节编号以确保准确性。 12. `PubContentUrl` 章节内容页地址，例如 `http://.docsj.com/doc/c6449c86551810a6f52486b2.html/files/article/html/0/622/502347.html`，需要根据实际页面结构设置正确的正则表达式以提取章节内容的URL。在编写采集规则时，务必理解网页结构，正确匹配和提取所需数据，确保采集的章节名、分卷名和内容页地址的准确无误。同时，注意使用非贪婪匹配 (`+?`) 来防止过度匹配，以及使用捕获组 (`()`) 来保存关键信息。对于复杂的网页布局，可能需要多次试验和调整正则表达式，以达到理想的采集效果。

资源详情

资源推荐