织梦CMS采集规则详解：版权链接、标题空格与广告代码过滤

2星需积分: 42 110 浏览量更新于2024-09-08 收藏 48KB DOC 举报

织梦CMS（DEDECMS）是一款广泛使用的开源内容管理系统，它内置的采集功能为网站管理员提供了方便快捷的信息获取方式。在这个框架下，了解和掌握常用的采集规则至关重要，特别是对于初学者来说，能够避免许多不必要的问题并提高工作效率。首先，采集规则中的版权应用示例一展示了如何处理来源或作者字段中包含的链接。在采集过程中，有些网站的作者名字或链接可能会影响到文章的完整显示。为了解决这个问题，规则中使用了正则表达式来截取或去除链接中的文字。例如，如果只想保留文字部分，可以使用`{dede:trim}<a([^>]*)>{/dede:trim}`和`{dede:trim}</a>{/dede:trim}`来分别匹配链接的开始和结束标签，并移除其中的内容。相反，如果希望完全去除链接，可以使用`{dede:trim}<a([^>]*)>([^<]*)</a>{/dede:trim}`，这样只保留链接前后的内容。其次，应用示例二演示了如何过滤织梦CMS模板中的标题空格。采集的标题可能会因为源站格式问题而包含额外的空格，这在后续处理中可能会导致问题。通过添加正则表达式`{dede:trim}{/dede:trim}中间有一空格`，可以轻松地移除标题中的多余空格，确保数据的整洁性。再者，针对GG广告代码的过滤也是一个常见需求。由于很多论坛内容中嵌入了广告代码，如`<script>`标签，规则中使用`{dede:trim}<script([^>]*)>([^>]*)</script>{/dede:trim}`来移除这些元素，以保持采集内容的纯净。综合论坛上的网友经验，规则过滤全集包含了多个常见的HTML标签，如`<param>`, `<embed>`, `<object>`, 和 `<OBJECT>`，它们用于移除这些标签及其内容，以适应不同的采集场景。使用这些规则时，只需将它们添加到采集规则的过滤部分，根据实际需要调整正则表达式以适应特定的HTML结构。织梦CMS的采集规则是构建自动化内容更新的重要工具。通过熟练运用这些示例，用户能够定制出适合自身网站需求的采集策略，提高内容采集的准确性和一致性。掌握这些规则不仅可以提升工作效率，还能避免因格式问题导致的内容质量问题。

织梦 cms 自带的采集系统确实很不错，可以免去一些手工添加信息的麻



烦，设置一下 dede 采集规则、采集点，然后点采集，OK，一下子就可以



搞定！确实很省事的！下面介绍几种常用采集规则的过滤方法：



应用示例一：来源作者中连接的过滤

在采集文章的时候，有的网站系统里面作者或者来源处都带有连接，



直接采集的话将连接采集回来了，然后由于这两个字段有限制，通常会



造成需要采集的内容没有采集回来，所以需要在过滤处添加下面正则过



滤。







1，如果要保留 dedecms 链接中的文字：

{dede:trim}<a([^>]*)>{/dede:trim}

{dede:trim}</a>{/dede:trim}copyright



2，如果去掉链接中的文字：

{dede:trim}<a([^>]*)>([^<]*)</a>{/dede:trim}



应用示例二：织梦 cms 模板过滤标题空格

经常在采集文章的时候，标题文字里面有空格，采回来后应用很是麻



烦，所以需要在标题处过滤处添加下面正则过滤







{dede:trim}{/dede:trim}中间有一空格







应用示例三：过滤 GG 广告代码

其实这个就是在上面的内容过滤，但是很多论坛里的网友经常问这个



，所以单独作为一个应用列出来：

下载后可阅读完整内容，剩余4页未读，立即下载

u010180161

粉丝: 0
资源: 4

织梦CMS采集规则详解：版权链接、标题空格与广告代码过滤

dz采集规则

dede CMS最新采集规则

DEDE 织梦5.7 新闻采集规则

织梦漏洞扫描工具 csdn

织梦xorpay支付插件

rehl搭建织梦靶场

wordpress自动采集

织梦仿w3c 教程源码

织梦靶场搭建一片空白

织梦模板转wordpress

最新资源