robots.txt 规则
时间: 2023-06-16 08:04:27 浏览: 172
robots写法.txt
robots.txt 是一个文本文件,用于告诉搜索引擎爬虫哪些网页可以被访问,哪些网页不应该被访问。它的基本语法如下:
User-agent: [爬虫名称]
Disallow: [禁止访问的网页路径]
其中,User-agent 指定了要针对哪个爬虫设置规则,Disallow 指定了要禁止访问的网页路径。如果要禁止所有爬虫访问某个目录或文件,可以使用 * 通配符,例如:
User-agent: *
Disallow: /admin/
上述规则表示禁止所有爬虫访问 /admin/ 目录及其下的所有文件。
值得注意的是,robots.txt 只是一个建议性的文件,不是所有的爬虫都会遵循这些规则。一些恶意的爬虫甚至会忽略 robots.txt 文件中的所有规则,因此如果您有重要的数据需要保护,最好使用其他方式进行保护。
阅读全文