(4) 编写爬取百度网站的robots.txt 文件的爬虫,并分析爬取的内容。(提示:先获取百度网站的robots.txt 文件内容,然后分析文件内容,以用户易于理解的方式输出分析结果)
时间: 2025-01-02 20:46:09 浏览: 20
要编写一个爬取百度网站robots.txt文件的Python爬虫,可以使用`requests`库来获取HTTP响应,然后解析文件内容。下面是一个简单的例子:
```python
import requests
# 百度的robots.txt URL
url = "https://www.baidu.com/robots.txt"
# 发送GET请求
response = requests.get(url)
# 检查请求是否成功
if response.status_code == 200:
# 解析HTML content为文本
robots_txt = response.text
# 分析robots.txt
lines = robots_txt.split('\n')
rules = []
for line in lines:
if not line.startswith('#') and 'Disallow:' in line:
rule = line.split('Disallow: ')[1].strip()
rules.append(f"百度禁止爬取:{rule}")
# 输出分析结果
print("百度robots.txt主要内容分析如下:")
for rule in rules:
print(rule)
else:
print(f"无法获取robots.txt文件,HTTP状态码: {response.status_code}")
阅读全文