url地址:https://www.sogou.com/ 编写一个简单的爬虫程序,要求用户输入一个搜索关键字,然后将爬取到的搜狗网站上的搜索结果保存在本地文件 “【关键字】.html”中。例如,搜索关键词为“熊猫”,则搜索结果本地保存为“熊猫.html”。
时间: 2024-04-21 19:28:45 浏览: 15
好的,以下是一个简单的 Python 爬虫程序,可以实现您的需求。
```python
import requests
from bs4 import BeautifulSoup
keyword = input("请输入搜索关键字:")
url = "https://www.sogou.com/web?query=" + keyword
response = requests.get(url)
soup = BeautifulSoup(response.text, "html.parser")
results = soup.find_all("a", class_="text-warning")
filename = f"{keyword}.html"
with open(filename, "w", encoding="utf-8") as f:
for result in results:
title = result.get_text()
link = result["href"]
f.write(f"<a href='{link}'>{title}</a><br>")
```
程序中,我们首先让用户输入搜索关键字,然后拼接出搜狗搜索的 URL。接着,使用 `requests` 库发送 HTTP 请求,获取搜索结果页面的 HTML 内容。将 HTML 内容传给 `BeautifulSoup` 对象进行解析,提取出搜索结果的标题和链接,并将其写入到本地文件中。
请注意,这个程序只是一个简单的爬虫示例,实际使用中还需要注意反爬虫策略、编码问题、异常处理等。
阅读全文