构图带参URL信息,组成Url,爬取Url对应网页文件,并存入本地文件python完整代码
时间: 2024-10-23 10:11:18 浏览: 39
在Python中,你可以使用requests库来获取网页内容,BeautifulSoup库来解析HTML,以及os库来处理文件操作。以下是一个简单的示例,展示了如何通过参数动态构建URL、抓取网页并将其保存到本地文件:
```python
import requests
from bs4 import BeautifulSoup
import os
def get_html(url):
# 发送GET请求
response = requests.get(url)
# 检查请求状态码,如果成功则返回响应内容,否则抛出异常
response.raise_for_status()
return response.text
def save_to_file(html_content, filename):
# 创建目录,如果不存在
directory = os.path.dirname(filename)
if not os.path.exists(directory):
os.makedirs(directory)
# 写入内容到文件
with open(filename, 'w', encoding='utf-8') as f:
f.write(html_content)
def compose_url(base_url, params):
# 组合URL,这里假设params是以某种形式如字典传递的
url = base_url + "?" + "&".join([f"{k}={v}" for k, v in params.items()])
return url
# 使用示例
base_url = "https://example.com/search?"
params = {"keyword": "python", "page": 1}
url = compose_url(base_url, params)
html_content = get_html(url)
save_to_file(html_content, "output.html")
阅读全文