编写一个python程序爬取一个网站并将爬取的信息写入本地文件
时间: 2024-09-25 18:06:59 浏览: 26
在Python中编写一个简单的网络爬虫并将其信息保存到本地文件通常涉及使用requests库获取网页内容,然后使用BeautifulSoup或其他解析工具解析HTML,并使用file对象将数据写入文本文件。这里是一个基本的例子,假设我们要爬取一个网站的标题:
```python
# 导入所需库
import requests
from bs4 import BeautifulSoup
def fetch_page_and_save(url, filename):
# 发送GET请求
response = requests.get(url)
# 确保请求成功,状态码为200
if response.status_code == 200:
# 解析页面内容
soup = BeautifulSoup(response.text, 'html.parser')
# 获取网页标题(此处作为示例)
title = soup.title.string
# 创建或打开文件,追加模式下写入
with open(filename, 'a', encoding='utf-8') as f:
f.write(f"网址:{url}\n标题:{title}\n\n")
else:
print(f"无法访问 {url}, 响应状态码:{response.status_code}")
# 要爬取的URL和目标文件名
url_to_crawl = "https://www.example.com"
output_file = "web_data.txt"
# 执行爬取并保存
fetch_page_and_save(url_to_crawl, output_file)
阅读全文