将爬取的内容生成在文件中
时间: 2024-03-17 20:45:24 浏览: 14
好的,针对您的需求,可以将爬取的内容保存到文件中。具体实现步骤如下:
```python
import re
import requests
from bs4 import BeautifulSoup
url = "http://www.bcactc.cn/home/gcxx/index.aspx?gs&sg_gs"
# 发送 HTTP 请求获取网页内容
response = requests.get(url)
# 解析 HTML 内容
soup = BeautifulSoup(response.content, "html.parser")
# 找到包含工程信息的 HTML 元素
items = soup.find_all("div", class_="items")
# 使用正则表达式或者 BeautifulSoup 库解析 HTML 内容,提取工程编号、工程名称、中标日期等信息
result = []
for item in items:
title = item.find("h2").text.strip()
content = item.find("p").text.strip()
# 使用正则表达式提取工程编号、工程名称、中标日期等信息
pattern = r"工程编号:(\S+)\s+工程名称:(\S+)\s+中标日期:(\S+)"
match = re.search(pattern, content)
if match:
project_id = match.group(1) # 工程编号
project_name = match.group(2) # 工程名称
bid_date = match.group(3) # 中标日期
# 保存提取的信息
result.append({
"工程编号": project_id,
"工程名称": project_name,
"中标日期": bid_date
})
# 将结果保存到文件中
with open("result.txt", "w", encoding="utf-8") as f:
for r in result:
f.write("工程编号:" + r["工程编号"] + "\n")
f.write("工程名称:" + r["工程名称"] + "\n")
f.write("中标日期:" + r["中标日期"] + "\n")
f.write("=" * 50 + "\n")
```
这段代码会将提取的工程编号、工程名称、中标日期等信息保存到 result.txt 文件中。您可以根据需要修改代码,将结果保存到其他格式的文件中。
希望这个思路能够帮到您!