提取工程编号、工程名称、中标日期
时间: 2023-08-05 09:02:57 浏览: 51
好的,针对这个问题,我可以提供以下思路:
1. 在网页中找到包含工程信息的 HTML 元素;
2. 使用正则表达式或者 BeautifulSoup 库解析 HTML 内容,提取工程编号、工程名称、中标日期等信息;
3. 将提取的信息保存到本地文件或者数据库中。
具体实现步骤如下:
```python
import re
import requests
from bs4 import BeautifulSoup
url = "http://www.bcactc.cn/home/gcxx/index.aspx?gs&sg_gs"
# 发送 HTTP 请求获取网页内容
response = requests.get(url)
# 解析 HTML 内容
soup = BeautifulSoup(response.content, "html.parser")
# 找到包含工程信息的 HTML 元素
items = soup.find_all("div", class_="items")
# 使用正则表达式或者 BeautifulSoup 库解析 HTML 内容,提取工程编号、工程名称、中标日期等信息
for item in items:
title = item.find("h2").text.strip()
content = item.find("p").text.strip()
# 使用正则表达式提取工程编号、工程名称、中标日期等信息
pattern = r"工程编号:(\S+)\s+工程名称:(\S+)\s+中标日期:(\S+)"
match = re.search(pattern, content)
if match:
project_id = match.group(1) # 工程编号
project_name = match.group(2) # 工程名称
bid_date = match.group(3) # 中标日期
# 打印信息
print("工程编号:", project_id)
print("工程名称:", project_name)
print("中标日期:", bid_date)
print("=" * 50)
```
这段代码会输出 http://www.bcactc.cn/home/gcxx/index.aspx?gs&sg_gs 网页上所有工程的工程编号、工程名称、中标日期等信息。您可以根据需要修改代码,将提取的信息保存到本地文件或者数据库中。
希望这个思路能够帮到您!