爬虫https://bgpc.bcactc.com/news/nid/8578网站内标题、发布时间、采购编号、需求公示内容、文件获取时间及办法、回复意见方式、联系方式等,怎么写代码
时间: 2024-01-07 13:03:24 浏览: 87
以下是一个使用 Python 爬取 https://bgpc.bcactc.com/news/nid/8578 网站内需求公告信息的示例代码,你可以根据实际需求进行修改和扩展:
```python
import requests
from bs4 import BeautifulSoup
# 爬取页面 URL
url = 'https://bgpc.bcactc.com/news/nid/8578'
# 发送 HTTP 请求并获取页面内容
response = requests.get(url)
html = response.content
# 解析页面内容
soup = BeautifulSoup(html, 'html.parser')
title = soup.find('h2', {'class': 'title'}).text.strip() # 标题
time = soup.find('div', {'class': 'date'}).text.strip() # 发布时间
number = soup.find('td', text='采购编号:').find_next_sibling('td').text.strip() # 采购编号
content = soup.find('td', text='需求公示内容:').find_next_sibling('td').text.strip() # 需求公示内容
file_time = soup.find('td', text='文件获取时间及办法:').find_next_sibling('td').text.strip() # 文件获取时间及办法
reply_method = soup.find('td', text='回复意见方式:').find_next_sibling('td').text.strip() # 回复意见方式
contact = soup.find('td', text='联系方式:').find_next_sibling('td').text.strip() # 联系方式
# 输出信息
print('标题:', title)
print('发布时间:', time)
print('采购编号:', number)
print('需求公示内容:', content)
print('文件获取时间及办法:', file_time)
print('回复意见方式:', reply_method)
print('联系方式:', contact)
```
这段代码使用 requests 库发送 HTTP 请求并获取页面内容,使用 BeautifulSoup 库解析页面内容并提取所需信息,最后输出到控制台。你可以根据需要进行数据存储或其他操作。请注意,这段代码仅供参考,具体实现可能需要根据实际情况进行修改和完善。
阅读全文