http://search.ccgp.gov.cn/bxsearch,帮我用python在这个网址写一个爬虫程序,要求爬取2016年1月1日年至2023年7月12日的信息化项目招标中标数据,其中限定采购人为中央企业,其他企业搜索结果过滤掉。将所爬取的每一条数据存入excel表格,并注明每一条数据的招标公告网址url
时间: 2024-04-12 12:33:55 浏览: 158
你可以使用 Python 中的 requests 和 BeautifulSoup 库来编写爬虫程序。以下是一个示例代码,可以帮助你开始爬取数据:
```python
import requests
from bs4 import BeautifulSoup
import pandas as pd
# 设置起始日期和结束日期
start_date = '2016-01-01'
end_date = '2023-07-12'
# 构造请求参数
params = {
'searchtype': 2,
'page_index': 1,
'bidSort': 0,
'buyerName': '中央企业',
'startDate': start_date,
'endDate': end_date,
}
url = 'http://search.ccgp.gov.cn/bxsearch'
data_list = []
# 循环获取每一页的数据
while True:
response = requests.get(url, params=params)
soup = BeautifulSoup(response.text, 'html.parser')
table = soup.find('div', class_='vT-srch-result')
rows = table.find_all('li')
for row in rows:
data = {}
data['标题'] = row.find('a').text.strip()
data['链接'] = row.find('a')['href']
data_list.append(data)
# 判断是否还有下一页
next_page = soup.find('a', text='下一页')
if next_page:
params['page_index'] += 1
else:
break
# 将数据存入 Excel 表格
df = pd.DataFrame(data_list)
df.to_excel('招标数据.xlsx', index=False)
```
请注意,爬取网站数据时需要遵守相关的法律法规和网站的使用条款。此代码仅供参考,请根据实际情况进行适当的修改和优化。
阅读全文