爬取http://www.ccgp.gov.cn/cr/list网站的所有信息并写入csv文件中?
时间: 2023-08-14 15:08:56 浏览: 112
python爬取招聘网信息并保存为csv文件
好的,这是一个爬取网页信息的任务,可以使用 Python 的 requests 和 Beautiful Soup 库来实现。以下是一个基本的代码示例:
```python
import requests
from bs4 import BeautifulSoup
import csv
# 设置请求头
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
# 发送请求并获取网页内容
url = 'http://www.ccgp.gov.cn/cr/list'
response = requests.get(url, headers=headers)
html = response.content
# 解析网页内容
soup = BeautifulSoup(html, 'html.parser')
table = soup.find('tbody') # 找到表格
# 遍历表格并将数据写入 CSV 文件
with open('output.csv', 'w', newline='', encoding='utf-8-sig') as csvfile:
writer = csv.writer(csvfile)
writer.writerow(['标题', '采购人', '发布日期', '链接'])
for row in table.find_all('tr'):
cols = row.find_all('td')
if cols:
title = cols[0].text.strip()
purchaser = cols[1].text.strip()
date = cols[2].text.strip()
link = cols[0].find('a').get('href')
writer.writerow([title, purchaser, date, link])
```
这个示例代码中,首先设置了请求头,然后使用 requests 库发送 GET 请求并获取网页内容。接下来,使用 Beautiful Soup 库解析网页内容,找到表格并遍历表格中的每一行,将数据写入 CSV 文件。
需要注意的是,网站的数据可能会经常更新,所以这个代码示例可能只是一个基础的框架,需要根据实际情况进行调整和优化。同时,爬取网站信息可能会涉及到法律和隐私问题,应当遵守相关法律法规和伦理规范。
阅读全文