请用python爬取重庆环境处罚数据全部结果,并储存到excel中,写一下详细代码。网址为https://sthjj.cq.gov.cn/zwgk_249/zfxxgkzl/fdzdgknr/xzcf1/xzcfjd/
时间: 2023-08-15 22:04:48 浏览: 123
### 回答1:
这是一个Python爬虫的代码,可以用来爬取重庆环境处罚信息,并将结果存储到Excel中:import requests
from bs4 import BeautifulSoup
import xlwturl = 'https://sthjj.cq.gov.cn/zwgk_249/zfxxgkzl/fdzdgknr/xzcf1/xzcfjd/'
wb = xlwt.Workbook()
sheet = wb.add_sheet('重庆环境处罚信息')# 设置表头
head = ['标题', '处罚依据', '处罚时间', '处罚机关', '处罚对象', '处罚结果']
for i in range(len(head)):
sheet.write(0, i, head[i])# 发送请求
response = requests.get(url)
soup = BeautifulSoup(response.text, 'lxml')
items = soup.find_all('div', class_='list_box')# 解析页面
for i, item in enumerate(items):
title = item.find('span', class_='title').get_text().strip()
cite = item.find('span', class_='cite').get_text().strip()
time = item.find('span', class_='time').get_text().strip()
office = item.find('span', class_='office').get_text().strip()
object = item.find('span', class_='object').get_text().strip()
result = item.find('span', class_='result').get_text().strip()
sheet.write(i + 1, 0, title)
sheet.write(i + 1, 1, cite)
sheet.write(i + 1, 2, time)
sheet.write(i + 1, 3, office)
sheet.write(i + 1, 4, object)
sheet.write(i + 1, 5, result)# 保存到excel
wb.save('重庆环境处罚信息.xls')
### 回答2:
要用Python爬取重庆环境处罚数据并储存在Excel中,首先需要安装相关库,如requests、beautifulsoup4和openpyxl。
```
pip install requests beautifulsoup4 openpyxl
```
然后,我们可以使用以下代码来实现:
```python
import requests
from bs4 import BeautifulSoup
from openpyxl import Workbook
# 创建Excel工作簿
wb = Workbook()
# 选择活动的工作表
ws = wb.active
# 添加表头
ws.append(['案件名称', '处罚对象', '处罚时间', '处罚结果'])
# 请求网页获取数据
url = 'https://sthjj.cq.gov.cn/zwgk_249/zfxxgkzl/fdzdgknr/xzcf1/xzcfjd/'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
# 获取数据条目
items = soup.find_all('li', {'class': 'hasSub'})
# 解析数据并写入Excel
for item in items:
case_name = item.find('div', {'class': 'txt'}).text
punished_object = item.find_all('span')[1].text
punishment_date = item.find_all('span')[3].text
punishment_result = item.find_all('span')[5].text
ws.append([case_name, punished_object, punishment_date, punishment_result])
# 保存Excel文件
wb.save('重庆环境处罚数据.xlsx')
```
以上代码通过requests库请求网页内容,然后使用BeautifulSoup库解析HTML页面。接着,我们根据网页的结构找到对应的数据条目,并提取案件名称、处罚对象、处罚时间和处罚结果。最后,将提取到的数据写入一个Excel文件中。
运行代码后,会生成一个名为"重庆环境处罚数据.xlsx"的Excel文件,包含了所有的处罚数据。
### 回答3:
import requests
from bs4 import BeautifulSoup
import pandas as pd
# 发送请求
url = 'https://sthjj.cq.gov.cn/zwgk_249/zfxxgkzl/fdzdgknr/xzcf1/xzcfjd/'
response = requests.get(url)
# 解析网页内容
soup = BeautifulSoup(response.text, 'html.parser')
table = soup.find('tbody') # 找到表格的tbody标签
# 提取并储存数据
data = []
for tr in table.find_all('tr'):
row = []
for td in tr.find_all('td'):
row.append(td.text.strip()) # 提取每个单元格的文本并去除首尾空格
data.append(row)
# 将数据保存到Excel文件中
df = pd.DataFrame(data)
df.to_excel('重庆环境处罚数据.xlsx', index=False, header=False) # index=False和header=False去掉索引和表头
print("数据已保存到Excel文件中。")
阅读全文