应用dataframe爬取网站 https://szzdjc.cnemc.cn:8070/GJZ/Business/Publish/Main.html 上的全部数据
时间: 2023-12-16 21:04:39 浏览: 29
要爬取网站 https://szzdjc.cnemc.cn:8070/GJZ/Business/Publish/Main.html 上的全部数据,可以使用Python的requests和pandas库。
首先,我们需要用requests库从网站获取页面的HTML代码,然后使用pandas的read_html函数将网页中的表格转换为DataFrame。
以下是完整的代码:
```python
import requests
import pandas as pd
url = 'https://szzdjc.cnemc.cn:8070/GJZ/Business/Publish/Main.html'
response = requests.get(url)
html = response.content.decode('utf-8')
dfs = pd.read_html(html)
df = dfs[0] # 获取第一个表格
# 将数据写入csv文件
df.to_csv('data.csv', index=False)
```
在上面的代码中,我们使用requests库获取网站的HTML代码,并使用pandas的read_html函数将HTML代码中的表格转换为DataFrame。然后,我们将DataFrame写入csv文件。
这段代码只能获取第一个表格的数据。如果网站上有多个表格,可以使用for循环来获取所有的表格数据,如下所示:
```python
import requests
import pandas as pd
url = 'https://szzdjc.cnemc.cn:8070/GJZ/Business/Publish/Main.html'
response = requests.get(url)
html = response.content.decode('utf-8')
dfs = pd.read_html(html)
for i, df in enumerate(dfs):
df.to_csv(f'data_{i}.csv', index=False)
```
这段代码会将网站上所有的表格数据写入不同的csv文件中。