Python如何爬取网站表格数据并存入Excel
时间: 2024-06-01 20:02:40 浏览: 299
Python基于pandas爬取网页表格数据
5星 · 资源好评率100%
Python可以使用第三方库BeautifulSoup和pandas来爬取网站表格数据并存入Excel。
首先,使用requests库获取网页的HTML文档,并使用BeautifulSoup库解析HTML文档,找到表格数据所在的HTML标签。
然后,使用pandas库的read_html函数将表格数据读取为DataFrame格式,并使用to_excel函数将DataFrame保存为Excel文件。
下面是一个示例代码:
```python
import requests
from bs4 import BeautifulSoup
import pandas as pd
# 获取网页HTML文档
url = 'http://example.com/table.html'
response = requests.get(url)
html = response.content
# 解析HTML文档
soup = BeautifulSoup(html, 'html.parser')
table = soup.find('table')
# 读取表格数据为DataFrame格式
df = pd.read_html(str(table))[0]
# 保存为Excel文件
df.to_excel('table.xlsx', index=False)
```
其中,`url`是要爬取的网页地址,`table`是包含表格数据的HTML标签,`df`是包含表格数据的DataFrame对象,`to_excel`函数中的`index=False`表示不保存行索引。
阅读全文