python爬取网页表格_python提取网页表格并保存为csv
时间: 2024-03-18 09:45:56 浏览: 252
要提取网页表格并保存为 CSV,可以使用 Python 中的 BeautifulSoup 和 pandas 库。
首先,使用 requests 库获取网页的 HTML 内容,然后使用 BeautifulSoup 库解析 HTML 内容,找到表格所在的标签。
接着,使用 pandas 库将表格转换为 DataFrame 格式,再将 DataFrame 保存为 CSV 文件。
下面是代码示例:
```python
import requests
from bs4 import BeautifulSoup
import pandas as pd
# 获取网页内容
url = 'https://www.example.com/table.html'
response = requests.get(url)
html = response.content
# 解析 HTML 内容
soup = BeautifulSoup(html, 'html.parser')
table = soup.find('table')
# 将表格转换为 DataFrame
df = pd.read_html(str(table))[0]
# 保存为 CSV 文件
df.to_csv('table.csv', index=False)
```
在上面的代码中,`url` 变量指定了要获取的网页地址,`requests` 库用来获取网页内容。`BeautifulSoup` 库用来解析 HTML 内容,找到表格所在的标签。`pd.read_html()` 方法将表格转换为 DataFrame,`to_csv()` 方法将 DataFrame 保存为 CSV 文件。
阅读全文