首页python爬取網頁多個數據表，並以excel表形式存儲，附源碼

python爬取網頁多個數據表，並以excel表形式存儲，附源碼

时间: 2023-11-01 22:00:03 浏览: 66

以下是一个简单的Python爬虫示例，可以爬取一个网页中的多个数据表，并将其保存为Excel表格。首先，我们需要安装以下库： - requests：用于获取网页内容 - beautifulsoup4：用于解析HTML内容 - pandas：用于处理和保存数据安装命令如下： ``` pip install requests beautifulsoup4 pandas ``` 代码如下： ```python import requests from bs4 import BeautifulSoup import pandas as pd # 获取网页内容 url = 'https://www.example.com' response = requests.get(url) # 解析HTML内容 soup = BeautifulSoup(response.content, 'html.parser') # 查找所有数据表 tables = soup.find_all('table') # 将数据表转换为DataFrame dfs = [] for table in tables: df = pd.read_html(str(table))[0] dfs.append(df) # 将多个DataFrame合并为一个 result = pd.concat(dfs) # 保存为Excel表格 result.to_excel('data.xlsx', index=False) ``` 这段代码会首先获取网页内容，然后使用BeautifulSoup解析HTML内容，查找所有数据表，并将其转换为DataFrame。然后将多个DataFrame合并为一个，并保存为Excel表格。请注意，这只是一个简单的示例，实际网页可能会更复杂，需要根据具体情况进行调整。此外，还应该添加错误处理和异常处理等功能，以确保程序的稳定性和可靠性。

阅读全文