python html多个table转到excel或csv文件中
时间: 2024-03-02 20:48:44 浏览: 168
如果HTML文件中有多个表格,可以使用以下代码将所有表格转换为一个Excel或CSV文件中的不同工作表:
```python
import pandas as pd
# 读取HTML文件
tables = pd.read_html('example.html')
# 创建ExcelWriter对象
writer = pd.ExcelWriter('example.xlsx')
# 将每个表格数据写入Excel文件中的不同工作表
for i, table in enumerate(tables):
table.to_excel(writer, sheet_name=f'Sheet{i+1}', index=False)
# 保存Excel文件
writer.save()
```
如果要将数据写入CSV文件,只需要将最后一行改为:
```python
writer.save('example.csv', index=False)
```
这里使用了pandas库,如果你的系统中没有安装该库,需要先通过pip安装:
```
pip install pandas
```
相关问题
python html多个table转到excel或csv文件中,并将单元格按最宽文本调整宽度
您可以使用Python的pandas库来将HTML中的多个表格转换为Excel或CSV文件,并自动调整单元格的宽度以适应最宽的文本。下面是一个示例代码:
```python
import pandas as pd
# 从HTML文件中读取表格数据
tables = pd.read_html('example.html')
# 将每个表格写入单独的工作表
writer = pd.ExcelWriter('output.xlsx', engine='xlsxwriter')
for i, table in enumerate(tables):
table.to_excel(writer, sheet_name=f'Table {i+1}')
# 自动调整单元格宽度以适应最宽的文本
worksheet = writer.sheets[f'Table {i+1}']
for j, width in enumerate(table.applymap(len).max().values):
worksheet.set_column(j, j, width+1)
writer.save()
```
这段代码将HTML文件中的所有表格读取到一个列表中,然后使用pandas的to_excel方法将它们写入单独的工作表。在写入每个工作表之后,使用xlsxwriter库自动调整每个列的宽度以适应最宽的文本。最后将结果保存为Excel文件。您也可以将输出文件格式更改为CSV,只需更改engine参数即可。
python html多个table转到excel或csv文件中,并将单元格按单元格内容最大调整宽度,若单元格内容为float型,转换成字符串后计算长度
可以使用Python中的`pandas`库来将多个HTML表格转换为Excel或CSV文件,同时使用`openpyxl`和`xlsxwriter`库来设置Excel文件中的列宽。
以下是一个示例代码,可以实现将多个HTML表格转换为一个Excel文件,并根据最大单元格内容长度自动设置Excel文件中的列宽:
```python
import pandas as pd
from openpyxl.utils import get_column_letter
from openpyxl import Workbook
import xlsxwriter
# 读取HTML文件中的所有表格
tables = pd.read_html('input.html')
# 创建Excel文件
workbook = Workbook()
writer = pd.ExcelWriter('output.xlsx', engine='xlsxwriter')
# 遍历表格并写入到Excel文件中
for i, table in enumerate(tables):
# 将表格写入到Excel文件的对应Sheet中
table.to_excel(writer, sheet_name=f'Sheet{i+1}', index=False)
# 设置Excel文件中的列宽
worksheet = writer.sheets[f'Sheet{i+1}']
for j, width in enumerate(table.applymap(lambda x: len(str(x)) if isinstance(x, float) else len(x)).max().values):
worksheet.set_column(j, j, max(width+1, len(get_column_letter(j+1))))
# 保存Excel文件
writer.save()
```
这个代码片段首先使用`pandas`库的`read_html`函数从HTML文件中读取所有表格,并将它们保存在一个列表中。然后,它使用`openpyxl`库创建一个新的Excel文件,并使用`pandas`库的`to_excel`函数将每个表格写入Excel文件中的不同Sheet中。
接下来,它使用`xlsxwriter`库设置Excel文件中的列宽。对于每个表格,它首先使用`applymap`函数将每个单元格中的内容转换为字符串,并计算出该列中最大的字符串长度(如果单元格内容为float型,则先将其转换成字符串再计算长度)。然后,它使用`set_column`方法将列宽设置为该长度加上1,为了保证单元格内容完全显示。如果列宽小于列名的长度,则将列宽设置为列名的长度。
最后,它使用`writer.save()`函数将Excel文件保存到磁盘中。
阅读全文