python html多个table转到excel或csv文件中,并将单元格按最宽文本调整宽度
时间: 2024-03-03 21:49:08 浏览: 23
您可以使用Python的pandas库来将HTML中的多个表格转换为Excel或CSV文件,并自动调整单元格的宽度以适应最宽的文本。下面是一个示例代码:
```python
import pandas as pd
# 从HTML文件中读取表格数据
tables = pd.read_html('example.html')
# 将每个表格写入单独的工作表
writer = pd.ExcelWriter('output.xlsx', engine='xlsxwriter')
for i, table in enumerate(tables):
table.to_excel(writer, sheet_name=f'Table {i+1}')
# 自动调整单元格宽度以适应最宽的文本
worksheet = writer.sheets[f'Table {i+1}']
for j, width in enumerate(table.applymap(len).max().values):
worksheet.set_column(j, j, width+1)
writer.save()
```
这段代码将HTML文件中的所有表格读取到一个列表中,然后使用pandas的to_excel方法将它们写入单独的工作表。在写入每个工作表之后,使用xlsxwriter库自动调整每个列的宽度以适应最宽的文本。最后将结果保存为Excel文件。您也可以将输出文件格式更改为CSV,只需更改engine参数即可。
相关问题
python html多个table转到excel或csv文件中,并将单元格按单元格内容最大调整宽度,若单元格内容为float型,转换成字符串后计算长度
可以使用Python中的`pandas`库来将多个HTML表格转换为Excel或CSV文件,同时使用`openpyxl`和`xlsxwriter`库来设置Excel文件中的列宽。
以下是一个示例代码,可以实现将多个HTML表格转换为一个Excel文件,并根据最大单元格内容长度自动设置Excel文件中的列宽:
```python
import pandas as pd
from openpyxl.utils import get_column_letter
from openpyxl import Workbook
import xlsxwriter
# 读取HTML文件中的所有表格
tables = pd.read_html('input.html')
# 创建Excel文件
workbook = Workbook()
writer = pd.ExcelWriter('output.xlsx', engine='xlsxwriter')
# 遍历表格并写入到Excel文件中
for i, table in enumerate(tables):
# 将表格写入到Excel文件的对应Sheet中
table.to_excel(writer, sheet_name=f'Sheet{i+1}', index=False)
# 设置Excel文件中的列宽
worksheet = writer.sheets[f'Sheet{i+1}']
for j, width in enumerate(table.applymap(lambda x: len(str(x)) if isinstance(x, float) else len(x)).max().values):
worksheet.set_column(j, j, max(width+1, len(get_column_letter(j+1))))
# 保存Excel文件
writer.save()
```
这个代码片段首先使用`pandas`库的`read_html`函数从HTML文件中读取所有表格,并将它们保存在一个列表中。然后,它使用`openpyxl`库创建一个新的Excel文件,并使用`pandas`库的`to_excel`函数将每个表格写入Excel文件中的不同Sheet中。
接下来,它使用`xlsxwriter`库设置Excel文件中的列宽。对于每个表格,它首先使用`applymap`函数将每个单元格中的内容转换为字符串,并计算出该列中最大的字符串长度(如果单元格内容为float型,则先将其转换成字符串再计算长度)。然后,它使用`set_column`方法将列宽设置为该长度加上1,为了保证单元格内容完全显示。如果列宽小于列名的长度,则将列宽设置为列名的长度。
最后,它使用`writer.save()`函数将Excel文件保存到磁盘中。
如何在python中把doc文档中的表格数据写入到csv文件,同时输出csv文件
要将Word文档中的表格数据写入到CSV文件中,并输出CSV文件,可以使用Python的`python-docx`和`csv`模块。
首先,需要安装`python-docx`模块。可以使用以下命令来安装:
```
pip install python-docx
```
然后,可以使用以下代码将Word文档中的表格数据写入到CSV文件中并输出:
```python
import csv
import docx
document = docx.Document('document.docx') # 打开要读取的Word文档
with open('table.csv', 'w', newline='', encoding='utf-8') as csvfile: # 创建CSV文件
writer = csv.writer(csvfile)
for table in document.tables: # 遍历文档中的所有表格
for row in table.rows: # 遍历表格中的所有行
writer.writerow([cell.text for cell in row.cells]) # 将行中每个单元格的文本写入到CSV文件中
# 输出CSV文件内容
with open('table.csv', 'r', encoding='utf-8') as f:
print(f.read())
```
上述代码会读取名为`document.docx`的Word文档中的所有表格,并将表格数据写入到名为`table.csv`的CSV文件中。在写入每一行的数据时,会使用列表推导式将每个单元格的文本写入到CSV文件中。
然后,使用`with open('table.csv', 'r', encoding='utf-8') as f:`来读取CSV文件,并使用`print(f.read())`来输出CSV文件的内容。
注意,在写入CSV文件时,需要指定`newline=''`,否则会出现多余的空行。同时,需要指定`encoding='utf-8'`,以避免出现编码问题。