python读取表格,特征列包含了数字和中文,如何删除中文
时间: 2024-03-21 16:40:43 浏览: 55
python opencv将表格图片按照表格框线分割和识别
可以使用Python的pandas库和正则表达式来删除特征列中的中文。
首先,需要使用pandas的read_excel()函数读取表格,例如:
``` python
import pandas as pd
df = pd.read_excel('your_file.xlsx')
```
然后,可以使用正则表达式来筛选出只包含数字的部分。可以使用pandas的str.extract()函数和正则表达式r'\d+'来提取数字。例如,假设要筛选的列为'特征列',可以这样做:
``` python
df['特征列'] = df['特征列'].str.extract(r'(\d+)', expand=False)
```
这里的r'\d+'表示匹配连续的数字。
最后,可以使用pandas的to_excel()函数将结果保存为新的Excel表格。例如:
``` python
df.to_excel('new_file.xlsx', index=False)
```
注意,index=False参数可以禁止保存行索引。
阅读全文