首页PY做EXCEL的数据清理

PY做EXCEL的数据清理

时间: 2024-03-14 16:46:39 浏览: 15

在 Python 中，可以使用 pandas 库来进行 Excel 数据的清理和处理。以下是一些常用的数据清理操作： 1. 去除重复数据使用 pandas 的 drop_duplicates() 方法可以去除 Excel 表格中的重复数据。例如，下面的代码可以去除名为 data 的 DataFrame 中所有列的重复行： ``` import pandas as pd data.drop_duplicates(inplace=True) ``` 2. 删除空行或空列使用 pandas 的 dropna() 方法可以删除 Excel 表格中的空行或空列。例如，下面的代码可以删除名为 data 的 DataFrame 中的空行和空列： ``` import pandas as pd data.dropna(axis=0, how='all', inplace=True) # 删除空行 data.dropna(axis=1, how='all', inplace=True) # 删除空列 ``` axis 参数指定删除的方向，0 表示删除行，1 表示删除列；how 参数指定删除的条件，'all' 表示只要该行或该列全部为空，就删除。 3. 数据类型转换使用 pandas 的 astype() 方法可以将 Excel 表格中的数据类型进行转换。例如，下面的代码可以将名为 data 的 DataFrame 中的字符串类型列转换为整数类型： ``` import pandas as pd data['列名'] = data['列名'].astype(int) ``` 4. 缺失值填充使用 pandas 的 fillna() 方法可以对 Excel 表格中的缺失值进行填充。例如，下面的代码可以将名为 data 的 DataFrame 中的缺失值填充为 0： ``` import pandas as pd data.fillna(0, inplace=True) ``` 5. 数据过滤使用 pandas 的 query() 方法可以对 Excel 表格中的数据进行过滤。例如，下面的代码可以筛选出名为 data 的 DataFrame 中“列名”等于 10 的行： ``` import pandas as pd data.query('列名 == 10') ``` 以上是一些常用的 Excel 数据清理操作，可以通过它们来对 Excel 表格进行清理和处理。