python统计某字段非空的值
时间: 2023-07-04 07:27:43 浏览: 99
在 Python 中,您可以使用 Pandas 库来操作数据,统计某一列中非空值的数量。首先,您需要使用 Pandas 读取数据,并将其存储在 DataFrame 中。然后,您可以使用 `count()` 函数来计算非空值的数量。以下是一个示例代码:
```python
import pandas as pd
# 读取数据文件
df = pd.read_csv('data.csv')
# 统计某一列中非空值的数量
count = df['column_name'].count()
print(count)
```
其中,`data.csv` 是您要读取的文件名,`column_name` 是您要统计非空值的列名。这段代码会输出该列中非空值的数量。
相关问题
查看数据集情况 共28010 条,6个字段
要查看数据集情况,可以使用Python中的pandas库来读取数据并查看数据集的基本信息。以下是一个简单的Python代码示例:
```python
import pandas as pd
# 读取数据集,假设数据集文件名为dataset.csv,且数据集中的字段分别为field1、field2、field3、field4、field5、field6
data = pd.read_csv('dataset.csv')
# 查看数据集的前5行数据
print(data.head())
# 查看数据集的基本信息,包括每个字段的数据类型、非空数据数量等
print(data.info())
# 查看数据集的统计信息,包括每个字段的平均值、标准差、最小值、最大值等
print(data.describe())
```
以上代码中,我们首先使用pandas库的read_csv函数读取了数据集,接着使用head函数查看了数据集的前5行数据,使用info函数查看了数据集的基本信息,包括每个字段的数据类型、非空数据数量等,最后使用describe函数查看了数据集的统计信息,包括每个字段的平均值、标准差、最小值、最大值等。根据这些信息,我们可以初步了解数据集的情况,为后续的数据处理和分析做好准备。
将人均价格为空的记录设置为数据集中最常见的“人均价格”,并存储为cleaned_data_c2_N.csv,N 为修改的数据条数,注意数据中特殊符号(¥)的处理(结果文件中保存第一行字段数据
在数据分析或数据清洗过程中,如果你遇到有人均价格为空的情况,通常会采取填充法来处理缺失值。这里可以按照以下步骤操作:
1. 首先,你需要计算数据集中所有非空“人均价格”(假设列名为"Price_per_person")的众数,这通常是最常见的数值。你可以使用pandas库中的`mode()`函数来找到众数。
```python
import pandas as pd
# 加载原始数据
df = pd.read_csv('original_data.csv')
# 计算并获取人均价格的众数
common_price = df[df['Price_per_person'].notna()]['Price_per_person'].mode().values[0]
```
2. 然后,遍历整个数据集,检查每个记录的“人均价格”是否为空。如果为空,就将其替换为刚才计算出的众数:
```python
df['Price_per_person'] = df.apply(lambda row: common_price if pd.isna(row['Price_per_person']) else row['Price_per_person'], axis=1)
```
3. 最后,统计修改了多少条记录(N),并保存这个计数到新的数据集描述中:
```python
modified_count = df[df['Price_per_person'].isna()].shape[0]
N = modified_count
# 创建一个新的DataFrame来保存处理后的数据,并包含原字段名
cleaned_df = df[['字段1', '字段2', ..., 'Price_per_person']] # 根据实际数据表填写列名
# 存储为CSV文件
cleaned_df.to_csv('cleaned_data_c2_' + str(N) + '.csv', index=False)
# 如果有特殊符号如¥,需要转换成统一格式,比如删除或转英文字符'YEN'
cleaned_df['Price_per_person'] = cleaned_df['Price_per_person'].str.replace('¥', '')
```
阅读全文