从数据中分析白葡萄酒中总共分为几个品质(quality) (2)根据葡萄酒品质等级将数据集划分为不同子集,统计在每个品质子集的样本量, 并计算每个品质子集的volatile acidity, chlorides, density,sulphates的均值。 分析结果输出到一个文本文件 result2(学号).txt 中
时间: 2024-02-17 20:04:55 浏览: 146
假设数据集已经从文件中读取到一个名为`wine_data`的pandas DataFrame中。以下是实现上述需求的代码:
```python
import pandas as pd
# 读取数据集
wine_data = pd.read_csv('wine_data.csv', delimiter=';')
# 统计品质等级的数量并输出
quality_count = wine_data['quality'].nunique()
print(f"白葡萄酒中总共分为{quality_count}个品质")
# 根据品质等级将数据集划分为不同子集,并计算每个品质子集的指标均值
quality_groups = wine_data.groupby('quality')
result_df = pd.DataFrame(columns=['quality', 'count', 'volatile acidity', 'chlorides', 'density', 'sulphates'])
for quality, group in quality_groups:
count = len(group)
mean_volatile_acidity = group['volatile acidity'].mean()
mean_chlorides = group['chlorides'].mean()
mean_density = group['density'].mean()
mean_sulphates = group['sulphates'].mean()
result_df = result_df.append({'quality': quality, 'count': count, 'volatile acidity': mean_volatile_acidity,
'chlorides': mean_chlorides, 'density': mean_density, 'sulphates': mean_sulphates},
ignore_index=True)
# 将结果写入文件
result_df.to_csv('result2(学号).txt', index=False)
```
代码中,首先使用`pd.read_csv`函数读取数据集,然后使用`nunique()`函数统计品质等级的数量并输出。接着,使用`groupby()`函数根据品质等级将数据集划分为不同的子集,并使用`mean()`函数计算每个品质子集的指标均值。最后,将结果写入一个名为`result2(学号).txt`的文本文件中,其中`学号`应该替换为您的实际学号。
阅读全文