pandas读取breast_cancer.csv文件,分析绘制哪一个特征对是否有癌症影响最大?不使用seaborn函数
时间: 2023-12-30 14:05:18 浏览: 61
pandas.read_csv参数详解(小结)
同样可以使用pandas库读取breast_cancer.csv文件,并将其转换为DataFrame格式:
```python
import pandas as pd
data = pd.read_csv('breast_cancer.csv')
df = pd.DataFrame(data)
```
接着,我们可以使用pandas库中的groupby函数,计算每个特征值对应的患癌症和不患癌症的数量,并计算两者比例:
```python
df_grouped = df.groupby(['diagnosis'])['radius_mean'].value_counts(normalize=True).rename('proportion').reset_index()
```
这里我们选择使用“radius_mean”特征作为例子,计算了特征与是否患癌症之间的比例关系。通过观察结果,我们可以发现,当“radius_mean”特征较大时,患癌症的比例也会随之增加。
因此,我们可以得出结论:在这个数据集中,“radius_mean”特征对是否有癌症的影响最大。
阅读全文