心脏病数据集python
时间: 2024-12-21 18:11:48 浏览: 8
心脏病数据集通常指的是用于机器学习和数据分析的医疗领域数据集,它包含关于心脏病患者的各种特征如年龄、性别、血压、胆固醇水平、家族病史等信息,以及对应的诊断结果。在Python中,你可以使用Pandas库来处理这类数据,比如读取CSV文件,清洗、整理数据,然后利用NumPy进行统计分析。
一个常用的心脏病数据集是UCI Machine Learning Repository中的`heart.csv`或`Heart Disease UCI`数据集。这个数据集中包含了270条记录,每个样本有14个属性(特征),包括一些连续变量和离散变量,并且有一个目标变量表示患者是否患有心脏疾病。
在Python中,你可以按照以下步骤操作:
```python
import pandas as pd
# 加载数据
data = pd.read_csv('heart.csv') # 假设路径是当前目录下
# 查看前几行数据
print(data.head())
# 数据预处理,例如缺失值填充、编码分类变量等
data = data.dropna() # 删除缺失值
data['categorical_column'] = data['categorical_column'].astype('category')
# 划分训练集和测试集
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(data.iloc[:,:-1], data.iloc[:,-1])
# 对于预测模型,可以使用sklearn库的线性回归、决策树、随机森林等算法
from sklearn.linear_model import LogisticRegression
model = LogisticRegression()
model.fit(X_train, y_train)
```
阅读全文