uci甲状腺疾病逻辑回归模型
时间: 2023-09-25 07:15:33 浏览: 87
UCI甲状腺疾病数据集包含了甲状腺疾病患者和正常人的一些生化指标,其中甲状腺疾病患者包括了甲亢、甲减和其他类别。我们可以使用逻辑回归模型对这个数据集进行分类。
首先,我们需要加载数据集并进行数据预处理。我们可以使用 pandas 库来读取数据集,然后对数据集进行缺失值处理和特征标准化。
```python
import pandas as pd
from sklearn.preprocessing import StandardScaler
# 读取数据集
df = pd.read_csv('thyroid.csv')
# 缺失值处理
df = df.drop(['TBG', 'TBG_measured'], axis=1)
df = df.dropna()
# 特征标准化
scaler = StandardScaler()
features = df.drop(['status'], axis=1)
features = scaler.fit_transform(features)
# 构建特征和标签
labels = df['status'].map({'hypothyroid': 1, 'negative': 0}).values
```
接下来,我们可以将数据集划分为训练集和测试集,并训练逻辑回归模型。
```python
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(features, labels, test_size=0.2, random_state=42)
# 训练逻辑回归模型
clf = LogisticRegression()
clf.fit(X_train, y_train)
# 在测试集上评估模型
score = clf.score(X_test, y_test)
print('Accuracy:', score)
```
最后,我们可以使用训练好的模型对新数据进行预测。
```python
# 对新数据进行预测
new_data = scaler.transform([[0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9]])
prediction = clf.predict(new_data)
print('Prediction:', prediction)
```
以上就是使用逻辑回归模型对UCI甲状腺疾病数据集进行分类的完整代码。
阅读全文