jupyter 乳腺癌数据集数据降维
时间: 2023-12-31 17:24:32 浏览: 43
乳腺癌数据集可以使用降维方法来减少特征的数量,以便更好地理解和分析数据。下面是使用Jupyter Notebook进行乳腺癌数据集降维的示例代码:
```python
# 导入所需的库
import pandas as pd
from sklearn.decomposition import PCA
# 读取数据集
data = pd.read_csv('breast_cancer_dataset.csv')
# 提取特征和标签
X = data.iloc[:, 2:] # 选择除去ID和诊断结果之外的特征列作为输入
y = data['diagnosis'] # 诊断结果作为标签
# 创建PCA对象并进行降维
pca = PCA(n_components=2) # 设置降维后的维度为2
X_reduced = pca.fit_transform(X)
# 可视化降维后的数据
import matplotlib.pyplot as plt
plt.scatter(X_reduced[:, 0], X_reduced[:, 1], c=y, cmap='viridis')
plt.xlabel('Principal Component 1')
plt.ylabel('Principal Component 2')
plt.title('Breast Cancer Dataset - PCA')
plt.show()
```
这段代码首先导入了所需的库,然后读取了乳腺癌数据集。接下来,它提取了特征和标签,并创建了一个PCA对象,将数据降维到2维。最后,使用散点图可视化了降维后的数据,其中不同的诊断结果用不同的颜色表示。