补全t0 = time() estimator = make_pipeline().fit(data) ##增加pca预处理 fit_time = time() - t0 print("训练时间：", fit_time)

# 这里是一个补全的例子，仅供参考，请根据实际情况进行修改 t0 = time() estimator = make_pipeline(PCA(), RandomForestClassifier()) # 使用PCA预处理和随机森林分类器 estimator.fit(data) fit_time = time() - t0 print("训练时间：", fit_time)

import numpy as np import matplotlib.pyplot as plt %matplotlib inline from sklearn.datasets import load_digits data, labels = load_digits(return_X_y=True) (n_samples, n_features), n_digits = data.shape, np.unique(labels).size print(f"# 类别数: {n_digits}; # 样本数: {n_samples}; # 特征数： {n_features}") print(data[:2]) from time import time from sklearn.pipeline import make_pipeline from sklearn.preprocessing import StandardScaler from sklearn.cluster import KMeans kmeans=KMeans(n_clusters=10, random_state=42) ### 创建管道并训练，记录训练时间 t0 = time() estimator = make_pipeline(StandardScaler(), kmeans).fit(data) fit_time = time() - t0 print("训练时间：", fit_time) ### 通过惯性(inertia)聚类的性能 print(estimator) print(estimator[-1].inertia_) result1={"fit-time":fit_time,"inertia:":estimator[-1].inertia_ } from sklearn.decomposition import PCA ### ？？编程使用PCA分解，得到10个主成分，放到变量 components 中--------------------------- pca = PCA(n_components=10) components = pca.fit_transform(data) ###------------------------------------------------------------------------- ### 创建KMeas对象 kmeans=KMeans(n_clusters=10, init="k-means++", random_state=42) ### 创建管道并训练，记录训练时间 t0 = time() estimator = make_pipeline(StandardScaler(), kmeans).fit(data) fit_time = time() - t0 print("训练时间：", fit_time) ### 通过惯性(inertia)聚类的性能 print(estimator) print(estimator[-1].inertia_) result2={"fit-time":fit_time,"inertia:":estimator[-1].inertia_ } from sklearn.decomposition import PCA ### ??编程选择保持 98%的信息的PCA模型，用名为pca的变量表示 ---------- pca = PCA(n_components=0.98) ###------------------------------------------------------------------- ###创建KMeas对象 kmeans=KMeans(n_clusters=10, random_state=42) ###??编程创建一个标准化+PCA降维+KMeas聚类的管道并训练，记录训练时间 t0 = time() estimator = make_pipeline(StandardScaler(), pca, kmeans).fit(data) ##增加pca预处理 fit_time = time() - t0 print("训练时间：", fit_time) ### 通过惯性(inertia)聚类的性能 print(estimator) print(estimator[-1].inertia_) result3={"fit-time":fit_time,"inertia:":estimator[-1].inertia_ }可以选择不同的KMeans的参数对digits进行聚类，比较实验结果，并选择一个针对此问题的最好模型

这份代码是用数字数据集（load_digits）进行 KMeans 聚类和 PCA 降维后再聚类的实验，可以通过调整 KMeans 的参数来比较不同实验结果，最终选择最好的模型。第一部分是载入数据集并展示基本信息： ```python import numpy as np import matplotlib.pyplot as plt %matplotlib inline from sklearn.datasets import load_digits data, labels = load_digits(return_X_y=True) (n_samples, n_features), n_digits = data.shape, np.unique(labels).size print(f"# 类别数: {n_digits}; # 样本数: {n_samples}; # 特征数： {n_features}") print(data[:2]) ``` 第二部分是使用 KMeans 进行聚类，并计算惯性(inertia)： ```python from time import time from sklearn.pipeline import make_pipeline from sklearn.preprocessing import StandardScaler from sklearn.cluster import KMeans kmeans=KMeans(n_clusters=10, random_state=42) ### 创建管道并训练，记录训练时间 t0 = time() estimator = make_pipeline(StandardScaler(), kmeans).fit(data) fit_time = time() - t0 print("训练时间：", fit_time) ### 通过惯性(inertia)聚类的性能 print(estimator) print(estimator[-1].inertia_) result1={"fit-time":fit_time,"inertia:":estimator[-1].inertia_} ``` 第三部分是使用 PCA 进行降维，并使用 KMeans 进行聚类： ```python from sklearn.decomposition import PCA ### 编程使用PCA分解，得到10个主成分，放到变量 components 中 pca = PCA(n_components=10) components = pca.fit_transform(data) ### 创建KMeas对象 kmeans=KMeans(n_clusters=10, init="k-means++", random_state=42) ### 创建管道并训练，记录训练时间 t0 = time() estimator = make_pipeline(StandardScaler(), kmeans).fit(data) fit_time = time() - t0 print("训练时间：", fit_time) ### 通过惯性(inertia)聚类的性能 print(estimator) print(estimator[-1].inertia_) result2={"fit-time":fit_time,"inertia:":estimator[-1].inertia_} ``` 第四部分是选择保持 98% 信息的 PCA 模型，并使用 KMeans 进行聚类： ```python from sklearn.decomposition import PCA ### 编程选择保持 98%的信息的PCA模型，用名为pca的变量表示 pca = PCA(n_components=0.98) ### 创建KMeas对象 kmeans=KMeans(n_clusters=10, random_state=42) ### 编程创建一个标准化+PCA降维+KMeas聚类的管道并训练，记录训练时间 t0 = time() estimator = make_pipeline(StandardScaler(), pca, kmeans).fit(data) fit_time = time() - t0 print("训练时间：", fit_time) ### 通过惯性(inertia)聚类的性能 print(estimator) print(estimator[-1].inertia_) result3={"fit-time":fit_time,"inertia:":estimator[-1].inertia_} ``` 最后，可以通过比较不同实验结果，选择最好的模型。

阅读全文

补全t0 = time() estimator = make_pipeline().fit(data) ##增加pca预处理 fit_time = time() - t0 print("训练时间：", fit_time)

相关推荐

React阅读时间估算器：高效预估文章所需阅读时长

TensorFlow 2.1.0版tf.data教程：探索新特性

TensorFlow数据处理：tf.data API快速教程

PX4 local_position_estimator: 卡尔曼滤波与位置预测修正详解

姿态估计：attitude_estimator_q与四元数方法详解

RuoYi-Vue 全新 Pro 版本，优化重构所有功能

(源码)基于Spring Boot和MyBatis的订餐管理系统.zip

Untitled Page.pdf

CocosCreator开发视频教程含源码简易塔防开发3.61G

(源码)基于Java的票务管理系统.zip

数据库开发学习教程（从基础到进阶逐步掌握数据库的设计、开发和优化技巧）

(源码)基于MCU和C语言的数字时钟系统.zip

基于springboot推荐算法的在线课程推荐系统源码数据库文档.zip

华为手机助手14.0.0.320

基于springboot+web的医疗设备管理系统源码数据库文档.zip

基于springboot大学生校园线上招聘系统源码数据库文档.zip

基于springboot校外兼职教师考勤管理系统源码数据库文档.zip

基于springboot竞赛管理系统源码数据库文档.zip

基于springboot的考研资讯系统源码数据库文档.zip

最新推荐

RuoYi-Vue 全新 Pro 版本，优化重构所有功能

(源码)基于Spring Boot和MyBatis的订餐管理系统.zip

深入浅出：自定义 Grunt 任务的实践指南

管理建模和仿真的文件

数据可视化在缺失数据识别中的作用

ABB机器人在自动化生产线中是如何进行路径规划和任务执行的？请结合实际应用案例分析。

网络物理突变工具的多点路径规划实现与分析

"互动学习：行动中的多样性与论文攻读经历"

自动化缺失值处理脚本编写

SQLite在非易失性内存环境下如何进行事务处理和缓冲区管理的优化？