scikit-learn MiniBatchKMeans 聚类模型详解与参数设置

下载需积分: 0 | PDF格式 | 787KB | 更新于2024-08-05 | 18 浏览量 | 举报

聚类是数据分析中的一个重要步骤，主要用于发现数据中的结构和模式，将其分成若干个有意义的类别或群组。Scikit-learn是一个广泛使用的Python机器学习库，提供了丰富的聚类算法，其中MiniBatchKMeans是其中之一。这个模型专注于高效处理大规模数据集，适用于实时或在线学习场景。 MiniBatchKMeans模型在scikit-learn中遵循一些通用的方法和参数设置。首先，让我们来看看模型的一些关键方法： 1. `get_params([deep])`：这是一个用于获取模型参数的方法，如果参数deep设置为True，还可以递归地获取嵌套对象的参数。这对于了解模型内部配置非常有用。 2. `set_params(**params)`：此方法用于设置模型的参数，通过关键字参数传递需要修改的参数值。 3. `fit(X[, y, sample_weight])`：这是训练模型的核心方法，输入数据X是一个二维numpy数组，每行代表一个样本，每列代表一个特征。y是可选的样本标签，用于监督学习；sample_weight则是每个样本的权重，可以用来调整样本的重要性。 4. `predict(X, sample_weight)`：在模型训练后，这个方法用于预测新数据X中每个样本属于哪个簇。 5. `fit_predict(X[, y, sample_weight])`：结合了训练和预测，一次性完成聚类和标签分配。 6. `transform(X)`：将输入数据转换到聚类中心空间，这里的距离度量反映了样本与各个簇中心的关联程度。 7. `fit_transform(X[, y, sample_weight])`：提供了一步到位的训练和转换功能，适用于直接从原始数据得到聚类结果的需求。 8. 参数`n_jobs`：这是一个可选参数，指定了并行计算的进程数量，可以提高模型在多核处理器上的性能。如果为正整数，模型将会利用多个核心进行计算。在使用MiniBatchKMeans时，理解这些方法及其参数至关重要。它们帮助用户控制模型的行为，优化性能，并确保正确处理数据。例如，调整`n_jobs`可以根据硬件资源选择合适的并行性，而设置`sample_weight`则允许对某些数据点赋予更高的重要性。此外，对于大型数据集，`MiniBatchKMeans`的批量处理能力使其成为处理高维数据和大规模数据集的理想选择。在实际应用中，根据数据集的特性（如数据大小、维度、稀疏性等），可能需要尝试不同的参数组合和算法来优化聚类效果。同时，评估聚类质量也是必不可少的，可以使用轮廓系数、Calinski-Harabasz指数等指标来衡量不同模型的性能。通过理解和熟练运用MiniBatchKMeans这样的聚类模型，数据科学家可以更有效地揭示数据中的潜在结构，支持业务决策和洞察。

2022/4/27 5.cluster

huaxiaozhuan.com/工具/scikit-learn/chapters/5.cluster.html 3/11

'auto' ：自动选择算法。对于稀疏数据，使用 'full' ；对于密集数据，使用 'elkan'

。

属性：

cluster_centers_ ：一个形状为 [n_clusters,n_features] 的数组，给出分类簇的均值向量。

labels_ ：一个形状为 [n_samples,]

的数组，给出了每个样本所属的簇的标记。

inertia_ ：一个浮点数，聚类平方误差

。

n_iter_ ：一个整数，指定运行的迭代次数。

方法：

fit(X[,y ,sample_weight]) ：训练模型。

fit_predict(X[, y, sample_weight]) ：训练模型并执行聚类，返回每个样本所属的簇标记。

predict(X, sample_weight) ：返回每个样本所属的簇标记。

transform(X) ：将数据集

转换到 cluster center space

。

fit_transform(X[, y, sample_weight]) ：训练模型并执行聚类，将数据集

转换到 cluster

center space

。

score(X[, y, sample_weight]) ：一个浮点数，给出了聚类平方误差的相反数：

。

1.2 MiniBatchKMeans

MiniBatchKMeans 是

scikit-learn 提供的

批量 k 均值算法模型，其原型为：

batch_size ：一个整数，指定 batch

大小。

compute_labels ：一个布尔值，指定当算法收敛时，是否对全量数据集重新计算其完整的簇标记。

tol ：一个浮点数，指定收敛阈值。它可以用于早停。

当迭代前后聚类中心的变化小于它时，执行早停。如果为 0.0 ，则不开启这种早停。

max_no_improvement ：一个整数，用于控制早停的轮数。如果优化目标在连续

max_no_improvement

个

batch

内没有改善时，执行早停。

这里的优化目标不是聚类中心的变化，而是平方误差

。

init_size ：一个整数，为加速初始化而随机采样的样本数。通常是

倍的

batch_size

。

它必须大于

n_clusters

。

n_init ：一个整数，指定了初始化的尝试次数。

与 KMeans

不同， MiniBatchKMeans

只会运行一轮（而不是多轮）。

reassignment_ratio ：一个浮点数，控制每次迭代中最多有多少个簇中心被重新赋值。

如果该值较大，则模型可能收敛可能时间更长，但是聚类效果也会更好。

其他参数参考 sklearn.cluster.KMeans

。

属性：参考 sklearn.cluster.KMeans

。

方法：

partial_fit(X, y=None, sample_weight=None) ：训练 k means

一个批次。

class sklearn.cluster.MiniBatchKMeans(n_clusters=8, init='k-means++',max_iter=300,

batch_size=100, verbose=0, compute_labels=True,random_state=None,tol=0.0,

max_no_improvement=10, init_size=None, n_init=3, reassignment_ratio=0.01)

剩余10页未读，继续阅读

身份认证购VIP最低享 7 折!

30元优惠券

ali-12

粉丝: 34

scikit-learn MiniBatchKMeans 聚类模型详解与参数设置

11.聚类1

聚类算法全套教程+k均值+层次聚类+高斯混合模型+距离+聚类算法应用等

基于灰色聚类模型的实验成绩评定

详细介绍无监督学习的聚类模型从数据准备到开始训练的过程

nlp文本聚类的任务流程

帮我写一个预测文旅局数据的聚类算法

基于用户满意度的聚类方法

分类、回归、聚类等数据统计模型有哪些

matlab多维数据聚类分析

构建基于wine数据集的k-means聚类模型

最新资源