2.2.2. SimpleKMeans
聚类算法参数配置说明
英文名称 中文翻译 默认值 取值范围 参数说明
canopyMaxNumCanopiesToHoldI
nMemory
100 [1,+∞) 如果用 canopy 聚类方法进行初始化,这个参数就是在内存中保存
的最大的候选 canopies 数目。
canopyMinimumCanopyDensity 最低 canopy 密度 2.0 ? 在使用 canopy 初始化时,在修剪时的 canopy 最低密度。
canopyPeriodicPruningRate 修剪周期 10000 ? 如果用 canopy 初始化,参数为修剪低密度 canopies 周期。
canopyT1 Canopy 聚类 T1 半径 -1.25 (T2,+∞) canopy 聚类时 T1 半径,当小于 0 时,T1=(-values)*T2。
canopyT2 Canopy 聚类 T2 半径 -1 (-∞,T1) canopy 聚类时 T2 半径,当值为负数时,根据属性标准差求出。
debug 设置调试模式 False False 调试信息不输出
True 输出调试信息
displayStdDevs 显示标准差 False False 不显示数值属性的标准差,不统计标称属性每类的数目。
True 显示数值属性的标准差,或统计标称属性没类的数目。
distanceFunction 距离函数 EuclideanDistance EuclideanDistance 欧氏距离
Manhattan distance 马氏距离
doNotCheckCapabilities 不检查适用范围 False False 在聚类之前,检查聚类器的使用范围。
True 在聚类之前,不检查聚类器的使用范围。
dontReplaceMissingValues 不替换缺失值 False False 在全局范围内用平均值或中数替换缺失值
True 不替换
fastDistanceCalc 加速距离计算 False False 根据 cut-off 值加速距离计算
True 不加速距离计算
initializationMethod 初始化质心方法 Random Random 随机选取质心
k-means++ 先使用 k-means++聚类算法初始化质心
Canopy 先使用 Canopy 聚类算法初始化质心
farthest first 先使用 farthest firsty 聚类算法初始化质心
maxIterations 最大迭代次数 500 [1,+∞) 迭代过程中达到最大迭代次数结束本次聚类。
numClusters 簇数目 2 [2,N) 设定聚类个数,即最后被聚成几类。
numExecutionSlots 最大执行线程数目 1 [1,?] 设置成可用的 cpu 数目
preserveInstancesOrder 保持实例顺序 False False 保持实例顺序
True 不保持实例顺序
reduceNumberOfDistanceCalcsVi
aCanopies
减少计算距离数目 False False 在用 canopy 聚类初始化时,减少计算距离的数目。