Weka算法参数详解：Apriori关联规则深度解析

版权申诉

文档资料

14 浏览量更新于2024-07-01 收藏 2.12MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

Weka算法参数整理文档详细介绍了Apriori算法在关联规则挖掘中的应用和参数配置。Apriori是一种经典的迭代式关联学习算法，用于从大量数据集中发现项集之间的频繁模式，并进一步推导出满足用户指定支持度和置信度阈值的关联规则。以下是关键参数及其含义： 1. **Apriori算法weka参数界面：** - **car (分类关联分析)**: 是否进行分类关联分析，默认为False，如果设置为True，则会返回针对分类属性的关联规则。 - **classIndex**: 分类属性的索引，可以是-1（表示最后一列）或用户自定义的列号。当car设为True时，这个参数有效。 2. **迭代参数：** - **delta**: 每次迭代中，最小支持度的上限减少值，范围在(0,1)之间。 - **lowerBoundMinSupport**: 最小支持度的下限，通常设置为0.1，但会随迭代进行动态调整。 - **upperBoundMinSupport**: 初始的最小支持度上限，会在delta的作用下逐渐降低。 3. **度量类型与最小度量值：** - **metricType**: 可选择confidence（置信度）、Lift（提升度）、Leverage（杠杆率）或Conviction（确信度），根据需要决定度量标准。 - **minMetric**: 根据所选metricType的不同，其取值范围各异，如confidence范围为(0,1)，Lift要求>1，Leverage要求>0，Conviction范围为(0,1)。 4. **规则生成参数：** - **numRules**: 指定要生成的关联规则数目，默认为10，可设置为任意正整数。 - **outputItemSets**: 决定是否输出频繁项集，False表示不输出，True表示输出。 5. **处理缺失数据：** - **removeAllMissingCols**: 如果设为True，将移除所有包含缺失值的列，以避免它们影响关联分析结果。理解这些参数对于优化Apriori算法在实际应用中的性能至关重要，能够帮助用户根据具体需求调整参数，从而得到更精确的关联规则和更高效的挖掘过程。在使用Weka进行关联规则分析时，合理配置这些参数能够显著影响最终发现的规则质量和计算效率。

资源详情

资源推荐

2.2.2. SimpleKMeans

聚类算法参数配置说明

英文名称中文翻译默认值取值范围参数说明

canopyMaxNumCanopiesToHoldI

nMemory

内存中最大 canopy 数目

100 [1,+∞) 如果用 canopy 聚类方法进行初始化，这个参数就是在内存中保存

的最大的候选 canopies 数目。

canopyMinimumCanopyDensity 最低 canopy 密度 2.0 ? 在使用 canopy 初始化时，在修剪时的 canopy 最低密度。

canopyPeriodicPruningRate 修剪周期 10000 ? 如果用 canopy 初始化，参数为修剪低密度 canopies 周期。

canopyT1 Canopy 聚类 T1 半径 -1.25 (T2,+∞) canopy 聚类时 T1 半径，当小于 0 时，T1=（-values）*T2。

canopyT2 Canopy 聚类 T2 半径 -1 (-∞,T1) canopy 聚类时 T2 半径，当值为负数时，根据属性标准差求出。

debug 设置调试模式 False False 调试信息不输出

True 输出调试信息

displayStdDevs 显示标准差 False False 不显示数值属性的标准差，不统计标称属性每类的数目。

True 显示数值属性的标准差，或统计标称属性没类的数目。

distanceFunction 距离函数 EuclideanDistance EuclideanDistance 欧氏距离

Manhattan distance 马氏距离

doNotCheckCapabilities 不检查适用范围 False False 在聚类之前，检查聚类器的使用范围。

True 在聚类之前，不检查聚类器的使用范围。

dontReplaceMissingValues 不替换缺失值 False False 在全局范围内用平均值或中数替换缺失值

True 不替换

fastDistanceCalc 加速距离计算 False False 根据 cut-off 值加速距离计算

True 不加速距离计算

initializationMethod 初始化质心方法 Random Random 随机选取质心

k-means++ 先使用 k-means++聚类算法初始化质心

Canopy 先使用 Canopy 聚类算法初始化质心

farthest first 先使用 farthest firsty 聚类算法初始化质心

maxIterations 最大迭代次数 500 [1,+∞) 迭代过程中达到最大迭代次数结束本次聚类。

numClusters 簇数目 2 [2,N) 设定聚类个数，即最后被聚成几类。

numExecutionSlots 最大执行线程数目 1 [1,?] 设置成可用的 cpu 数目

preserveInstancesOrder 保持实例顺序 False False 保持实例顺序

True 不保持实例顺序

reduceNumberOfDistanceCalcsVi

aCanopies

减少计算距离数目 False False 在用 canopy 聚类初始化时，减少计算距离的数目。

剩余30页未读，继续阅读

老帽爬新坡

粉丝: 92
资源: 2万+

Weka算法参数详解：Apriori关联规则深度解析

weka资料整理

Weka中算法说明

weka基础数据集

基于Apriori算法的Weka数据挖掘应用.pdf

WEKA中文详细教程.pdf

数据挖掘-WEKA实验报告一.pdf

数据挖掘工具WEKA及其应用研究.pdf

基于Weka平台的决策树J48算法实验研究.pdf

weka实验报告.pdf

weka中文教程.pdf

weka入门教材.pdf

机器学习工具WEKA的使用总结,包括算法选择、属性选择、参数优化.pdf

数据挖掘WEKA实验报告.pdf

机器学习十大算法：kNN.pdf

机器学习十大算法：Apriori.pdf

weka.jar libsvm.jar wlsvm.jar

Weka_ExplorerGuide-3.5.5.pdf

最新资源