数据挖掘关键术语一览:中英文对照

版权申诉
0 下载量 111 浏览量 更新于2024-06-28 收藏 103KB DOCX 举报
在数据挖掘领域,术语繁多且专业性强,掌握这些核心词汇对于理解并实践数据挖掘技术至关重要。以下是一些关键概念的详细解释: 1. R算法名称:R语言是一种流行的统计分析和图形展示工具,其中包含多种用于数据挖掘的算法,如决策树、随机森林等。R语言中的数据挖掘包如`caret`和`mlr`提供了丰富的机器学习模型。 2. Activation function激励函数:这是人工神经网络中的一种核心组件,用于引入非线性特性,帮助神经元对输入进行加权处理后产生输出。常见的激励函数有Sigmoid、ReLU、tanh等。 3. Adaptive classifier combination (ACC)自适应分类器组合:这是一种将多个分类器的结果综合起来提高预测准确性的方法,通过动态调整权重来优化整体性能。 4. Adaptive自适应:这个词通常用来描述系统能够根据环境变化自动调整其行为或参数的能力,例如自适应学习率或自适应阈值。 5. Additive可累加的:这种术语常用于描述特征工程中的某些操作,比如特征可以线性叠加,或者在模型中可以独立应用。 6. Affinity analysis亲和力分析:这是一种聚类方法,用于测量数据对象之间的相似度或关联程度,有助于发现数据内在结构。 7. Affinity亲和力:类似于affinity analysis,指两个数据对象之间的相似度或吸引力。 8. Agglomerative clustering凝聚聚类:一种无监督学习方法,从每个样本开始,逐步合并最相似的样本组,直到形成一个大的簇。 9. Aggregate proximity relationship整体接近关系:在数据挖掘中,表示一组对象在多个属性上的相似性综合评价。 10. Aggregate proximity整体接近:类似概念,强调数据对象的整体相似度而非单一属性。 11. Aggregation hierarchy聚合层次:在数据组织和可视化中,指按照数据相似度或关联度构建的层级结构。 12. AGNES算法名称:Another Grouping Method for the Estimated Nearest Neighbors,另一种用于数据聚类的算法,与凝聚聚类方法类似。 13. AIRMA集成的自回归移动平均:一种时间序列分析模型,结合了自回归(AR)和移动平均(MA)成分,用于预测具有趋势和周期性的数据。 14. Algorithm算法:泛指解决问题或执行特定任务的一系列步骤,数据挖掘中的算法包括决策树、K-means、随机森林等。 15. Alleles等位基因:遗传学中的基本单位,同一基因的不同形式,可能影响生物体的表型。 16. Alternative hypothesis备择假设:在统计推断中,除了原假设之外的另一个假设,用于判断原假设是否成立。 17. Approximation近似:在解决复杂问题时,使用简化或简化模型来得到接近实际答案的解决方案。 18. Apriori算法名称:一种著名的频繁模式挖掘算法,用于发现购物篮分析中的关联规则。 19. AprioriAll算法名称:Apriori算法的扩展版本,考虑了所有可能的项集大小,以提高规则发现的效率。 20. Apriori-Gen算法名称:Apriori算法的一个变种,用于生成频繁模式的候选集。 21. ARGen算法名称:可能是指ARGen算法,但具体含义未明,可能是某种特定的生成算法或规则生成算法。 22. ARMA自回归移动平均:时间序列分析中的模型,用于预测线性趋势和周期性变化。 23. Artificial intelligence (AI)人工智能:计算机科学分支,研究如何使机器具有智能,实现自主学习、推理和决策。 24. Artificial neural networks (ANN)人工神经网络:模仿人脑神经元工作的计算模型,广泛应用于各种机器学习任务。 25. Association rule problem关联规则问题:在市场篮子分析中寻找项目间的关联性,如"如果购买牛奶,那么很可能也会买面包"。 26. Association rule/Association rules关联规则:表示在数据集中频繁出现的事件之间的关系。 27. Association关联:指两个或多个变量之间的联系或相关性。 28. Attribute-oriented induction面向属性的归纳:一种归纳学习方法,专注于根据属性来生成模型。 29. Authoritative权威的:在信息检索或数据挖掘中,表示某个节点在知识图谱中拥有高可信度或影响力。 30. Authority权威:在知识表示或信息检索中,指信息源的质量和可靠性。 31. Autocorrelation coefficient自相关系数:衡量一个时间序列与其自身延迟值的相关程度。 32. Autocorrelation自相关:反映数据点与其前后顺序的相似性。 33. Autoregression自回归:预测一个变量的当前值依赖于其过去值的时间序列模型。 34. Auto-regressive integrated moving average (ARIMA)集成的自回归移动平均:更复杂的自回归模型,考虑了数据的平稳性和季节性。 35. Averagelink平均连接:在图论中,表示通过平均路径连接两个节点的边。 36. Average平均:描述一组数值的中心趋势,如均值。 37. Backlink后向链接:搜索引擎优化中,从其他网页指向目标网页的链接,反映网页间的链接关系。 38. Back-percolation回滤:在图像处理或网络分析中,描述从源节点逆向传播的过程。 39. Backpropagation反向传播:训练神经网络时,调整权重以最小化损失函数的梯度下降法。 40. Backward crawling后向爬行:搜索引擎抓取网页时,从已知页面开始,逆着链接链路的过程。 41. Backward traversal后向访问:遍历数据结构时,从尾部开始逐层访问节点。 42. BANG算法名称:Batch gradient descent批量梯度下降,一种优化算法,通过小批量数据更新模型参数。 43. Batch批量的:描述使用批量数据进行处理,与在线学习相对,批量梯度下降就是典型的批量处理方法。 44. Bayes Rule贝叶斯规则:基于贝叶斯定理,用于计算在给定证据下事件发生的概率。 45. Bayes Theorem贝叶斯定理:描述在先验知识和新证据下更新信念的概率法则。 46. Bayes贝叶斯:以英国统计学家托马斯·贝叶斯命名的统计学原理,广泛用于机器学习和数据挖掘中的概率推断。 47. Bayesian classification贝叶斯分类:利用贝叶斯定理进行分类,通过计算后验概率来做出预测。 以上词汇涵盖了数据挖掘和相关领域的基础概念,理解和掌握这些术语将有助于深入理解数据挖掘技术的应用和原理。