统计学与数据挖掘知识点详解

需积分: 11 8 下载量 137 浏览量 更新于2024-08-30 收藏 30KB DOCX 举报
"该资源是帆软FCAA的2020年11月12日更新内容,包含了丰富的题目,适用于考试准备。主要涉及统计学、数据分析、数据挖掘、指标体系设计等多个IT领域的知识点。" 本文将详细解析文档中的关键知识点: 1. **统计学基础**: - **集中趋势**: 均值、中位数和众数是用来描述数据集中趋势的统计量。均值是所有数值相加除以数值个数,中位数是将数据排序后位于中间位置的数,众数是出现次数最多的数。 - **离散趋势**: 标准差、方差、变异系数、极差、四分位数极差等用于衡量数据的离散程度,而非集中趋势。 2. **统计学分类**: - **描述统计学**与**推断统计学**: 描述统计学关注数据集的总结和可视化,而推断统计学则是利用样本数据推测总体特性。 3. **数据分析过程**: - 数据挖掘不只是寻找算法模型,还包括数据清洗、特征选择、模型训练和评估等步骤。 - 面对临时数据需求,首先应理解需求,而非直接写SQL脚本。 - 数据挖掘项目在传统制造行业有广泛应用,如生产优化、故障预测等。 4. **数据指标**: - 每个数据指标需设定衡量标准,确保可度量和比较。 - 指标体系制定应遵循SMART原则(具体、可衡量、可达成、相关性、时限)。 - 结果优先原则是指指标选择应直接关联业务目标。 5. **商务需求处理**: - 商务需求描述的标准流程始于业务部门提出需求。 - 支持度(Support)是条件概率,表示A事件发生的条件下B事件发生的概率,公式为P(B|A)。 6. **数据处理流程**: - 处理临时需求不仅仅是提取数据,还包括需求分析、数据验证和反馈。 - 数据专家工作的最后一步通常是改进现有数据分析方法或结果解释。 7. **数据分析方法**: - 当变量间无明显线性关系时,可能表明两者不相关。 - 饼图适合展示部分占整体的比例,即成分关系。 - 主成分分析用于降维,将多个变量综合成少数几个综合指标。 - ARIMA模型是一种分析时间序列数据的工具,常用于预测。 8. **产品策略**: - 对于追求稳健战略的公司,B产品线可能更适合,具体选择需依据产品特性和市场定位。 9. **指标设计**: - 王老师的指标X反映了学生的文理科成绩平衡情况,负值表示科目间的差距。 10. **数据预处理**: - 数据预处理是数据分析的重要环节,包括数据集成、变换、维度规约和数值规约。 11. **数据挖掘任务**: - 预测建模是通过已有数据建立模型,用于预测未知变量。 以上是对文档内容的详细解析,涵盖了统计学、数据分析方法、数据挖掘项目管理以及商务需求处理等多个IT领域的关键概念和实践。这些知识点对于理解和应用数据分析技术至关重要。