京东春招商业分析笔试:数据分析与模型评估

版权申诉
5星 · 超过95%的资源 1 下载量 71 浏览量 更新于2024-07-18 收藏 328KB PDF 举报
"这份资料是2019届京东春季招聘商业分析的笔试题目,包含了数据分析类型、数据挖掘流程、回归模型预测、假设检验、聚类分析以及回归分析的前提假设等多个知识点,旨在测试应聘者的商业分析能力和统计学基础。" 在商业分析中,数据分析类型分为不同的类别: 1. 描述型分析:主要任务是从自然语言中提取出有意义的信息,对现状进行描述和总结。 2. 预测型分析:通过分析历史数据,预测未来的趋势和结果。 3. 指导型分析:基于数据和洞察提出策略建议,帮助企业决策。 4. 诊断型分析:目的是找出问题的原因,解释现象发生的背后逻辑。 CRISP-DM是一种广泛采用的数据挖掘标准流程,它包括以下几个阶段: 1. 商业理解:理解业务目标和背景。 2. 数据理解:了解数据集的内容和质量。 3. 数据准备:清洗和预处理数据,使其适合分析。 4. 建模:选择合适的模型并进行训练。 5. 评估:验证模型的效果和准确性。 6. 部署:将模型应用于实际业务。 回归模型预测中,R平方(R²)和P值是重要的评估指标: - R²表示模型拟合优度,值越大,表明模型解释变量变化的能力越强。 - P值用来衡量模型显著性的概率,P值越小,说明模型中的关系越显著,一般认为P值小于0.05的关联是有统计意义的。 假设检验是统计学中的核心概念,其中: - I类错误(α错误)指的是拒绝实际上为真的零假设(H0),即“以假为真”,其概率通常设定为α。 - II类错误(β错误)是指接受实际上为假的零假设,即“以真为假”,其概率通常用β表示,且α和β通常是互补关系,即α增大时,β会减小。 聚类分析是一种无监督学习方法,常用于发现数据的内在结构: - 常见的聚类算法有层次聚类(包括凝聚和分裂两种)、K-均值聚类以及DBSCAN等。 - 聚类度量用于评估两个对象的相似性,如SAD、SSD、MAE、MSE和距离度量(欧几里得距离、曼哈顿距离等)。 - 层次聚类的一个挑战是需要预先确定类别的数量,否则可能影响结果的准确性。 回归分析在进行时有一些基本假设: - 因变量同方差性:即每个观测值的误差项具有相同的方差。 - 自变量非随机:通常假设自变量是确定的或固定的,而非随机的。 - 线性关系:因变量和自变量之间的关系应该近似线性。 - 残差正态分布:模型的残差应服从正态分布。 表格中的数据可能来自回归分析的结果,展示的是系数(Coefficients)、未标准化系数(Unstandardized Coefficients)、标准化系数(Standardized Coefficients)以及t统计量和显著性水平(Sig.)。这些信息用于评估模型中各个自变量对因变量的影响程度和显著性。例如,如果Sig.值小于0.05,那么对应的自变量对因变量的影响就是显著的。