阿里数据分析师试题解析：异常值检测与聚类分析

需积分: 46 131 浏览量更新于2024-07-18 4 收藏 42KB DOCX 举报

"本文主要分析了阿里巴巴数据分析师笔试题中的两个关键知识点——异常值检测和聚类分析。异常值是指显著偏离样本其他观测值的数据点，可通过Grubbs’ test等统计方法检测。聚类分析是一种将数据集分成相似群组的统计技术，常见的聚类算法包括层次方法、划分方法、基于密度的方法、基于网格的方法和基于模型的方法，其中k-means算法被详细解释，该算法通过迭代优化聚类中心，直至达到平方误差的收敛状态。" 在数据处理和分析中，异常值的识别至关重要，因为它可能对统计结果产生显著影响。异常值通常被认为是远离数据集中其他值的观测点，可能是由于数据输入错误、测量误差或真实存在的极端情况。Grubbs’ test是一种常用的单变量异常值检测方法，适用于假设数据来自正态分布的情况。在检测过程中，它计算最大标准化残差，如果这个值超过了预定的阈值，那么对应的观测值可能被视为异常。聚类分析则是无监督学习的一种形式，目的是寻找数据内在的结构，将数据划分为不同的组，每组内部数据相似，组间数据差异大。聚类算法有多种，如层次聚类、k-means聚类、DBSCAN（基于密度的聚类）、DBSCAN（基于网格的聚类）以及谱聚类等。其中，k-means是最为流行且易于理解的一种。k-means算法的核心思想是通过迭代更新聚类中心来优化划分，直至聚类稳定或达到预设的迭代次数。其步骤包括： 1. 初始化：随机选择k个对象作为初始聚类中心。 2. 分配：计算每个对象与聚类中心的距离，将对象分配到最近的聚类。 3. 更新：重新计算每个聚类的中心，即该聚类所有对象的均值。 4. 重复：直到聚类中心不再显著变化，或者达到预设的迭代次数。 k-means算法的优势在于计算效率高，适用于大规模数据集，但缺点是需要预先指定聚类数量k，且对初始聚类中心的选择敏感，可能导致局部最优解。此外，k-means对离群值和非凸形状的聚类表现不佳。总结来说，阿里巴巴数据分析师笔试题考察了异常值检测和聚类分析这两个核心概念，这对于数据分析师来说是必备技能。理解和掌握这些方法有助于在实际工作中有效地处理和解析数据，从而为企业决策提供有力支持。

务？(A)

A. 根据内容检索 B. 建模描述

C. 预测建模 D. 寻找模式和规则

11.下面哪种不属于数据预处理的方法？ (D)

A 变量代换 B 离散化 C 聚集 D 估计遗漏值

12. 假设 12 个销售价格记录组已经排序如下：5, 10, 11, 13, 15,35, 50, 55, 72, 92, 204, 215 使

用如下每种方法将它们划分成四个箱。等频（等深）划分时，15 在第几个箱子内？ (B)

A 第一个 B 第二个 C 第三个 D 第四个

13.上题中，等宽划分时（宽度为 50），15 又在哪个箱子里？ (A)

A 第一个 B 第二个 C 第三个 D 第四个

14.下面哪个不属于数据的属性类型：(D)

A 标称 B 序数 C 区间 D 相异

15. 在上题中，属于定量的属性类型是：(C)

A 标称 B 序数 C 区间 D 相异

16. 只有非零值才重要的二元属性被称作：( C )

A 计数属性 B 离散属性 C 非对称的二元属性 D 对称属性

17. 以下哪种方法不属于特征选择的标准方法： (D)

A 嵌入 B 过滤 C 包装 D 抽样

18.下面不属于创建新属性的相关方法的是： (B)

A 特征提取 B 特征修改 C 映射数据到新的空间 D 特征构造

19. 考虑值集{1、2、3、4、5、90}，其截断均值（p=20%）是 (C)

A 2 B 3 C 3.5 D 5

20. 下面哪个属于映射数据到新的空间的方法？ (A)

A 傅立叶变换 B 特征加权 C 渐进抽样 D 维归约

21. 熵是为消除不确定性所需要获得的信息量，投掷均匀正六面体骰子的熵是： (B)

A 1 比特 B 2.6 比特 C 3.2 比特 D 3.8 比特

22. 假设属性 income 的最大最小值分别是 12000 元和 98000 元。利用最大最小规范化的方

法将属性的值映射到 0 至 1 的范围内。对属性 income 的 73600 元将被转化为：(D)

A 0.821 B 1.224 C 1.458 D 0.716

23. 假定用于分析的数据包含属性 age 。数据元组中 age 的值如下（按递增序）：

13，15，16，16，19，20，20，21，22，22，25，25，25，30，33，33，35，35，36，40

，45，46，52，70, 问题：使用按箱平均值平滑方法对上述数据进行平滑，箱的深度为 3。

第二个箱子值为：(A)

A 18.3 B 22.6 C 26.8 D 27.9

24. 考虑值集{12 24 332 4 55 68 26}，其四分位数极差是：(A)

A 31 B 24 C 55 D 3

25. 一所大学内的各年纪人数分别为：一年级 200 人，二年级 160 人，三年级 130 人，四年

级 110 人。则年级属性的众数是： (A)

A 一年级 B 二年级 C 三年级 D 四年级

26. 下列哪个不是专门用于可视化时间空间数据的技术： (B)

A 等高线图 B 饼图 C 曲面图 D 矢量场图

27. 在抽样方法中，当合适的样本容量很难确定时，可以使用的抽样方法是： (D)

A 有放回的简单随机抽样 B 无放回的简单随机抽样 C 分层抽样 D 渐进抽样

28. 数据仓库是随着时间变化的,下面的描述不正确的是 (C)

剩余15页未读，继续阅读

码动乾坤

粉丝: 58

阿里数据分析师试题解析：异常值检测与聚类分析

阿里云-天池数据分析竞赛：汽车产品聚类分析

数据分析师面试题目

数据分析师常用的十种数据分析思路

阿里巴巴 校园招聘往年部分岗位笔试试题.rar

2009年下半年电子商务设计师试题及答案.pdf

2017年上半年软件评测师试题以及答案详解pdf版.zip

阿里巴巴校园招聘笔试面试题淘宝校园招聘笔试试题27个文档资料合集.zip

助理电子商务运营管理师模拟试题.docx

2022年助理电子商务师理论模拟试题二题库.doc

02阿里产品经理笔试真题

最新资源

阿里巴巴校园招聘往年部分岗位笔试试题.rar