飞象工场数据刷题营：缺失值处理与估算技巧

需积分: 0 164 浏览量更新于2024-08-05 收藏 358KB PDF 举报

"飞象工场的七日数据刷题营提供了数据处理和机器学习的实战练习，包括处理缺失值的方法、估算问题的分析思路以及无监督学习算法的理解。" 在数据处理中，缺失值的处理是至关重要的一步，因为它直接影响到后续分析的准确性和可靠性。以下是三种常见的处理缺失值的方式： 1. **填补缺失值**：对于数值型变量（numerical value），可以使用平均值、中位数或众数进行填充。平均值适合于数据分布较为对称的情况，中位数则对异常值不敏感，而众数适用于类别集中度较高的定性变量（categorical value）。 2. **根据相关性填补**：如果缺失值与其他列存在相关性，可以通过这些相关列的信息来推测并填充缺失值。例如，地址和邮编的缺失可以通过同一地区的其他地址信息推断。 3. **删除策略**：当缺失值比例较大，且该变量对整体分析影响不大时，可以选择直接删除包含缺失值的列。如果缺失值比例较小（如不足5%），可以考虑删除含有缺失值的行，但需注意此操作可能会影响其他列的数据分布。在机器学习领域，学习方法分为监督学习和无监督学习： - **非无监督学习算法**：题目中提到的一个选项。无监督学习是指在没有标签数据的情况下，通过寻找数据中的模式、结构或聚类来进行学习。常见的无监督学习算法有K-means聚类、主成分分析（PCA）、自编码器（Autoencoder）等。 - **非监督学习算法**：题目中的另一个选项。监督学习则是在已知输入与输出对应关系（即有标签数据）的情况下进行学习，目的是建立一个模型，能够将新的输入映射到正确的输出。常见的监督学习算法包括线性回归、逻辑回归、决策树、随机森林、支持向量机（SVM）、神经网络等。估算问题，如估算北京市一日卖出的油条数量，是一种典型的“费米问题”，它要求我们运用逻辑推理和现有的粗略信息来做出估计。这个问题可以从供需两个角度进行分析，结合人口数量、消费习惯、店铺分布等因素进行估算。在实际解答中，不仅需要给出计算过程，还要考虑到可能影响结果的因素，以展示全面的分析思维。无监督学习的定义没有在描述中给出完整，但它是机器学习中的一种重要方法，主要用于数据探索和模式发现，如市场细分、异常检测或推荐系统等场景，不需要预先知道具体的结果或类别。常见的无监督学习任务包括聚类、降维和关联规则学习等。

飞象工场—7 日数据刷题营参考答案

[版权归飞象工场所有—不得外传使用]

1. 请列出三种处理缺失值的方式

（1）进行填补，平均值、中位数可以用来填补 numerical value（数字型变量）；众数可以

用来填补 categorical value（定性变量）；

（2）根据和缺失值相关的其他列，填补对应的值，例如地址和邮编，可以根据同一个区的地址

推断出邮编；

（3）当缺失值过大并且变量不那么关键时，可以直接删除那一列；当缺失值所占比例不足 5%

左右，去除所在行，但是需要注意其他列的信息

2. 估算北京市一日卖出的油条数量

首先，这类估算问题会经常出现在数据分析、产品、咨询类岗位，统称为费米问题。分析这

类问题可以分别从两个角度展开。根据情况，可以采用 Top-down，bottom-up 法则，即先从

宏观层面，自上而下推，再由某个点横向切入，反推上去。或者也可以从需求层面和供给层

面来说。然后可以对比两次推测得到的结果，如果相差不悬殊，那基本就没差啦。

然后在陈述的时候也可以需要说几句可能会出现误差的影响因素以及对结果的影响，会显得

思考更加全面。具体的答案不是要求必须正确，重要的的是分析思路

这类练习题不要方，多练练思路，多看看平时的新闻报道，掌握一些基本数据 sense 就行。

油条这道题适合从供给需求两个层面上来思考问题：

角度一（需求层面）：北京市一天卖出的油条=早饭吃油条的人数*每人吃的油条的数量

北京市约有人口 2000 万人，假设 20 人中有 1 人选择早饭吃油条，则有 2000÷20=100 万人。

每人每次吃 1 根油条。

因此，北京市一天卖出约 100*1=100 万根油条

角度二（供给层面）北京市一天卖出的油条=北京油条店的数目*每家店卖出的油条数目

北京市面积约 16410 平方千米，五环内面积约 735 万平方千米，若每 1 平方千米有 2 家油条

店，则有 735*2=1470 家；五环外有约 15700 平方千米，若每两平方千米有 1 家油条店，则

有 15700÷2=7850 家。由此，北京共有油条店约 9320 家。假设每家油条店每天卖出 100 根

油条。那么，北京市一天卖出 9320*100=93.2 万根油条

结果分析：根据两个角度的估算，北京市一天可以卖出的油条数量约在 100 万左右。仍有一

些因素可能导致误差，如五环内外油条店的分布密度尚待考证，可通过抽样调查使其更为精

准。

3. 以下不属于无监督学习的算法为

A. 线性回归

B. PCA

C. Kmeans、

D. Word2vec

解析：当然是选 A 啦。

简单理解，监督学习就是用已知变量推导输出变量的过程，已知变量和输出变量之间有关系，

比如典型监督模型线性回归，我们拿最简单的 Y=kx+b 来说，我们是知道很多自变量 X 的值来推

Y 值，这就是已知变量推导输出变量的意思，典型的监督学习模型还有回归、决策树、KNN、朴

素贝叶斯（分类属于有监督学习）。而无监督学习则是数据之间需要通过计算机“学习”来探

寻关系，聚类算法一般算是无监督学习，典型无监督学习有 k-means，PCA 等。

下载后可阅读完整内容，剩余3页未读，立即下载

家的要素

粉丝: 28
资源: 298

飞象工场数据刷题营：缺失值处理与估算技巧

飞象工场七日数据刷题营Day41

飞象工场七日数据刷题营Day21

200多套汇报总结PPT模板-最新出炉.zip

springboot图书管理系统（附源码+数据库）00296

保研申请材料清单excel

汇编语言ppt.zip

Kubernetes系统精讲 Go语言实战K8S集群可视化--第4章 【核心知识+原理分析】Pod参数详解.zip

熵平衡匹配法code和数据-最新出炉.zip

Practical_5.zip

全国与分省土壤矢量+土壤类型-最新出炉.zip

最新资源

Kubernetes系统精讲 Go语言实战K8S集群可视化--第4章【核心知识+原理分析】Pod参数详解.zip