飞象工场数据刷题营:缺失值处理与估算技巧

需积分: 0 0 下载量 164 浏览量 更新于2024-08-05 收藏 358KB PDF 举报
"飞象工场的七日数据刷题营提供了数据处理和机器学习的实战练习,包括处理缺失值的方法、估算问题的分析思路以及无监督学习算法的理解。" 在数据处理中,缺失值的处理是至关重要的一步,因为它直接影响到后续分析的准确性和可靠性。以下是三种常见的处理缺失值的方式: 1. **填补缺失值**:对于数值型变量(numerical value),可以使用平均值、中位数或众数进行填充。平均值适合于数据分布较为对称的情况,中位数则对异常值不敏感,而众数适用于类别集中度较高的定性变量(categorical value)。 2. **根据相关性填补**:如果缺失值与其他列存在相关性,可以通过这些相关列的信息来推测并填充缺失值。例如,地址和邮编的缺失可以通过同一地区的其他地址信息推断。 3. **删除策略**:当缺失值比例较大,且该变量对整体分析影响不大时,可以选择直接删除包含缺失值的列。如果缺失值比例较小(如不足5%),可以考虑删除含有缺失值的行,但需注意此操作可能会影响其他列的数据分布。 在机器学习领域,学习方法分为监督学习和无监督学习: - **非无监督学习算法**:题目中提到的一个选项。无监督学习是指在没有标签数据的情况下,通过寻找数据中的模式、结构或聚类来进行学习。常见的无监督学习算法有K-means聚类、主成分分析(PCA)、自编码器(Autoencoder)等。 - **非监督学习算法**:题目中的另一个选项。监督学习则是在已知输入与输出对应关系(即有标签数据)的情况下进行学习,目的是建立一个模型,能够将新的输入映射到正确的输出。常见的监督学习算法包括线性回归、逻辑回归、决策树、随机森林、支持向量机(SVM)、神经网络等。 估算问题,如估算北京市一日卖出的油条数量,是一种典型的“费米问题”,它要求我们运用逻辑推理和现有的粗略信息来做出估计。这个问题可以从供需两个角度进行分析,结合人口数量、消费习惯、店铺分布等因素进行估算。在实际解答中,不仅需要给出计算过程,还要考虑到可能影响结果的因素,以展示全面的分析思维。 无监督学习的定义没有在描述中给出完整,但它是机器学习中的一种重要方法,主要用于数据探索和模式发现,如市场细分、异常检测或推荐系统等场景,不需要预先知道具体的结果或类别。常见的无监督学习任务包括聚类、降维和关联规则学习等。