LightGBM优缺点全面分析：透视LightGBM的局限与优势

发布时间: 2024-02-22 11:54:13 阅读量: 129 订阅数: 28

Python数据分析实践：透视表和重塑dataframenew.pdf

5星 · 资源好评率100%

2022/3/14 4.9 透视表和重塑dataframe In [ ]: import numpy as np import pandas as pd 在数据分析中，常常需要用到数据透视表和交叉表，下面介绍pandas.DataFrame.pivot_table数据透视表和pandas.DataFrame.crosstab交叉表的用法和区别。 4.9.1 数据透视表典型的数据格式是扁平的，只包含行和列，不方便总结信息。数据透视表(pivot table) 是一种类似GroupBy的操作方法，常见于Excel中。数据透视表将每一列数据作为输入，输出将数据不断细分为多个维度累计信息的二维数据表。数据透视表用来做数据透视，可以通过一个或多个键分组聚合DataFrame中的数据，通过aggfunc参数决定聚合类型，是groupby的高级功能。透视表就是将指定原有DataFrame的列分别作为行索引和列索引，然后对指定的列应用聚集函数(默认情况下式mean函数)。为什么要使用pivot_table？灵活性高，可以随意定制你的分析计算要求脉络清晰易于理解数据操作性强，报表神器在Python数据分析领域，`pandas`库提供了强大的数据处理能力，其中包括了数据透视表和交叉表的功能。数据透视表和交叉表是数据整理和分析的重要工具，尤其在处理大量扁平化数据时，能帮助我们快速提取关键信息并进行多维度的统计分析。 **数据透视表(pivot_table)** 数据透视表是一种高级的`groupby`操作，它允许用户通过一个或多个键对数据进行分组和聚合，以创建一个多维视角的数据摘要。在`pandas`中，`pivot_table`函数用于实现这一功能。它可以根据不同列的数据创建新的行和列索引，然后对特定列应用聚合函数，如平均值、总和、计数等，默认的聚合函数是平均值(`mean`)。 **pivot_table函数调用参数** - `data`: 需要进行透视操作的`DataFrame`对象。 - `values`: 指定需要进行聚合运算的列名，可以是单个列或列的列表。 - `index`: 作为新表格行索引的列名，同样可以是单个或列表形式。 - `columns`: 作为新表格列索引的列名，也是单个或列表形式。 - `aggfunc`: 指定的聚合函数，默认是`numpy.mean`，也可以是其他统计函数或多个函数的列表。 - `fill_value`: 用于填充缺失值的值。 - `margin`: 是否添加所有行/列的总计，默认为`False`。 - `dropna`: 是否忽略包含`NaN`的列，默认为`True`。 - `margins_name`: 当`margin=True`时，总计行/列的名称。 **示例应用** 1. **按性别统计不同籍贯的学号数目**： ```python pd.pivot_table(st, values='学号', index='性别', columns='籍贯', aggfunc=len) ``` 2. **按性别和籍贯统计学号数目**： ```python pd.pivot_table(st, values='学号', index=['性别', '籍贯'], aggfunc=len) ``` 3. **按性别统计不同籍贯的身高和体重最大值**： ```python pd.pivot_table(st, values=['身高', '体重'], index='性别', columns='籍贯', aggfunc=np.max) ``` 4. **按性别和籍贯统计体重和身高的最大最小值**： ```python pd.pivot_table(st, values=['身高', '体重'], index=['性别', '籍贯'], aggfunc=(np.max, np.min)) ``` 5. **按性别统计不同籍贯的年龄之和，并提供分项汇总统计**： ```python # 示例代码未给出，但可以通过添加aggfunc参数来实现，如 aggfunc={'年龄': 'sum'} ``` 使用`pivot_table`的优点在于其灵活性和强大的数据处理能力，可以根据需求定制分析，同时提供清晰的结构，方便理解和操作。对于复杂的数据分析任务，数据透视表能够有效地将原始数据转化为更便于理解的报表形式。

# 1. 介绍LightGBM ## 1.1 理解LightGBM LightGBM是一个由微软开发的开源机器学习框架，它采用基于梯度提升树（Gradient Boosting Decision Tree）的算法，通过优化训练过程，提高了模型的性能和效率。 ## 1.2 LightGBM的应用领域 LightGBM广泛应用于分类、回归、排序、推荐等任务，特别在大规模数据集和高维稀疏数据下表现优异。 ## 1.3 LightGBM的工作原理 LightGBM采用基于决策树学习的方法，通过不断迭代生成多棵树，并结合损失函数进行优化。其特点在于采用了Leaf-wise生长策略，同时通过Histogram思想减少了计算复杂度，提升了训练速度和性能。 # 2. LightGBM的优势 ### 2.1 高效性能在实际应用中，LightGBM通常表现出色的高效性能，这主要得益于以下几个方面： - **Leaf-Wise生长策略**：与其他基于树的算法使用level-wise生长不同，LightGBM使用leaf-wise生长策略，能够更快地找到最优分裂点，减少了损失函数的值，达到更快的收敛速度。 - **并行化处理**：LightGBM使用了基于特征并行的决策树算法，通过直方图算法高效地处理数据，进而实现高效的并行化计算。 - **数据离散化**：LightGBM使用了数据离散化算法，将连续特征离散化为分桶特征，能够减少训练时间，提高训练效率。 ### 2.2 低内存占用相比于其他基于树的算法，LightGBM在处理大规模数据集时内存占用更低。这得益于LightGBM在训练过程中采用了直方图算法，它使用了内存进行梯度直方图的存储，而不是存储完整的数据实例，有效地减少了内存的使用。 ### 2.3 支持大规模数据集在处理大规模数据集时，LightGBM表现出色的性能。其具有较高的算法效率和较低的内存占用，能够很好地处理数十万甚至数百万样本的数据。 ### 2.4 准确性能力在大规模数据集上，由于LightGBM的高效性能和优秀的泛化能力，通常能够取得更加准确的预测结果。同时，LightGBM支持多种损失函数和评估指标，能够满足不同场景下的需求，进一步提升模型的准确性。 # 3. LightGBM的局限 LightGBM作为一种优秀的机器学习模型，虽然具有诸多优势，但也存在一些局限性，下面将针对其局限性展开详细讨论。 #### 3.1 对噪声和异常值敏感在数据中存在噪声和异常值时，LightGBM的性能可能会受到一定影响。由于LightGBM使用基于梯度的学习算法，噪声和异常值可能会对梯度造成不良影响，导致模型训练出现偏差。 #### 3.2 需要参数调整与

最低0.47元/天解锁专栏

买1年送3月

点击查看下一篇

百万级高质量VIP文章无限畅学

千万级优质资源任意下载

C知道免费提问 ( 生成式Al产品 )

LightGBM优缺点全面分析：透视LightGBM的局限与优势

相关推荐

专栏目录

专栏目录

LightGBM优缺点全面分析：透视LightGBM的局限与优势

相关推荐

Excel数据整理与分析数据透视综合应用共23页.pdf

Excel数据整理与分析数据透视图共11页.pdf.zip

世纪星：透视污水处理

OpenGL中的投影矩阵：透视与正交的比较与应用

场景概念设定与应用：透视的表现方法.docx

企业财务报表分析：质量分析与管理透视.pptx

虚拟现实和增强现实之渲染和显示算法：图像变换：透视投影与正交投影.docx

摄影构图原理之：透视及纵深.doc

Excel分析：数据透视表，查找，筛选，excel中的格式

专栏目录

最新推荐

ECOTALK数据科学应用：机器学习模型在预测分析中的真实案例

潮流分析的艺术：PSD-BPA软件高级功能深度介绍

嵌入式系统中的BMP应用挑战：格式适配与性能优化

PM813S内存管理优化技巧：提升系统性能的关键步骤，专家分享！

分析准确性提升之道：谢菲尔德工具箱参数优化攻略

RTC4版本迭代秘籍：平滑升级与维护的最佳实践

【Ubuntu 16.04系统更新与维护】：保持系统最新状态的策略

CC-LINK远程IO模块AJ65SBTB1现场应用指南：常见问题快速解决

【光辐射测量教育】：IT专业人员的培训课程与教育指南

SSD1306在智能穿戴设备中的应用：设计与实现终极指南

专栏目录