【基础】基础统计学：描述性统计

![python机器学习合集](https://img-blog.csdnimg.cn/img_convert/b821544322b8b4c64bb63b200aa63953.png) # 3.1 集中趋势指标集中趋势指标描述了一组数据的中心位置，反映了数据的典型值或平均水平。常用的集中趋势指标包括： - **平均数（Mean）**：所有数据值的总和除以数据个数，代表数据的算术平均值。 - **中位数（Median）**：将数据按从小到大排序，居于中间位置的数据值，代表数据的中间值。 - **众数（Mode）**：出现频率最高的数据值，代表数据中最常见的值。 # 2. 数据收集和整理 ### 2.1 数据收集方法和原则 **数据收集方法** * **调查法：**通过问卷、访谈等方式收集数据。 * **观察法：**通过直接观察或录像记录行为和事件。 * **实验法：**通过控制变量来研究因果关系。 * **文献研究：**从书籍、期刊和数据库中收集数据。 * **数据挖掘：**从大量数据中提取有价值的信息。 **数据收集原则** * **明确目的：**明确收集数据的目的和目标。 * **相关性：**收集与研究问题相关的数据。 * **准确性：**确保收集的数据准确可靠。 * **完整性：**收集足够的数据以全面了解研究问题。 * **及时性：**收集最新的数据以反映当前情况。 * **可信度：**选择可靠的数据来源和收集方法。 * **伦理性：**遵守伦理准则，尊重受访者的隐私和权利。 ### 2.2 数据整理和分类 **数据整理** * **数据清理：**删除或更正错误或缺失的数据。 * **数据转换：**将数据转换为适合分析的格式。 * **数据标准化：**将不同单位或范围的数据标准化以进行比较。 * **数据归一化：**将数据缩放到0到1之间的范围内。 **数据分类** * **定量数据：**可以测量和用数字表示的数据。 * **定性数据：**不能用数字表示的数据，通常是类别或描述。 * **离散数据：**只能取有限或可数的值。 * **连续数据：**可以取任何值。 **代码块：** ```python import pandas as pd # 读取数据 df = pd.read_csv('data.csv') # 数据清理 df.dropna(inplace=True) df['age'] = df['age'].astype(int) # 数据转换 df['gender'] = df['gender'].map({'male': 1, 'female': 2}) # 数据标准化 df['height'] = (df['height'] - df['height'].min()) / (df['height'].max() - df['height'].min()) # 数据归一化 df['weight'] = df['weight'] / df['weight'].max() ``` **逻辑分析：** * 使用Pandas读取CSV文件。 * 使用`dropna()`删除缺失值。 * 使用`astype()`将`age`列转换为整数。 * 使用`map()`将`gender`列中的类别转换为数字。 * 使用`min()`和`max()`计算`height`和`weight`列的最小值和最大值。 * 使用`-`和`/`运算符标准化`height`列并归一化`weight`列。 # 3. 数据描述 ### 3.1 集中趋势指标集中趋势指标用于描述数据集中值的中心位置，反映数据分布的一般趋势。 #### 3.1.1 平均数、中位数、众数 **平均数（Mean）**：所有数据的算术平均值，是数据集中所有值的总和除以值的个数。平均数对异常值敏感，容易受到极端值的影响。 **中位数（Median）**：数据集中按从小到大排列后处于中间位置的值。中位数不受异常值的影响，更能代表数据分布的中心。 **众数（Mode）**：数据集中出现频率最

最低0.47元/天解锁专栏

买1年送3月

点击查看下一篇

百万级高质量VIP文章无限畅学

千万级优质资源任意下载

C知道免费提问 ( 生成式Al产品 )

相关推荐

李_涛

知名公司架构师

拥有多年在大型科技公司的工作经验，曾在多个大厂担任技术主管和架构师一职。擅长设计和开发高效稳定的后端系统，熟练掌握多种后端开发语言和框架，包括Java、Python、Spring、Django等。精通关系型数据库和NoSQL数据库的设计和优化，能够有效地处理海量数据和复杂查询。

专栏简介

欢迎来到 Python 机器学习合集，这是一个涵盖机器学习基础知识的全面指南。本专栏从 Python 基础语法开始，包括数据类型、变量、控制流语句、函数和模块。接下来，深入了解 NumPy，一个用于数组操作和运算的强大库。您将学习如何创建和操作数组，以及使用各种常用函数。通过这些基础知识，您将为探索更高级的机器学习概念做好准备，例如数据预处理、模型训练和评估。本专栏适合初学者和希望提升 Python 和机器学习技能的任何人。通过循序渐进的教程和清晰易懂的解释，您将获得在机器学习领域取得成功的必要基础。

专栏目录

最低0.47元/天解锁专栏

买1年送3月

百万级高质量VIP文章无限畅学

千万级优质资源任意下载

C知道免费提问 ( 生成式Al产品 )

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

专栏目录

最低0.47元/天解锁专栏

买1年送3月

百万级高质量VIP文章无限畅学

千万级优质资源任意下载

C知道免费提问 ( 生成式Al产品 )

【基础】基础统计学：描述性统计

相关推荐

描述性统计

数据分析师一定要掌握的基础——描述性统计分析

统计学基础

完整版 大数据的统计学基础 系列课程 第01周 面向小白的统计学：描述性统计（均值，中位数，众数，方差，标准差，与常见的统计图表

统计学：从数据到结论

妙趣横生的统计学：培养大数据时代的统计思维.docx

简单统计学：如何轻松识破一本正经的胡说八道

[应用统计学：以Excel为分析工具]

统计学：从数据到结论（吴喜之）第二版

统计学：从数据到结论（第四版）书中需要用到的数据

专栏目录

最新推荐

硬件加速在目标检测中的应用：FPGA vs. GPU的性能对比

【商业化语音识别】：技术挑战与机遇并存的市场前景分析

Pandas数据转换：重塑、融合与数据转换技巧秘籍

优化之道：时间序列预测中的时间复杂度与模型调优技巧

NumPy在金融数据分析中的应用：风险模型与预测技术的6大秘籍

【循环神经网络】：TensorFlow中RNN、LSTM和GRU的实现

【图像分类模型自动化部署】：从训练到生产的流程指南

PyTorch超参数调优：专家的5步调优指南

Keras注意力机制：构建理解复杂数据的强大模型

【数据集加载与分析】：Scikit-learn内置数据集探索指南

专栏目录

完整版大数据的统计学基础系列课程第01周面向小白的统计学：描述性统计（均值，中位数，众数，方差，标准差，与常见的统计图表