Python 数据分析:Pandas 和 NumPy 的强大组合
发布时间: 2024-06-18 15:47:43 阅读量: 78 订阅数: 32
![Python 数据分析:Pandas 和 NumPy 的强大组合](https://img-blog.csdnimg.cn/direct/00265161381a48acb234c0446f42f049.png)
# 1. Python 数据分析简介**
Python 是一种强大的编程语言,在数据分析领域得到了广泛的应用。它提供了丰富的库和工具,使数据分析任务变得高效且方便。
数据分析涉及从数据中提取有价值的见解的过程。它包括数据收集、清理、探索、建模和可视化。Python 凭借其易用性和强大的数据处理能力,为这些任务提供了理想的平台。
在本章中,我们将概述 Python 数据分析的基本概念和工具,为后续章节的深入探讨奠定基础。
# 2. Pandas 库**
**2.1 Pandas 数据结构**
Pandas 是一个功能强大的 Python 库,用于处理和分析数据。它提供了一系列灵活的数据结构,使处理大型数据集变得更加容易。
**2.1.1 DataFrame**
DataFrame 是 Pandas 中最基本的数据结构,它是一个二维表状结构,类似于 Excel 电子表格。它由行和列组成,其中行表示观测值,而列表示变量或特征。
```python
import pandas as pd
# 创建一个 DataFrame
df = pd.DataFrame({
"Name": ["John", "Mary", "Bob"],
"Age": [25, 30, 28],
"City": ["New York", "London", "Paris"]
})
# 打印 DataFrame
print(df)
```
**2.1.2 Series**
Series 是 Pandas 中一维数组状的数据结构。它类似于 NumPy 数组,但具有附加功能,例如索引和名称。Series 可以表示单个变量或特征。
```python
# 创建一个 Series
series = pd.Series([25, 30, 28], name="Age")
# 打印 Series
print(series)
```
**2.2 Pandas 数据操作**
Pandas 提供了丰富的函数和方法,用于操作和处理数据。这些操作包括:
**2.2.1 数据读取和写入**
Pandas 可以从各种数据源读取数据,包括 CSV、Excel、SQL 数据库和 JSON 文件。它还支持将数据写入这些源。
```python
# 从 CSV 文件读取数据
df = pd.read_csv("data.csv")
# 将数据写入 Excel 文件
df.to_excel("output.xlsx")
```
**2.2.2 数据清洗和转换**
Pandas 提供了多种工具,用于清洗和转换数据,包括:
* **缺失值处理:**处理缺失值,例如删除、填充或插补。
* **数据类型转换:**将数据转换为不同的数据类型,例如整数、浮点数或字符串。
* **字符串操作:**执行字符串操作,例如删除空格、替换字符或连接字符串。
```python
# 处理缺失值
df.dropna(inplace=True)
# 转换数据类型
df["Age"] = df["Age"].astype(int)
```
**2.2.3 数据聚合和分组**
Pandas 允许对数据进行聚合和分组,以计算汇总统计信息和进行分组操作。
```python
# 计算每个城市的人数
df.groupby("City")["Age"].count()
# 计算每个城市年龄的平均值
df.groupby("City")["Age"].mean()
```
**2.3 Pandas 可视化**
Pandas 提供了基本绘图函数,用于快速可视化数据。它还与高级可视化库集成,例如 Matplotlib 和 Seaborn。
**2.3.1 基本绘图函数**
```python
# 绘制直方图
df["Age"].hist()
# 绘制散点图
df.plot.scatter(x="Age", y="Height")
``
```
0
0