【基础】使用Pandas进行数据分析
发布时间: 2024-06-28 22:53:18 阅读量: 76 订阅数: 131
![【基础】使用Pandas进行数据分析](https://img-blog.csdnimg.cn/20200625221317271.png?)
# 2.1 DataFrame和Series数据结构
### 2.1.1 DataFrame的创建和初始化
DataFrame是Pandas中表示二维表格数据的核心数据结构。它由行和列组成,其中行称为索引,列称为列标签。
```python
import pandas as pd
# 从字典创建DataFrame
data = {'name': ['Alice', 'Bob', 'Carol'], 'age': [20, 25, 30]}
df = pd.DataFrame(data)
# 从列表创建DataFrame
data = [['Alice', 20], ['Bob', 25], ['Carol', 30]]
df = pd.DataFrame(data, columns=['name', 'age'])
```
# 2. Pandas数据结构和操作
### 2.1 DataFrame和Series数据结构
#### 2.1.1 DataFrame的创建和初始化
DataFrame是Pandas中用于存储和处理表格数据的核心数据结构。它由行和列组成,类似于电子表格。DataFrame的创建和初始化可以通过以下几种方式实现:
- **从列表或字典创建:**
```python
import pandas as pd
# 从列表创建DataFrame
data = [['Tom', 25, 'Engineer'], ['Alice', 30, 'Manager'], ['Bob', 28, 'Analyst']]
df = pd.DataFrame(data, columns=['Name', 'Age', 'Occupation'])
# 从字典创建DataFrame
data = {'Name': ['Tom', 'Alice', 'Bob'], 'Age': [25, 30, 28], 'Occupation': ['Engineer', 'Manager', 'Analyst']}
df = pd.DataFrame(data)
```
- **从文件或数据库读取:**
```python
# 从CSV文件读取DataFrame
df = pd.read_csv('data.csv')
# 从数据库读取DataFrame
import sqlalchemy
engine = sqlalchemy.create_engine('postgresql://user:password@host:port/database')
df = pd.read_sql_table('table_name', engine)
```
#### 2.1.2 Series的创建和初始化
Series是Pandas中用于存储和处理一维数据结构。它类似于NumPy数组,但具有标签(索引)。Series的创建和初始化可以通过以下几种方式实现:
- **从列表或数组创建:**
```python
# 从列表创建Series
data = [25, 30, 28]
series = pd.Series(data, index=['Tom', 'Alice', 'Bob'])
# 从NumPy数组创建Series
import numpy as np
data = np.array([25, 30, 28])
series = pd.Series(data, index=['Tom', 'Alice', 'Bob'])
```
- **从字典创建:**
```python
# 从字典创建Series
data = {'Tom': 25, 'Alice': 30, 'Bob': 28}
series = pd.Series(data)
```
### 2.2 数据读取和写入
#### 2.2.1 从文件和数据库中读取数据
Pandas提供了多种方法从文件和数据库中读取数据。常用的文件格式包括CSV、Excel、JSON等。
- **从CSV文件读取:**
```python
df = pd.read_csv('data.csv')
```
- **从Excel文件读取:**
```python
df = pd.read_excel('data.xlsx')
```
- **从JSON文件读取:**
```python
df = pd.read_json('data.json')
```
- **从数据库读取:**
```python
import sqlalchemy
engine = sqlalchemy.create_engine('postgresql://user:password@host:port/database')
df = pd.read_sql_table('table_name', engine)
```
#### 2.2.2 向文件和数据库中写入数据
Pandas也支持将数据写入文件和数据库。
- **向CSV文件写入:**
```python
df.to_csv('data.csv')
```
- **向Excel文件写入:**
```python
df.to_excel('data.xlsx')
```
- **向JSON文件写入:**
```python
df.to_jso
```
0
0