如何在Python中创建并操作一个pd.DataFrame对象?
时间: 2024-12-11 21:18:53 浏览: 12
在Python中,`pandas`库是一个强大的数据处理工具,`DataFrame`是其核心数据结构之一。以下是创建和操作`DataFrame`的基本步骤:
1. **创建 DataFrame**:
- **从列表、字典或CSV文件创建**:
```python
# 列表示例
data = {'Name': ['Alice', 'Bob', 'Charlie'],
'Age': [25, 30, 35]}
df = pd.DataFrame(data)
# 或者从CSV文件读取
df = pd.read_csv('file.csv')
# 从数据库读取
import pandas as pd
df = pd.read_sql_query("SELECT * FROM table", connection)
```
- **从其他数据结构如NumPy数组**:
```python
import numpy as np
array = np.array([[1, 2], [3, 4]])
df = pd.DataFrame(array, columns=['A', 'B'])
```
2. **基本操作**:
- **查看数据前几行**:
```python
print(df.head())
```
- **选择列或索引**:
```python
df['Column_Name'] # 获取单列
df.loc[index] # 获取指定行
```
- **修改数据**:
```python
df['New_Column'] = df['Old_Column'].map(lambda x: x + 1) # 动态计算新列
df.at[row_index, column_name] = new_value # 单元格赋值
```
3. **统计信息和数据清洗**:
```python
df.describe() # 描述性统计
df.dropna() # 删除缺失值
df.fillna(value) # 填充缺失值
```
阅读全文