pd.DataFrame使用
时间: 2024-11-28 14:18:10 浏览: 7
pyspark.sql.DataFrame与pandas.DataFrame之间的相互转换实例
5星 · 资源好评率100%
`pd.DataFrame`是Python的pandas库中的重要数据结构,它是一个二维表格型的数据结构,类似于电子表格或SQL表。DataFrame可以存储不同类型的数据,如数值、字符串、布尔值等,并且每一列可以有独立的数据类型。它的基本操作包括:
1. **创建**:你可以通过多种方式创建DataFrame,如从列表、字典、CSV文件、Excel文件、数据库提取数据等。
```python
df = pd.DataFrame(data={'A': [1, 2, 3], 'B': ['a', 'b', 'c']})
```
2. **查看**:可以用head()或tail()方法查看前几行或后几行数据,也可以用info()了解基本信息。
```python
print(df.head())
```
3. **索引和列名**:可以设置和修改索引(行标签)和列名。
```python
df.set_index('A', inplace=True)
df.rename(columns={'B': 'Column_B'}, inplace=True)
```
4. **数据处理**:提供丰富的统计函数如mean(), sum(), groupby()用于聚合、分组计算等。
```python
total = df.groupby('Column_B').sum()
```
5. **合并和拼接**:可以水平(concat())或垂直(append())地合并或拼接DataFrame。
```python
df2 = pd.DataFrame({'A': [4, 5], 'B': ['d', 'e']})
result = pd.concat([df, df2])
```
6. **数据清洗**:支持缺失值处理,如dropna()删除含有缺失值的行或列。
```python
df.dropna(inplace=True) # 删除包含NaN的行
```
阅读全文