fd.dataframe
时间: 2025-01-09 13:49:05 浏览: 5
### Pandas DataFrame 使用教程
#### 创建 DataFrame
Pandas 的 `DataFrame` 是一种二维表结构的数据容器,支持不同类型的列。可以通过多种方式创建 `DataFrame` 对象:
- **从字典创建**
可以通过传递一个由数组组成的字典来构建 `DataFrame`[^3]。
```python
import pandas as pd
data = {'col_1': [0, 1, 2], 'col_2': ['a', 'b', 'c']}
df = pd.DataFrame(data=data)
print(df)
```
- **读取文件创建**
还可以从 CSV 文件或其他格式的文件加载数据到 `DataFrame` 中[^1]。
```python
df_from_csv = pd.read_csv('path/to/file.csv')
```
#### 查看 DataFrame 结构
为了了解 `DataFrame` 的基本信息,可以使用一些内置的方法查看其属性和内容:
- **显示前几行**
```python
first_five_rows = df.head(5)
```
- **获取列名列表**
```python
column_names = df.columns.tolist()
print(column_names)
```
这里利用了 `dataframe.columns` 属性来访问所有的列名称[^4]。
#### 数据处理操作
对于已有的 `DataFrame`,经常需要执行诸如去重、筛选等操作:
- **去除重复项**
当想要移除某一特定列中的重复值时,可以用 `.drop_duplicates()` 方法[^2]。
```python
unique_income_df = df[['income']].drop_duplicates()
```
此命令会返回一个新的 `DataFrame`,其中只保留首次出现的不同收入记录。
#### 综合应用实例
假设有一个包含个人收入信息的数据集,并希望对其进行简单的分析:
```python
# 导入库并定义样本数据框
sample_data = {
"name": ["Alice", "Bob", "Charlie"],
"age": [28, 34, 29],
"income": [70000, 60000, 80000]
}
people_df = pd.DataFrame(sample_data)
# 显示原始数据帧
print("Original Data Frame:")
print(people_df)
# 获取唯一收入水平的人数统计
distinct_incomes_count = people_df.drop_duplicates(subset=['income']).shape[0]
print(f"\nNumber of distinct income levels: {distinct_incomes_count}")
```
上述代码展示了如何基于给定的数据创建 `DataFrame` 并计算不同的收入级别数量。
阅读全文