dataframe一列去重计数

时间: 2023-10-12 12:18:37 浏览: 120

pandas.DataFrame的pivot()和unstack()实现行转列

### pandas.DataFrame 的 `pivot()` 和 `unstack()` 实现行转列在数据分析领域，对数据进行转换是一项常见的任务，特别是在使用 Python 的 pandas 库时。本文将详细介绍如何使用 pandas.DataFrame 的 `pivot()` 和 `unstack()` 方法实现数据的行转列操作。 #### 一、`pivot()` 方法详解 `pivot()` 方法是 pandas 中非常有用的一个函数，它可以帮助我们将数据按照特定的方式重塑（reshape），从而更好地适应不同的分析需求。`pivot()` 的基本用法如下： ```python df.pivot(index, columns, values) ``` 其中参数含义如下： - **index**：新 DataFrame 的索引。 - **columns**：新 DataFrame 的列。 - **values**：新 DataFrame 的值。假设我们有一个原始的数据集 `result_df`，包含以下三列：`UserName`, `Subject`, `Score`。为了将其转换为以用户名为索引、科目为列、分数为值的新格式，我们可以使用 `pivot()` 如下所示： ```python df_pivoted_init = result_df.pivot(index='UserName', columns='Subject', values='Score') df_pivoted = df_pivoted_init.reset_index() ``` 这里的 `reset_index()` 方法是为了将索引转换为列，以便于后续操作或保存到数据库。 #### 二、`unstack()` 方法详解 `unstack()` 是另一种常用的方法来重塑数据。与 `pivot()` 不同的是，`unstack()` 可以更灵活地根据层次化索引来转换数据。其基本语法为： ```python df.unstack(level) ``` 其中参数 `level` 指定用于展开的索引级别。对于上面的例子，如果原始数据已经按照用户名和科目设置了多级索引，那么可以使用 `unstack()` 方法来实现类似 `pivot()` 的效果： ```python # 假设原始数据已经有了多级索引 df.set_index(['UserName', 'Subject'], inplace=True) # 使用 unstack() 转换数据 df_pivoted = df.unstack(level=1) ``` 这种方法同样可以达到行转列的效果，但是使用更加灵活，并且不需要显式指定列名。 #### 三、实际应用示例接下来通过一个具体示例来展示如何使用这两个方法： 1. **读取数据**：首先我们需要从数据库中读取数据。在这个例子中，数据是从 MySQL 数据库中读取的。 ```python import pandas as pd import MySQLdb # 连接数据库并读取数据 conn = MySQLdb.connect(host='192.168.1.193', port=3306, user='leo', passwd='mysql', db='test', charset='utf8') result_df = pd.read_sql('SELECT UserName, Subject, Score FROM TEST', conn) ``` 2. **使用 pivot() 转换数据**：接着使用 `pivot()` 方法转换数据。 ```python df_pivoted_init = result_df.pivot(index='UserName', columns='Subject', values='Score') df_pivoted = df_pivoted_init.reset_index() ``` 3. **使用 unstack() 转换数据**：另一种方式是使用 `unstack()` 方法。 ```python result_df.set_index(['UserName', 'Subject'], inplace=True) df_pivoted = result_df.unstack(level=1) ``` 4. **处理 NaN 值**：在实际应用中，可能需要处理缺失值。可以使用 `fillna()` 方法将 NaN 替换为某个值。 ```python df_pivoted = df_pivoted.fillna(0) ``` 5. **保存到数据库**：最后一步是将转换后的数据保存回数据库。 ```python df_pivoted.to_sql(name='new_table_name', con=engine, if_exists='replace', index=False) ``` #### 四、总结通过对 `pivot()` 和 `unstack()` 方法的介绍及示例演示，我们了解了如何使用 pandas 对数据进行行转列的操作。这两种方法都是 pandas 提供的强大工具，可以帮助我们更高效地管理和分析数据。无论是数据预处理还是报告生成，这些方法都能大大提高工作效率。

可以使用pandas库中的value_counts()方法对一个DataFrame的某一列进行去重计数。例如，假设我们有如下的DataFrame： ``` import pandas as pd df = pd.DataFrame({ 'id': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10], 'name': ['Tom', 'Jerry', 'Mike', 'Tom', 'Lucy', 'Jerry', 'Lucy', 'John', 'Tom', 'Jerry'], 'age': [23, 25, 27, 22, 24, 26, 28, 30, 32, 29] }) ``` 我们想要对name这一列进行去重计数，可以使用以下代码： ``` name_counts = df['name'].value_counts() print(name_counts) ``` 输出结果为： ``` Jerry 3 Tom 3 Lucy 2 Mike 1 John 1 Name: name, dtype: int64 ``` 其中，每个值的计数都显示在它对应的索引位置上。例如，Jerry出现了3次，因此它的计数是3。

阅读全文

dataframe一列去重计数

相关推荐

Pandas DataFrame行转列：pivot与unstack实战

Pandas DataFrame操作：删除行与列的实战指南

python dataframe中使用pivot_table方法，里面aggfunc有哪些函数可以用？我需要对某一列去重并计数，aggfunc应该填什么

pandas groupby 去重计数

dataframe如何做分组去重统计

pandas读取xlsx文件如何去重计数

Python对多属性的重复数据去重实例

Pandas 数据操作详解：增、删、查、改、去重与抽样

pyspark基础数据处理：DataFrame介绍及常见操作

使用VLOOKUP函数进行数据去重与去重复

python dataframe 一列包含有很多相通数据和不同数据混合，想统计相同有多少个，不同有多少种，怎么实现

datagridview重复列计数

DataFrame常用方法

pandas 根据A列数据中每一个不同数据出现次数由高到低排列分类B列的数据 并对B列的数据去重

python如何用df.groupby来去重计数

#商家被领取的特定优惠券数目 pivot = pd.pivot_table(data, index=keys13, values='cnt', aggfunc=lambda x:len(set(x))) pivot = pd.DataFrame(pivot).rename(columns={ 'cnt': 'merchant_differ_coupon'}).reset_index() feature = pd.merge(feature, pivot, on=keys13, how='left')解释代码函数

Pandas DataFrame详解与应用

最新推荐

yolov3 在 Open Images 数据集上预训练了 SPP 权重以及配置文件.zip

qt 5.3.2 mingw 安装包

586befcf3e78455eb3b5359d7500cc97.JPG

yoloface-50k的可部署模型.zip

使用 Ultralytics API 进行 YOLOv8 推理.zip

JHU荣誉单变量微积分课程教案介绍

管理建模和仿真的文件

【实战篇：自定义损失函数】：构建独特损失函数解决特定问题，优化模型性能

如何在ZYNQMP平台上配置TUSB1210 USB接口芯片以实现Host模式，并确保与Linux内核的兼容性？

Naruto爱好者必备CLI测试应用

pandas 根据A列数据中每一个不同数据出现次数由高到低排列分类B列的数据并对B列的数据去重