现有一张表,字段A=当期价格(数值),字段B=当期排序,字段C=正确排序,字段D=时间地区单位,字段E=品规,字段E=倒挂标识,将字段D进行分组,若每组内字段B的值不等于字段C的值,则这组数据对应字段E的值为‘存在倒挂’,用panda执行
时间: 2024-05-03 20:21:23 浏览: 120
假设表名为"my_table",可以使用以下代码:
```
import pandas as pd
# 读取数据表
df = pd.read_csv('my_table.csv')
# 按字段D分组,判断每组内字段B是否等于字段C,生成倒挂标识列
df['倒挂标识'] = df.groupby('字段D').apply(lambda x: '存在倒挂' if (x['字段B'] != x['字段C']).any() else '').reset_index(drop=True)
# 输出结果
print(df)
```
注:需根据实际数据表中的字段名称修改代码中的对应字段名称。
相关问题
现在有一张表,字段A=时间,字段B=当期价格,字段C=规格,字段D=标准,字段E=单位,根据同时间,同地区,同规格,同标准,同单位分组,根据字段B当期价格进行由小到大排序(1为最小值),将排序结果新增成新的字段,新增字段名E=排序结果
可以使用SQL语句来实现这个需求,具体的代码如下:
```
ALTER TABLE 表名 ADD COLUMN 排序结果 INT;
UPDATE 表名 SET 排序结果 = (SELECT COUNT(*) FROM 表名 t WHERE t.时间=表名.时间 AND t.规格=表名.规格 AND t.标准=表名.标准 AND t.单位=表名.单位 AND t.当期价格<=表名.当期价格);
ALTER TABLE 表名 MODIFY COLUMN 排序结果 INT NOT NULL;
```
解释一下上面的代码:
1. 首先使用ALTER TABLE语句新增一个名为“排序结果”的整型字段。
2. 然后使用UPDATE语句来更新“排序结果”字段的值。子查询中的COUNT(*)函数用于计算同时间、同地区、同规格、同标准、同单位下小于等于当前行“当期价格”的行数,也就是当前行的排名。
3. 最后使用ALTER TABLE语句修改“排序结果”字段的属性,将其设为NOT NULL,即不允许为空。
执行完上面的代码后,表中就会新增一个名为“排序结果”的字段,它的值为根据“当期价格”排序后的排名。注意,如果有多条数据的“当期价格”相同,它们的排名会相同,但是下一条数据的排名会跳过相同的排名数量。例如,如果有三条数据的“当期价格”分别为1、2、2,那么它们的排名分别为1、2、3。
遍历有一张表,字段A=时间,字段B=当期价格,字段C=规格,字段D=标准,字段E=单位,根据同时间,同地区,同规格,同标准,同单位分组,根据字段B当期价格进行由小到大排序(1为最小值),将排序结果新增成新的字段,新增字段名E=排序结果,利用pandas执行
import pandas as pd
# 读取原始表格
df = pd.read_excel('原始表格.xlsx')
# 按照同时间、同地区、同规格、同标准、同单位进行分组,对当期价格进行排序
df['排序结果'] = df.groupby(['时间', '地区', '规格', '标准', '单位'])['当期价格'].rank(method='min')
# 将排序结果添加为新的字段E
df['E'] = df['排序结果']
# 保存处理结果
df.to_excel('处理结果.xlsx', index=False)
阅读全文