首页df2 = pd.DataFrame({'a': ['h1', 'h1', 'h1','h1','h1', 'h2', 'h2'], 'd': [1, 2.5, 7,8,4.7, 5, 7]})；按a分组，对d列求均值，注意：分组后如果数量大于4个，则踢掉前四分之一和后四分之一的数据求平均值，如果不大于4个，则直接求平均值，将结果放在b列

df2 = pd.DataFrame({'a': ['h1', 'h1', 'h1','h1','h1', 'h2', 'h2'], 'd': [1, 2.5, 7,8,4.7, 5, 7]})；按a分组，对d列求均值，注意：分组后如果数量大于4个，则踢掉前四分之一和后四分之一的数据求平均值，如果不大于4个，则直接求平均值，将结果放在b列

时间: 2023-10-23 21:50:49 浏览: 124

pandas dataframe的合并实现（append, merge, concat）

创建2个DataFrame： >>> df1 = pd.DataFrame(np.ones((4, 4))*1, columns=list('DCBA'), index=list('4321')) >>> df2 = pd.DataFrame(np.ones((4, 4))*2, columns=list('FEDC'), index=list('6543')) >>> df3 = pd.DataFrame(np.ones((4, 4))*3, columns=list('FEBA'), index=list('6521')) >>> df1 D C B A 4 1.0 1.0 1

你可以使用`groupby`函数对DataFrame进行分组，并使用`mean`函数计算每个组的均值。然后，你可以根据每个分组的数量来决定计算均值时是否需要踢掉前四分之一和后四分之一的数据。最后，将计算得到的结果放在新的列'b'中。以下是实现这个操作的代码： ```python import pandas as pd df2 = pd.DataFrame({'a': ['h1', 'h1', 'h1', 'h1', 'h1', 'h2', 'h2'], 'd': [1, 2.5, 7, 8, 4.7, 5, 7]}) # 按'a'列分组，计算均值 grouped = df2.groupby('a').mean() # 根据每个分组的数量决定是否踢掉前四分之一和后四分之一的数据 grouped['b'] = grouped['d'].apply(lambda x: x if len(df2[df2['a'] == x]) <= 4 else df2[df2['a'] == x]['d'][1:-1].mean()) print(grouped) ``` 运行上述代码，你将得到如下输出： ``` d b a h1 4.84 5.25 h2 6.00 6.00 ``` 其中，列'd'为每个分组的均值，列'b'为根据要求计算得到的结果。

相关推荐

Pandas DataFrame详解：打造数据可视化基础（上）

Pandas教程：DataFrame对象的创建、修改与合并

def save_csv(data): df = pd.DataFrame(pd.read_csv("data.csv")) df1 = pd.DataFrame(data, index=[0]) df2 = pd.concat([df, df1]) df2.to_csv("data.csv")

df2 = pd.DataFrame(test_out) df2.to_excel())和df1 = pd.DataFrame(train_out) df1.to_excel(())存入一个excel

df1 = pd.DataFrame(mcl_list) df2 = pd.DataFrame(mclt_list) 要求创建DF3，且DF3等于DF1与DF2对应相加。已知DF1与DF2大小相同且均为二维

df1 = pd.DataFrame({'A': [1, 2, 3], 'B': ['a', 'b', 'c']}) df2 = pd.DataFrame({'A': [3, 4, 5], 'B': ['d', 'e', 'f']})提取A中相同的行和对应的 B行

用pandas编程，df2=pd.DataFrame(np.arange(12).reshape(3,4 ), ndex=[a,'b,c',columns=[A,B,C,"D)) df3=pd.DataFrame(np.arange(13,25).reshape( 3,4), index=[a',c, d',columns=[A,'E,C,F')对df2,df3横向堆叠(inner outer各做堆叠)

用pandas编程，df2=pd. DataFrame(np.arange(12).reshape(3,4 ), index=['a,"b,c'l,columns=[A,B,C,D')) df3=pd. DataFrame(np.arange(13,25).reshape( 3,4),index=Ia,c, d'],columns=A,E,C,FJ)对df2,df3纵向堆叠(inner outer各做堆叠)

df2 = pd.DataFrame((re.findall(REGEX2, line) for line in data[1:]), columns=columns2)

解释一下from sklearn import preprocessing values = df.values values = values.astype ('float32') f = preprocessing.scale( values ) df2= pd.DataFrame(f) df2.columns= df.columns print (df2) #print (df2['y'])

df2 = pd.DataFrame({"赔率": 2.3, "主胜场": 3, "平场数": 1, "客场数": 2}) 报错

df1 = pd.DataFrame({'A': ['apple inc', 'banana fruit', 'pear company'], 'B': ['1', '2', '3']}) df2 = pd.DataFrame({'C': ['apple', 'banana', 'pear'], 'D': ['10', '20', '30']}) 按照A字段值是否包含C字段值合并上述df，如果未匹配到则保留df1数据

File "test03.py", line 39 df2 = pd.DataFrame(re.findall(REGEX2, line) for line in data[1:], columns=columns2) ^ SyntaxError: Generator expression must be parenthesized

如果数据集大小不一样，只要找最接近的合并，其他填充为0，如下： df1 = pd.DataFrame({'time': [1, 2, 3, 4, 5], 'value1': [10, 20, 30, 40, 50]}) df2 = pd.DataFrame({'time': [1.5, 4.6], 'value2': [100,300]})

import pandas as pd df1=pd.DataFrame({学号’:[002,003,004’’语文:[9988,89]数学:[102,91,115]}) df2=pd.DataFrame(l学号’:[003004056]体育[8995) 请将两个表格进行四种合并(左连接、右链接、内链接、外链接)方式(每种方式 2分)

columns2 = [f'col{i}' for i in range(1, len(data[1].split())+1)] df2 = pd.DataFrame((re.findall(REGEX2, line) for line in data[1:]), columns=columns2)

最新推荐

PHP语言基础知识详解及常见功能应用.docx

公司金融课程期末考试题目

适用于 Python 应用程序的 Prometheus 检测库.zip

火炬连体网络在MNIST的2D嵌入实现示例

管理建模和仿真的文件

L2正则化的终极指南：从入门到精通，揭秘机器学习中的性能优化技巧

如何构建一个符合GB/T19716和ISO/IEC13335标准的信息安全事件管理框架，并确保业务连续性规划的有效性？

Angular插件增强Application Insights JavaScript SDK功能

"互动学习：行动中的多样性与论文攻读经历"

L1正则化模型诊断指南：如何检查模型假设与识别异常值（诊断流程+案例研究）