df = pd.read_excel('stockdata.xlsx', dtype={'股票代码': 'str', '实际控制人性质': 'object'}) df['年份'] = pd.DatetimeIndex(df['日期']).year # 将逗号去除并填充空白单元格为0 df['实际控制人性质'] = df['实际控制人性质'].str.replace(',', '').fillna(0) # 将多个值拆分并选择第一个值 df['实际控制人性质'] = df['实际控制人性质'].str.split(',').str[0].fillna(0) # 将字符串类型转换为浮点数类型 df['实际控制人性质'] = df['实际控制人性质'].astype(float) # 根据需要填充的列进行分组,然后使用ffill和bfill填充缺失值 df = df.groupby(['股票代码', '年份', '行业代码']).apply(lambda x: x.ffill().bfill()).reset_index(drop=True) # 对所有列执行均值聚合操作 df = df.groupby(['股票代码', '年份', '行业代码']).mean().reset_index() # 重新排序列的顺序 df = df[['股票代码', '年份', '行业代码', '实际控制人性质', '短期负债', '长期负债合计', '资产负债率']] # 使用均值填充所有缺失值 df.fillna(df.mean(), inplace=True) # 对剩余缺失值执行向后填充操作 df.fillna(method='bfill', inplace=True) # 将数据保存到 Excel 文件中 df.to_excel('a2.xlsx', index=False, encoding='utf-8'),我的代码运行后有几个实际控制人性质单元格没有选取三个数字的第一个,而是采用了均值填充法,请帮我修改一下
时间: 2023-09-04 09:12:08 浏览: 349
goog.rar_google_stock_stock price
5星 · 资源好评率100%
如果你想在拆分实际控制人性质时选择第一个数字,而不是使用均值填充缺失值,可以在拆分前添加一个条件语句来判断单元格中是否存在数字,并选择第一个数字。修改后的代码如下:
```
import pandas as pd
df = pd.read_excel('stockdata.xlsx', dtype={'股票代码': 'str', '实际控制人性质': 'object'})
df['年份'] = pd.DatetimeIndex(df['日期']).year
# 将逗号去除并填充空白单元格为0
df['实际控制人性质'] = df['实际控制人性质'].str.replace(',', '').fillna(0)
# 将多个值拆分并选择第一个值
df['实际控制人性质'] = df['实际控制人性质'].apply(lambda x: x.split(',')[0] if any(char.isdigit() for char in x) else x).astype(float)
# 根据需要填充的列进行分组,然后使用ffill和bfill填充缺失值
df = df.groupby(['股票代码', '年份', '行业代码']).apply(lambda x: x.ffill().bfill()).reset_index(drop=True)
# 对所有列执行均值聚合操作
df = df.groupby(['股票代码', '年份', '行业代码']).mean().reset_index()
# 重新排序列的顺序
df = df[['股票代码', '年份', '行业代码', '实际控制人性质', '短期负债', '长期负债合计', '资产负债率']]
# 使用均值填充所有缺失值
df.fillna(df.mean(), inplace=True)
# 对剩余缺失值执行向后填充操作
df.fillna(method='bfill', inplace=True)
# 将数据保存到 Excel 文件中
df.to_excel('a2.xlsx', index=False, encoding='utf-8')
```
修改后的代码中,我们使用了 `apply` 函数和 `lambda` 表达式来定义一个新的函数,在这个函数中,我们使用了 `any()` 函数来检查字符串中是否存在数字,如果存在数字,我们就使用 `split()` 函数拆分字符串,并选择第一个值作为实际控制人性质,否则我们就保留原始值。
阅读全文