df_h = df[df['加仓']=='True'] 为什么df_h 是空的

如果 `df_h = df[df['加仓']=='True']` 结果为空，可能有以下几个原因： 1. **列名拼写错误**：确认一下 `'加仓'` 是否是正确的列名，大小写敏感。可能是 `'加仓'` 或 `'加仓'`，或者其他形式，如 `'加仓状态'`。 2. **列内容问题**：检查 `'加仓'` 列的内容，确保所有值都是字符串 'True' 而不是其他类型（比如数值型的 1 或布尔型的 True），或者是空值 (`NaN`)。 3. **数据清洗**：如果之前对数据进行了处理，如转换、清洗等，可能导致原本为 'True' 的值被误操作成了其他值。 4. **查询结果不存在**：可能存在没有 `'加仓'` 列的情况，或者所有 `'加仓'` 的值都不是 'True'。 5. **空数据集**：`df` 数据集本身就没有满足条件的行。为了确定具体原因，你可以尝试运行一些调试代码，例如： ```python print(df[df['加仓'].notnull()]) # 检查是否有列名为 '加仓' 的非空值 print(df['加仓'].unique()) # 查看 '加仓' 列的唯一值 ``` 这样可以帮助你找到问题所在。

def set_data(df_0, df_1, df_9, cfg_dict): cfg_train_dict = cfg_dict['train'] df_train_1 = df_1.sample(len(df_1) - int(cfg_train_dict['simulate_pos_count']), random_state=int(cfg_train_dict['random_state'])) print('df_train_1 : ',len(df_train_1)) if cfg_train_dict['use_neg_sample'] == 'True': df_train_0 = df_0.copy() if len(df_0) >= len(df_1): df_train_0 = df_0.sample(len(df_1)) #else: # df_train_0 = df_0.append(df_9.sample(len(df_train_1) - len(df_0), # random_state=int(cfg_train_dict['random_state'])), # sort=False) else: df_train_0 = df_9.sample(round(len(df_train_1)), random_state=int(cfg_train_dict['random_state'])) df_train_0['label'] = 0 print('train set: pos_num--%i nag_num--%i' % (len(df_train_1), len(df_train_0))) df_train = df_train_1.append(df_train_0, sort=False) df_1_final_test = df_1.loc[list(set(df_1.index.tolist()).difference(set(df_train_1.index.tolist())))] #df_9_final_test = df_9.copy() 使负样本验证集等于正样本的验证集 df_9_final_test = df_9.sample(round(len(df_1_final_test)), random_state=int(cfg_train_dict['random_state'])) df_9_final_test['label'] = 0 df_ft = df_1_final_test.append(df_9_final_test, sort=False)

这段代码是一个名为 set_data 的函数，它用于设置数据集。首先，函数从 cfg_dict 字典中获取了一个名为 cfg_train_dict 的子字典，其中包含了训练配置的相关参数。接着，函数从 df_1 数据框中随机抽样了一部分样本作为训练集 df_train_1，抽样数量为 len(df_1) 减去 cfg_train_dict['simulate_pos_count']，random_state 参数用于设置随机种子。函数打印了 df_train_1 的长度。然后，根据 cfg_train_dict['use_neg_sample'] 的值，函数决定如何选择负例样本。如果值为 'True'，则将 df_0 数据框复制给 df_train_0，并根据 df_1 的长度进行抽样。如果 df_0 的长度大于等于 df_1 的长度，则抽样数量为 len(df_1)；否则，函数还会从 df_9 数据框中抽样剩余的样本，抽样数量为 len(df_train_1) 减去 len(df_0)，random_state 参数同样用于设置随机种子。如果 cfg_train_dict['use_neg_sample'] 的值不为 'True'，则直接从 df_9 数据框中抽样数量为 round(len(df_train_1)) 的样本作为负例样本，并将其赋值给 df_train_0。接下来，函数给 df_train_0 添加了一个名为 'label' 的列，并将所有行的值都设置为 0。函数打印了 df_train_1 和 df_train_0 的长度。然后，函数将 df_train_1 和 df_train_0 两个数据框按行合并成一个新的数据框 df_train。接着，函数根据 df_train_1 的索引和 df_1 的索引的差异，获取了 df_1 中不在训练集中的样本，并将其赋值给 df_1_final_test。接下来，函数从 df_9 数据框中随机抽样数量为 round(len(df_1_final_test)) 的样本作为负例测试集，并给其添加一个名为 'label' 的列，所有行的值都设置为 0。最后，函数将 df_1_final_test 和 df_9_final_test 两个数据框按行合并成一个新的数据框 df_ft。这段代码的作用是根据配置参数设置训练集和测试集。训练集由正例样本和负例样本组成，而测试集则包含了未在训练集中出现的正例样本和负例样本。

if not os.path.exists('model/easy_feature_select.csv'): df_importances = df_importances[:150] df_importances.to_csv('model/easy_feature_select.csv', encoding='gbk', index=False) # 根据筛选后的特征重新加载数据 x_train, x_test, y_train, y_test, df_ft = set_data(df_0, df_1, df_9, cfg_dict) # 相关系数，补充未被筛选为重要特征但与重要特征相关性较大的其他特征 feature_list = x_train.columns.tolist() df_corr = x_train.corr() df_corr = df_corr.replace(1, 0) # 筛选出相关系数大于0.85的特征 for i in range(len(df_corr.columns)): if i >= len(df_corr.columns): break column = df_corr.columns[i] names = df_corr[abs(df_corr[column]) >= 0.85].index.tolist() if names: print(column, '的强相关特征：', names) feature_list = [i for i in feature_list if i not in names] df_corr = x_train[feature_list].corr() continue #feature_list = list(set(feature_list + ['呼叫次数', '入网时长（月）', # 'MOU_avg', 'DOU_avg', '省外流量占比_avg'])) df_feature = pd.DataFrame(feature_list, columns=['features']) df_importances = pd.merge(df_feature, df_importances, on='features', how='left') df_importances.to_csv('model/easy_feature_select.csv', encoding='gbk', index=False) # 根据筛选后的特征重新加载数据 x_train, x_test, y_train, y_test, df_ft = set_data(df_0, df_1, df_9, cfg_dict) # 重新训练 bst = fit(cfg_dict, x_train, y_train, x_test, y_test) df_importances = feature_imp(model=bst, x_train=x_train, plot=True) df_importances.to_csv('model/easy_feature_select.csv', encoding='gbk', index=False) # 根据重新排序的特征训练模型 x_train, x_test, y_train, y_test, df_ft = set_data(df_0, df_1, df_9, cfg_dict) bst = fit(cfg_dict, x_train, y_train, x_test, y_test)

这段代码用于特征选择和重新训练模型的过程。首先，代码通过判断是否存在 'model/easy_feature_select.csv' 文件来判断是否需要进行特征选择。如果文件不存在，则进行特征选择的步骤。在特征选择的过程中，首先将 df_importances 数据框的前150个特征保存到 'model/easy_feature_select.csv' 文件中，然后重新加载数据，获取新的训练集和测试集。接着，计算特征之间的相关系数，并筛选出相关系数大于0.85的特征。如果存在相关系数大于0.85的特征，则将这些特征从特征列表 feature_list 中移除，并重新计算相关系数。然后，将筛选后的特征列表 feature_list 和 df_importances 数据框进行合并，并将合并结果保存到 'model/easy_feature_select.csv' 文件中。再次重新加载数据，获取新的训练集和测试集。接下来，重新训练模型，并将训练好的模型保存到 bst 变量中。然后，通过调用 feature_imp 函数获取新模型的特征重要性信息，并将其保存到 'model/easy_feature_select.csv' 文件中。最后，再次重新加载数据，获取新的训练集和测试集。重新训练模型，并将训练好的模型保存到 bst 变量中。这段代码的作用是进行特征选择和重新训练模型的过程。在特征选择中，通过计算特征之间的相关系数，筛选出与重要特征相关性较大的其他特征，并将这些特征从特征列表中移除。然后，重新训练模型，并保存新模型的特征重要性信息。最后，再次重新加载数据，重新训练模型。

阅读全文

df_h = df[df['加仓']=='True'] 为什么df_h 是空的

相关推荐

df.rank & pd.pivot_table & pd.read_excel & df添加行 &调整df行列顺序(reindex再理解）

df_config:为基于Django的网站定义智能默认设置，并合并多个设置源

java8看不到源码-df:df

df_nav_u = df_NAV[df_NAV['组合名称']==u] df_nav_u = df_nav_u.sort_values(by='持仓日期', ascending=True) 获取df最后一行，净值(无税费)列的值

def feature_extracter(train_df, test_df, binary_flag=False, m_features=1000, has_test=True):中的has_test=true是什么意思

最新推荐

(179979052)基于MATLAB车牌识别系统【带界面GUI】.zip

Java毕业设计项目：校园二手交易网站开发指南

管理建模和仿真的文件

【MVC标准化：肌电信号处理的终极指南】：提升数据质量的10大关键步骤与工具

能否提供一个在R语言中执行Framingham数据集判别分析的详细和完整的代码示例？

Blaseball Plus插件开发与构建教程

"互动学习：行动中的多样性与论文攻读经历"

【天线性能提升密籍】：深入探究均匀线阵方向图设计原则及案例分析

C#怎么把图片存入名为当前日期的文件夹里

Deno Express：模仿Node.js Express的Deno Web服务器解决方案