#因为labelNaN的数据很少，因此我们删除label为NaN的数据 data = data.dropna() data.info()

这是一个数据处理的代码片段，它的作用是从一个数据集中删除标签(label)为NaN的数据，然后输出处理后的数据集信息。其中，dropna()函数是一个pandas库中的函数，它可以删除包含NaN值的行或列。需要注意的是，删除NaN值可能会导致数据集样本量的减少，这可能会影响模型的训练和预测效果。因此，在进行数据处理时，应该根据实际情况选择是否删除NaN值。同时，也可以考虑使用一些填充NaN值的方法，如均值、中位数等。

def preprocess(data, window): data_corr = data.corr()['Power'] key = [] for i in data_corr.keys(): if (data_corr[i] > 0.6): key.append(i) data = data[key] data = data.dropna(subset=['Power']) #数据预处理：删除功率为空的数据组 data = data.fillna(0) # 数据预处理：将缺失值NAN值赋0 data[data < 0] = 0 #数据预处理：对<0的功率值赋为0 scaler = MinMaxScaler() # data[key] = scaler.fit_transform(data[key].to_numpy()) train_x = [] train_y = [] L = len(data) for i in range(L - window): train_seq = data[key][i:i + window] train_x.append(train_seq) train_label = data['Power'][i + window:i + window + 1] train_y.append(train_label) train_x = torch.from_numpy(np.array(train_x)) train_y = torch.from_numpy(np.array(train_y)) train_x = torch.tensor(train_x, dtype=torch.float) train_y = torch.tensor(train_y, dtype=torch.float) print(train_y.type()) return train_x, train_y

这段代码是一个数据预处理的函数，其中包含以下步骤： 1. 首先计算 DataFrame 数据中 'Power' 列与其他列的相关系数，筛选出相关系数大于 0.6 的列作为特征列； 2. 删除 'Power' 列中包含缺失值（NaN）的行； 3. 将 DataFrame 中的缺失值用 0 填充； 4. 对 DataFrame 中小于 0 的功率值赋为 0； 5. 使用 MinMaxScaler 进行特征缩放； 6. 将数据按照窗口大小 window 进行切分，每个窗口内包含 window 个连续的特征值和一个对应的功率值，作为训练数据； 7. 将训练数据转换为 PyTorch 张量，并返回训练数据集 train_x 和 train_y。需要注意的是，该函数中使用了 PyTorch 中的张量（tensor）作为数据类型，并且使用了 MinMaxScaler 对特征进行缩放。

import pandas as pd import numpy as np from sklearn.model_selection import train_test_split from sklearn.tree import DecisionTreeClassifier def data_input(): data=pd.read_excel('22AI1.xlsx') data=data.dropna(axis=0) data = data.reset_index(drop=True) data=data[['身高','体重']] return data # 分类瘦,中,胖为0,1,2 X=data_input() np_label=np.array([]) for h,w in zip(X.身高,X.体重): if h<=170 and w<60: np_label=np.append(np_label,'瘦') elif h>175 and w>70: np_label=np.append(np_label,'中') else: np_label=np.append(np_label,'胖') pd_label=pd.DataFrame({'标签': np_label}) print(pd_label) label=pd_label['标签'].map({'小':0,'中':1,'大':2}) print(label)为什么label会有nan

在上述代码中，标签的映射字典中只有 '小'，'中'，'大' 三个键值，而在np_label中的标签可能会包含其他的值，如 '瘦'，因此在映射过程中会产生缺失值 NaN。要解决这个问题，你需要在映射字典中加入 '瘦' 这个键，并为其指定一个值。比如：`label = pd_label['标签'].map({'瘦': 0, '小': 1, '中': 2, '大': 3})`。这样就可以将 '瘦' 对应到 0，避免了产生 NaN 的情况。

阅读全文

#因为labelNaN的数据很少，因此我们删除label为NaN的数据 data = data.dropna() data.info()

相关推荐

Vue.js初学者教程：数据双向绑定与常用指令解析

2019年8月22日数据集：date_label.csv深入解析

Vuex数据变更不触发组件渲染解决方案

data_last = pd.concat([df.iloc[:,:3],label])为什么最后一列是nan

大家在看

计算机辅助安全工程第4章安全模拟与仿真ppt课件.ppt

五子棋 C++ 图形版

DSR.rar_MANET DSR_dsr_dsr manet_it_manet

c语言进行数字图像处理

KEMET_聚合物钽电容推介资料

最新推荐

springboot167基于springboot的医院后台管理系统的设计与实现.zip

macOS 10.9至10.13版高通RTL88xx USB驱动下载

PyCharm开发者必备：提升效率的Python环境管理秘籍

matlab中VBA指令集

在Windows Forms和WPF中实现FontAwesome-4.7.0图形

【Postman进阶秘籍】：解锁高级API测试与管理的10大技巧

ubuntu22.04怎么恢复出厂设置

2001年度广告运作规划：高效利用资源的策略

【Postman终极指南】：掌握API测试到自动化部署的全流程

叙述图神经网络领域近年来最新研究进展