data.loc怎么用

`data.loc` 是 Pandas 中用来选择行和列的方法。它可以通过行和列的标签进行选择。具体用法如下：选取行： ```python data.loc[row_label] # 选取单行 data.loc[start_row_label : end_row_label] # 选取多行 ``` 选取列： ```python data.loc[:, col_label] # 选取单列 data.loc[:, start_col_label : end_col_label] # 选取多列 ``` 选取行和列： ```python data.loc[row_label, col_label] # 选取单元格 data.loc[start_row_label : end_row_label, start_col_label : end_col_label] # 选取多行多列 ``` 其中，`row_label` 和 `col_label` 可以是单个标签、标签列表或者标签切片。例如，如果我们有一个 DataFrame `df`，其中有两列 `name` 和 `age`，我们想要选取 `name` 列中前三行的数据，可以使用如下代码： ```python df.loc[:2, 'name'] ``` 这样就会返回一个包含前三行 `name` 列数据的 Series 对象。

for i in range (data.loc[:,data.dtypes.values=="int64"].shape[1]): data.loc[i,data.dtypes.values=="int64"]= data.loc[i,data.dtypes.values=="int64"].apply(lambda x: float(x))

这段代码的作用是将DataFrame中的整型数据转化为浮点型数据。具体实现如下： 1. `data.loc[:,data.dtypes.values=="int64"]` 会先获取DataFrame中所有数据类型为int64的列； 2. `data.loc[i,data.dtypes.values=="int64"]` 会获取第i列数据类型为int64的数据； 3. `data.loc[i,data.dtypes.values=="int64"].apply(lambda x: float(x))` 会将第i列数据类型为int64的数据中的每个元素都转化为浮点型数据。这里使用了apply()方法，apply()会对Series中的每个元素都执行指定的操作，lambda x: float(x)表示将每个元素都转化为浮点型数据； 4. 最后将转化后的浮点型数据赋值回原始DataFrame中。需要注意的是，这段代码中的循环实际上是对DataFrame中的每一列都执行了一遍相同的操作，因此可以使用applymap()方法来简化代码，如下所示： ```python data.loc[:, data.dtypes.values == "int64"] = data.loc[:, data.dtypes.values == "int64"].applymap(float) ``` 这样就可以将DataFrame中所有数据类型为int64的数据都转化为浮点型数据了。

data["水流量"] = data["水流量"] / 60 # 原单位L/min，现转换为L/sec sj["总用水量"] = 0 # 给总用水量赋一个初始值0 for i in range(len(sj)): Start = sj.loc[i,"事件起始编号"]-1 End = sj.loc[i,"事件终止编号"]-1 if Start != End: for j in range(Start,End): if data.loc[j,"水流量"] != 0: sj.loc[i,"总用水量"] = (data.loc[j + 1,"发生时间"] - data.loc[j,"发生时间"]).seconds* \ data.loc[j,"水流量"] + sj.loc[i,"总用水量"] sj.loc[i,"总用水量"] = sj.loc[i,"总用水量"] + data.loc[End,"水流量"] * 2 else: sj.loc[i,"总用水量"] = data.loc[Start,"水流量"] * 2 sj["平均水流量"] = sj["总用水量"] / sj["用水时长"] # 定义特征平均水流量 # 构造特征：水流量波动 # 水流量波动=∑(((单次水流的值-平均水流量)^2)*持续时间)/用水时长 sj["水流量波动"] = 0 # 给水流量波动赋一个初始值0 for i in range(len(sj)): Start = sj.loc[i,"事件起始编号"] - 1 End = sj.loc[i,"事件终止编号"] - 1 for j in range(Start,End + 1): if data.loc[j,"水流量"] != 0: slbd = (data.loc[j,"水流量"] - sj.loc[i,"平均水流量"])**2 slsj = (data.loc[j + 1,"发生时间"] - data.loc[j,"发生时间"]).seconds sj.loc[i,"水流量波动"] = slbd * slsj + sj.loc[i,"水流量波动"] sj.loc[i,"水流量波动"] = sj.loc[i,"水流量波动"] / sj.loc[i,"用水时长"] # 构造特征：停顿时长波动 # 停顿时长波动=∑(((单次停顿时长-平均停顿时长)^2)*持续时间)/总停顿时长 sj["停顿时长波动"] = 0 # 给停顿时长波动赋一个初始值0 for i in range(len(sj)): if sj.loc[i,"停顿次数"] > 1: # 当停顿次数为0或1

时，停顿时长波动为0 Start = sj.loc[i,"事件起始编号"] - 1 End = sj.loc[i,"事件终止编号"] - 1 tdsc = sj.loc[i,"停顿时长"] tdc = sj.loc[i,"停顿次数"] for j in range(Start,End): if data.loc[j,"水流量"] == 0: tdsc = (data.loc[j + 1,"发生时间"] - data.loc[j,"发生时间"]).seconds + tdsc sj.loc[i,"总停顿时长"] = tdsc sj.loc[i,"平均停顿时长"] = tdsc / tdc for j in range(Start,End + 1): if data.loc[j,"水流量"] == 0: tdbd = (tdsc / tdc - (data.loc[j + 1,"发生时间"] - data.loc[j,"发生时间"]).seconds)**2 tdsj = (data.loc[j + 1,"发生时间"] - data.loc[j,"发生时间"]).seconds sj.loc[i,"停顿时长波动"] = tdbd * tdsj + sj.loc[i,"停顿时长波动"] sj.loc[i,"停顿时长波动"] = sj.loc[i,"停顿时长波动"] / sj.loc[i,"总停顿时长"] # 构造特征：用水习惯 sj["用水习惯"] = 0 # 给用水习惯赋一个初始值0 for i in range(len(sj)): if sj.loc[i,"用水时长"] > 0: sj.loc[i,"用水习惯"] = sj.loc[i,"总用水量"] / sj.loc[i,"用水时长"]

for i in range (data.loc[:,data.dtypes.values=="int64"].shape[1]): data.loc[i,data.dtypes.values=="int64"]= data.loc[i,data.dtypes.values=="int64"].apply(lambda x: float(x))

相关推荐

Python数据分析与挖掘实战学习笔记(1).md

Geo-Loc-Data-Vis

pandas通过loc生成新的列方法

data.loc解释一下

补全代码def predict_price(model, data, window_size): # 预测股票价格 obs = np.array([ data.loc[len(data) - window_size:len(data), 'Open'].values / 200, data.loc[len(data) - window_size:len(data), 'High'].values / 200, data.loc[len(data) - window_size:len

for train_index, test_index in split.split(data, data["label"]): strat_train_set = data.loc[train_index] strat_test_set = data.loc中strat_test_set = data.loc是什么意思

csv_data = pd.read_csv(path, header=None) dataset = csv_data.loc[:, 0:96] labels = csv_data.loc[:, 95]

data.loc[i, 'temp_range'] = data.loc[i, 'iu39Ti'] - data.loc[i, 'iu38To']报错ValueError: Must have equal len keys and value when setting with an iterable

data.loc()经纬度的用法

data = pd.read_csv('data.csv') train, test = train_test_split(data, test_size=0.3, random_state=42) oot = data.loc[data['month'] == '202107'] psi = data.loc[data['month'] == '202106'] 这段代码里面的训练集包含了oot和psi样本这是错误点对吗

data = pd.read_csv('E:\\pythonProject22\\2\\1.csv') print(data) data['label'] = 0 # 异常值 # 三列值小于0 data.loc[(data['WindSpeed'] <= 0), 'label'] = 1 data.loc[(data['Power'] <= 0), 'label'] = 1 data.loc[(data['RotorSpeed'] <= 0), 'label'] = 1

File "D:\Pydemo\venv\pythonProject\main.py", line 11, in <module> plt.scatter(data.loc[:, 'Exam1'], data.loc[:, 'Exam2'])

最新推荐

L-SHADE-E.zip

微信小程序-豆瓣图书小程序项目源码-原生开发框架-含效果截图示例.zip

zigbee-cluster-library-specification

管理建模和仿真的文件

MATLAB柱状图在信号处理中的应用：可视化信号特征和频谱分析

前端深拷贝 和浅拷贝有哪些方式,你在哪里使用过

JSBSim Reference Manual

"互动学习：行动中的多样性与论文攻读经历"

MATLAB柱状图在数据分析中的作用：从可视化到洞察

jsp页面如何展示后台返回的xml代码

前端深拷贝和浅拷贝有哪些方式,你在哪里使用过