首页def sample(data,typesample): return data[data['type']==typesample].sample(frac=0.8) types = df['type'].unique() samples = [sample(df,typesample) for typesample in types] samples = pd.concat(samples,axis=0) #print(samples) samples.to_csv("type_gs.csv",index=False) dataset = pd.read_csv('type_gs.csv') #将房型放置第一列 cols = list(dataset) print(cols) cols.insert(0, cols.pop(cols.index('type'))) print(cols) data = dataset.loc[:, cols] data.to_csv('type_gs.csv', index=False)是什么意思

def sample(data,typesample): return data[data['type']==typesample].sample(frac=0.8) types = df['type'].unique() samples = [sample(df,typesample) for typesample in types] samples = pd.concat(samples,axis=0) #print(samples) samples.to_csv("type_gs.csv",index=False) dataset = pd.read_csv('type_gs.csv') #将房型放置第一列 cols = list(dataset) print(cols) cols.insert(0, cols.pop(cols.index('type'))) print(cols) data = dataset.loc[:, cols] data.to_csv('type_gs.csv', index=False)是什么意思

时间: 2024-03-29 07:36:06 浏览: 58

python DataScience数据分析笔记day02

day02-数据可视化-坐标-图例-标注-子图-刻度-半对数坐标-散点图-条形图-饼状图-等高线

这段代码的作用如下：首先，定义了一个名为`sample`的函数，用于从数据集中按指定类型随机抽取80%的数据。然后，获取数据集中所有不同的类型，然后分别对每种类型调用`sample`函数，将抽样后的数据保存在`samples`列表中。接着，将`samples`列表中的所有数据按行合并，得到一个新的数据集，并将其保存为CSV文件`type_gs.csv`。读取`type_gs.csv`文件，并将“房型”列移动到第一列。最后，将新的数据集保存为CSV文件`type_gs.csv`，并覆盖原文件。整个代码的作用是将原始数据集按照不同的类型进行划分，并对每种类型进行随机抽样，最终得到一个新的数据集，其中每种类型的数据比例大致为原数据集中该类型数据的80%。

阅读全文

最新推荐

相关推荐

模式识别：T'T=I约束下的均方误差最小化

使用C++求解n=1000时π的近似值

train_data = data.sample(frac=0.8, random_state=1) test_data = data.drop(train_data.index)

翻译一下 shuffle_data = merge_data.sample(frac=1.0) shuffle_data = shuffle_data.reset_index(drop=True)

pearsonCorrelation(​Xp,Y_data,L):找到皮尔逊相关系数-matlab开发

xiangduiwucha.rar_site:www.pudn.com_相对分析误差_相对误差_相对误差MATLAB_误差分析

data-transformation.pdf

c代码-一阶IIR，截止频率：2.122kHz，滤波器结构：巴特沃兹，稳态增益：1

rss_friis.m:接收信号强度-matlab开发

discretefouriertran​sform.m:离散傅立叶变换-matlab开发

SmoothingKernels.jl:平滑内核以用于内核回归和内核密度估计

data_ave.rar_XSV_均值

人教版初三数学：39.实际问题与反比例函数（提高）巩固练习.doc

人教版初三数学：39.实际问题与反比例函数（基础）巩固练习.doc

Pagina-Frac

2022学年高中数学苏教版必修3教学案：2.32.3.2方差与标准差-含解析归纳.pdf

sums-notesbank-sample2:SUMS notesbank的网站版本（正在进行中）

MATLAB实现Lotka-Volterra竞争模型：dxdt.m模拟与分析

python中的data.sample怎么用

最新推荐

关于多元线性回归分析——Python&SPSS

JavaScript实现的高效pomodoro时钟教程

管理建模和仿真的文件

【WebLogic客户端兼容性提升秘籍】：一站式解决方案与实战案例

使用jupyter读取文件“近5年考试人数.csv”，绘制近5年高考及考研人数发展趋势图，数据如下（单位：万人）。

CMake 3.25.3版本发布：程序员必备构建工具

"互动学习：行动中的多样性与论文攻读经历"

数字信号处理全攻略：掌握15个关键技巧，提升你的处理效率

给定不超过6的正整数A，考虑从A开始的连续4个数字。请输出所有由它们组成的无重复数字的3位数。编写一个C语言程序

直流无刷电机控制技术项目源码集合

pearsonCorrelation(Xp,Y_data,L):找到皮尔逊相关系数-matlab开发

discretefouriertransform.m:离散傅立叶变换-matlab开发