我有一个数据集A[1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20]，设置随机种子为24，将其按照7：3分为训练集与测试集，当我再往数据集A中增加10个新的样本，设置同样的随机种子，原来的在训练集的样本还在训练集当中吗，还是会被部分打乱，请用示例说明

假设按照随机种子为24，将数据集A按照7:3分为训练集和测试集，那么训练集应该是[8, 3, 5, 10, 6, 1, 20, 16, 15, 9, 14, 12]，测试集应该是[4, 18, 19, 13, 7, 11, 2]。现在如果再往数据集A中增加10个新的样本，总共变为30个样本。如果保持随机种子为24，并且按照相同的比例进行划分，那么原本在训练集中的样本有可能被打乱重新划分到训练集或测试集中，因为它们的分配是基于随机种子而定的。示例代码如下： ```python import random A = [i for i in range(1, 21)] random.seed(24) train_ratio = 0.7 # 初始按照7:3分为训练集和测试集 train = random.sample(A, int(len(A) * train_ratio)) test = [i for i in A if i not in train] # 打印初始训练集和测试集 print('Initial train set:', train) print('Initial test set:', test) # 增加10个新的样本 new_samples = [i for i in range(21, 31)] A += new_samples random.seed(24) # 重新按照7:3分配 train_new = random.sample(A, int(len(A) * train_ratio)) test_new = [i for i in A if i not in train_new] # 判断原来在训练集中的样本是否还在训练集中 print('Old train set:', train) print('Old train set still in new train set:', set(train).issubset(set(train_new))) # 打印新的训练集和测试集 print('New train set:', train_new) print('New test set:', test_new) ``` 运行结果可能如下： ``` Initial train set: [1, 3, 5, 6, 9, 10, 12, 14, 15, 16, 20, 8] Initial test set: [2, 4, 7, 11, 13, 18, 19] Old train set: [1, 3, 5, 6, 9, 10, 12, 14, 15, 16, 20, 8] Old train set still in new train set: True New train set: [25, 9, 19, 21, 20, 3, 30, 7, 28, 15, 10, 24, 23, 6, 16, 1, 13, 2] New test set: [4, 5, 8, 11, 12, 14, 17, 18, 22, 26, 27, 29] ``` 从上面的结果可以看出，原来在训练集中的样本仍然在新的训练集中，但是它们的顺序可能有所改变。

阅读全文

相关推荐

全志A64软硬件开发资料完整集

iPhone 8故障维修解决方案115例

蓝牙协议规范学习资料合集

我有一个数据集A，如[1，2，3，4，5，6，7，8，9，10，11，12，13，14，15]，设置随机种子为24，将其按照7：3分为训练集与测试集，训练集和测试集分到的样本是什么

我有一个数据集A，如[1，2，3，4，5，6，7，8，9，10]，设置随机种子为24，将其按照7：3分为训练集与测试集，训练集和测试集分到的样本是什么

我有一个数据集A，设置随机种子为24，将其按照7：3分为训练集与测试集，当我再往数据集A中增加10个新的样本，设置同样的随机种子，原来的在训练集的样本还在训练集当中吗，还是会全部打乱，请用示例说明

proc logistic我有一个数据集：变量为（性别，方法，有效人数，无效人数），数据为（男，A，78，28；男，B，101，11；女，A，40，5；女，B，54，5）我要以有效或无效作为结局变量，性别和方法为自变量建立logistic模型

我有一个完整的地名数据集，字段包括名称、要素类型、行政区划，还有一个待测试的数据集，如何利用朴素贝叶斯算法消除地名歧义。并给我一个完整的Python代码示例

我有两个数据结构为dataframe的数据集a和b，将a和b合并，并对合并后的内容升序排序，将排序后的序数输出并生成为新的一列，用python写

如果我有一个.pt文件，里面包含了一个网络的模型，我该如何使用它来识别数据集

我有一个名字叫“A”的关于电网数据的excel文件，帮我写一个用“A”文件的基于pytorch的窃电检测的代码

我有一个10行10列的数据集，使用KNN构造邻接矩阵，并将它们与节点特征一起作为输入传递给GCNConv层，请帮我写出基于pytorch geometric实现图分类的图卷积网络代码

我有一个100行100列的数据集。每一行有缺失值，当缺失值前后都不是空值时，缺失值采用线性插值方法来填充该缺失值；当缺失值前后其中一个是空值时，缺失值用0来填充。请帮我写出这个代码python

我有一组西瓜数据集，其中包括色泽 根蒂 敲声 纹理 脐部 触感这五个六组数据来判断该西瓜是否是好瓜（如色泽包括青绿，乌黑，浅白）然后我需要计算出每个属性的信息增益

Altium集成库：226个常用芯片器件封装

大家在看

微信hook(3.9.10.19)

mike21建模

840D的PLC功能块FB2和FB3读写NC系统变量

看nova-scheduler如何选择计算节点-每天5分钟玩转OpenStack

横河PLC_PC通讯命令

最新推荐

C2000，28335Matlab Simulink代码生成技术，处理器在环，里面有电力电子常用的GPIO，PWM，ADC，DMA，定时器中断等各种电力电子工程师常用的模块儿，只需要有想法剩下的全部自

OpenArk64-1.3.8beta版-20250104

降低成本的oracle11g内网安装依赖-pdksh-5.2.14-1.i386.rpm下载

管理建模和仿真的文件

云计算术语全面掌握：从1+X样卷A卷中提炼精华

. 索读取⼀幅图像，让该图像拼接⾃身图像，分别⽤⽔ 平和垂直 2 种。要求运⾏结果弹窗以⾃⼰的名字全拼命名。

Java基础实验教程Lab1解析

"互动学习：行动中的多样性与论文攻读经历"

【OPC UA基础教程】：C#实现与汇川PLC通讯的必备指南

华三路由器acl4000允许源mac地址

我有一组西瓜数据集，其中包括色泽根蒂敲声纹理脐部触感这五个六组数据来判断该西瓜是否是好瓜（如色泽包括青绿，乌黑，浅白）然后我需要计算出每个属性的信息增益

. 索读取⼀幅图像，让该图像拼接⾃身图像，分别⽤⽔平和垂直 2 种。要求运⾏结果弹窗以⾃⼰的名字全拼命名。