随机抽取样本算法：从N个数组中抽取M个不重复元素

需积分: 0 115 浏览量更新于2024-08-05 收藏 898KB PDF 举报

"这篇文档介绍了一种从大小为N的数组中随机抽取M个不重复元素的算法。作者强调该算法经过测试效果良好，并且主要关注如何避免重复抽取和提高效率。算法的核心在于使用列表记录已抽取的位置，并动态调整随机数的范围，以确保抽取的样本不重复。代码示例使用Java实现，包含了一个名为`RandomUtil`的类，其中的`testChance`方法用于测试算法的准确性和效率。" 这篇文档讨论的算法是针对数据抽样的问题，特别是在一个整数数组中抽取特定数量不重复元素的策略。在统计学和数据分析中，这样的操作称为无放回抽样，因为一旦某个元素被选中，它就不会再次被考虑。在这个场景下，目标是从一个大小为N的数组中抽取M个不同的元素。算法的实现步骤如下： 1. 准备两个数组，一个是原始数据数组`num1`，另一个是用于存储抽样结果的数组`num2`。 2. 使用一个循环执行M次，每次循环中： - 随机生成一个介于1到(N-M+1)之间的整数。这个范围确保不会超出剩余可抽取的位置。 - 将生成的随机数i映射回原始数组的索引，即实际位置为(i-1)。 - 将找到的元素添加到结果数组`num2`中。 - 记录已抽取的位置，防止重复抽取。 3. 在抽取过程中，不需要实际删除已选中的元素，而是通过维护一个记录已选位置的列表来跟踪哪些位置已被占用。为了提高效率，算法避免了每次抽取后重建数组的过程，而是通过更新随机数生成的范围来减少重复的可能性。这种做法减少了数组操作的复杂性，从而提高了整体性能。在提供的Java代码中，`RandomUtil`类的`testChance`方法可能用于对算法进行大量测试，以验证其准确性和运行时间。`main`方法中的注释表明，可以通过调用`testChance`来测试不同参数下的抽样效果，例如在9个元素中抽取3个，重复100,000次。这个算法提供了一种高效的方法来从一个群体中抽取不重复的样本，特别适用于大数据集和需要快速抽样的情况。通过避免不必要的数组操作和利用列表跟踪已抽取元素，它能够在保持正确性的同时提高效率。

2016/11/30

群体(大小为N的数组)中随机抽取一定数量(M个)的样本

ﬁle:///Users/lxc/Desktop/%E6%88%91%E7%9A%84%E7%AC%94%E8%AE%B0/%E7%BE%A4%E4%BD%93(%E5%A4%A7%E5%B0%8F%E4%B8%BA…

1/4

此算法是我个人研究的，经过测试证明我的算法还是不错的。

PS：这里的时间可能有点偏小，实际用时是2秒左右，我没有去研究原因了。

算法实现的功能

从一个群体(大小为N的数组)中随机抽取一定数量(M个)的样本

即

从一个大小为N的int数组中随机抽取M个不重复的元素放到一个新数组中



算法的设计思想

首先需要准备要被抽样的数组num1和存放抽样结果的数组num2

然后在M次循环中每次随机抽取一个数存入num2中

如果，每次从1到N这N个数中随机抽取一个整数作为被抽取的位置的话，那么可能会抽取到重复的数字，因此我

这里需要产生的随机数应该是原数组去掉已经被抽取的位置之后的位置，你可能会想到每次抽取一个数，就将这

个数从原数组里面去掉，然后再用剩下的元素重新组成数组，但是这样的话效率会很低，我的想法是用一个list

保存每次抽取的位置，由于每次抽取之后剩余的可抽取的数量都会减1，所以产生随机数的范围应当是N减去已

经抽取的次数，这样产生的随机i数代表了第i个剩余的元素，比如从1-10这10个数中抽取5个数，那么第3次抽取

的时候，应当从1-8这8个数中随机选一个数，代表剩下的8个数中的第几个数，然后通过一个方法处理一下，就

可以得出这个第几个在原来的数组中实际对应的位置，这部分是这个算法的关键之处。

算法的具体实现及准确率、效率测试



/**

*从一个集合中随机抽取一定数量的不重复的样本

*/

package算法设计;



import java.util.ArrayList;

import java.util.Collections;

import java.util.List;

import java.util.Random;



publicclass RandomUtil {



 /**

 *@paramargs

 */

 publicstaticvoid main(String[] args) {

 //test();



testChance

(9,3,100000);

 }



 //num:要抽取样本的集合

 //k:需要抽取样本的数量

 publicstaticint[] getSimple(int[] num,int k){

 if(num==null||num.length==0||num.length<k){

 returnnewint[0];

 }

下载后可阅读完整内容，剩余3页未读，立即下载

ShepherdYoung

粉丝: 40
资源: 337

随机抽取样本算法：从N个数组中抽取M个不重复元素

JS 在指定数组中随机取出N个不重复的数据

samplepick:从数组中随机选取一个样本-matlab开发

MATLAB随机抽样方法的实现与应用

Numpy.random分组采样：大数据集中抽取样本的技巧

【概率与结构】：在Python中如何利用随机列表进行高效数据建模

【数据清洗前奏】：Python随机列表在数据清洗中的关键作用

【随机森林：机器学习的决策树集成技术】：入门到精通，10个关键步骤全面解析

MATLAB随机整数生成非替换：生成不重复的随机整数的技巧，确保数据唯一性

借鉴专家经验：Python随机整数生成行业最佳实践

【TP900S数据分析管理】：从数据中提取价值的5个技巧

最新资源