系统随机加权采样python
时间: 2023-09-02 16:05:45 浏览: 128
以下是一个基本的Python代码示例,用于使用随机加权采样系统:
```python
import random
def weighted_random_choice(choices):
total = sum(w for c, w in choices)
r = random.uniform(0, total)
upto = 0
for c, w in choices:
if upto + w >= r:
return c
upto += w
choices = [('A', 1), ('B', 2), ('C', 3), ('D', 4), ('E', 5)]
for i in range(10):
print(weighted_random_choice(choices))
```
在此示例中,我们定义了一个`weighted_random_choice`函数,该函数接受一个选择列表,其中每个选择都是一个元组,其中包含选择的名称和其权重。我们使用`random.uniform`生成一个随机数,然后根据每个选择的权重进行加权采样,以选择一个单个选择。我们将该函数用于最初定义的选择列表,并使用循环进行多次采样。
相关问题
简单随机加权采样python
以下是一个简单的随机加权采样的Python代码示例:
```python
import random
def weighted_random_sampling(weights, k):
"""
:param weights: A list of non-negative weights.
:param k: The number of samples to draw.
:return: A list of indices indicating the sampled elements.
"""
if k > len(weights):
raise ValueError("k should be no greater than the length of weights.")
cum_weights = [0] + list(accumulate(weights))
total_weight = cum_weights[-1]
indices = []
for _ in range(k):
rand = random.uniform(0, total_weight)
for i, cum_weight in enumerate(cum_weights):
if rand < cum_weight:
indices.append(i - 1)
total_weight -= weights[i - 1]
cum_weights = [0] + list(accumulate(weights[:i - 1])) + [total_weight]
weights = weights[:i - 1] + weights[i:]
break
return indices
```
该函数的输入参数为权重列表和需要采样的数量。输出为一个采样结果的索引列表。
该函数的实现基于累计权重的概念。首先,通过累加所有权重,创建一个新的列表cum_weights。然后,将列表中的每个权重除以总权重,从而获得一个累计权重列表。这个累计权重列表中的每个条目表示前面所有权重的总和。
对于每个采样,生成一个随机数rand,介于0和总权重之间。然后,遍历累计权重列表,找到第一个大于rand的条目(即对应的权重),并将其对应的索引添加到结果列表中。接下来,将该索引对应的权重从权重列表中删除,并更新cum_weights和total_weight。在下一次迭代中,只考虑剩余的权重。
关于加权随机采样,还需要注意以下几点:
- 如果权重中有负数,会引发ValueError异常。
- 如果需要采样的数量k大于权重列表的长度,会引发ValueError异常。
- 由于使用了随机数,因此每次运行该函数都可能得到不同的结果。
1、针对iris.data数据集,实现随机采样、加权采样、分层采样。
好的,关于iris.data数据集的随机采样、加权采样、分层采样,可以使用Python中的sklearn库来实现。具体步骤如下:
首先,我们需要导入库并加载iris数据集:
```python
from sklearn.datasets import load_iris
iris = load_iris()
```
然后,我们可以对数据集进行随机采样,代码如下:
```python
import random
random_index = random.sample(range(len(iris.target)), 50)
X_random = iris.data[random_index]
y_random = iris.target[random_index]
```
上述代码使用了Python的随机采样函数`random.sample()`,随机选择50个样本。(当然,具体采样个数可以按需自定义)
接下来,我们实现加权采样,代码如下:
```python
from sklearn.utils import class_weight
# calculate class weight for each target class
class_weight = dict(zip(np.unique(iris.target), class_weight.compute_class_weight('balanced', np.unique(iris.target), iris.target)))
weights = {i:class_weight[label] for i, label in enumerate(iris.target)}
weighted_index = random.choices(range(len(iris.target)), weights=list(weights.values()), k=50)
X_weighted = iris.data[weighted_index]
y_weighted = iris.target[weighted_index]
```
上述代码中,我们先通过`class_weight.compute_class_weight()`函数来计算每个类别的权重,然后将其转化为一个字典。接下来使用`random.choices()`来根据样本的类别对对应的权重进行采样,最后获得50个加权样本。
最后我们实现分层采样,代码如下:
```python
from sklearn.model_selection import StratifiedShuffleSplit
sss = StratifiedShuffleSplit(n_splits=1, train_size=50, test_size=0, random_state=42)
for train_index, test_index in sss.split(iris.data, iris.target):
X_stratified = iris.data[train_index]
y_stratified = iris.target[train_index]
```
上述代码中,我们使用`StratifiedShuffleSplit`函数来创建一个分层抽样器,并利用该器来随机地选择50个样本。 这里我们只要训练集,因此测试集大小设置为0。 不过请注意,由于我们的数据集非常小,因此很可能采样结果是全部样本,这时可以适当调整`train_size`的值。
希望这些代码能够帮到你!
阅读全文