读取两个数据集,按比例提取数据,各从两个数据中提取部分数据构成新数据集
时间: 2024-02-16 21:03:20 浏览: 24
假设我们有两个数据集 `dataset1` 和 `dataset2`,我们需要按照比例提取数据,构成一个新数据集 `new_dataset`。
首先,我们需要确定从每个数据集中提取多少数据,可以根据比例进行计算。假设我们要从 `dataset1` 中提取数据的比例为 `p1`,从 `dataset2` 中提取数据的比例为 `p2`,则可以按照以下方式计算:
```python
total_len = len(dataset1) + len(dataset2)
new_len = int(total_len * (p1 + p2)) # 新数据集的长度
num1 = int(new_len * p1 / (p1 + p2)) # 从dataset1中提取的数据量
num2 = new_len - num1 # 从dataset2中提取的数据量
```
然后,我们可以使用 Python 的切片操作提取数据,构成新数据集。假设 `dataset1` 和 `dataset2` 中的数据都是由元组 `(x, y)` 组成,其中 `x` 是特征数据,`y` 是标签数据,则可以按照以下方式构建新数据集:
```python
import random
new_dataset = []
# 从dataset1中随机选择num1个数据
indices1 = random.sample(range(len(dataset1)), num1)
for i in indices1:
new_dataset.append(dataset1[i])
# 从dataset2中随机选择num2个数据
indices2 = random.sample(range(len(dataset2)), num2)
for i in indices2:
new_dataset.append(dataset2[i])
```
这样,我们就可以按照比例从两个数据集中提取数据,构成新的数据集 `new_dataset`。
相关推荐
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)