400w数据的jsonl文件如何随机采样50w
时间: 2024-04-13 22:31:12 浏览: 196
您可以使用Python的random模块来实现随机采样。下面是一种可能的实现方式:
```python
import random
import jsonlines
# 打开原始文件和目标文件
with jsonlines.open('original.jsonl') as reader, jsonlines.open('sampled.jsonl', 'w') as writer:
# 将所有数据读取到列表中
data = list(reader)
# 随机采样50w条数据
sampled_data = random.sample(data, 500000)
# 将采样结果写入目标文件
for item in sampled_data:
writer.write(item)
```
上述代码假设原始数据文件名为`original.jsonl`,采样后的数据文件名为`sampled.jsonl`。您可以根据实际情况修改文件名和路径。代码将原始数据读取到一个列表中,然后使用`random.sample()`函数进行随机采样,最后将采样结果写入目标文件中。
请确保您的环境中已经安装了`jsonlines`库,如果没有安装可以通过`pip install jsonlines`命令进行安装。
阅读全文