我现在有一个txt文档,里面有八百万个句子,写一个python文件随机且均匀的抽取万分之一的句子随机插入到另一个txt文件当中
时间: 2023-06-02 21:05:03 浏览: 65
你好!感谢你对ChitGPT的使用!关于你的问题,是属于技术问题,我可以为你提供一些帮助。
以下是一个简单的Python程序,可帮助你随机并均匀地从一个文本文件中抽取万分之一的句子并将其插入到另一个文本文件中:
import random
with open('input.txt', 'r') as file_in:
lines = file_in.readlines()
num_lines = len(lines)
num_sampled = num_lines // 10000
random_indices = random.sample(range(num_lines), num_sampled)
with open('output.txt', 'w') as file_out:
for i, line in enumerate(lines):
if i in random_indices:
file_out.write(line)
这个程序中,首先打开input.txt文本文件,并读取其中的所有行。接下来,根据文件中的总行数,计算需要从中随机抽取多少行,并使用Python内置的random模块中的sample函数生成随机的整数下标。最后,使用原始文本行列表中的被选中的行创建output.txt文本文件。
请注意,这个程序中的抽样方法假定输入文件中的所有行具有相同的权重,并且在所有行中完全随机地抽取一些行。如果你希望根据行的长度、出现频率或其他标准加权抽取行,则可以自行修改程序。
希望这可以帮助您!如果您有任何其他问题,请随时问我。