请用Python生成建立关联账户识别模型所需要的随机数据,要求数据量为1000000,字段数目为15,并且包含一个二元标签,表示这两个账户是否存在关联
时间: 2024-03-20 13:41:39 浏览: 22
好的,以下是生成包含二元标签的关联账户随机数据的示例代码:
```python
import random
import csv
# 定义需要生成的数据量和字段数目
num_records = 1000000
num_fields = 15
# 定义每个字段可能的取值范围
field_values = {
'field1': ['value1', 'value2', 'value3'],
'field2': ['value4', 'value5', 'value6'],
'field3': ['value7', 'value8', 'value9'],
'field4': ['value10', 'value11', 'value12'],
'field5': ['value13', 'value14', 'value15'],
'field6': ['value16', 'value17', 'value18'],
'field7': ['value19', 'value20', 'value21'],
'field8': ['value22', 'value23', 'value24'],
'field9': ['value25', 'value26', 'value27'],
'field10': ['value28', 'value29', 'value30'],
'field11': ['value31', 'value32', 'value33'],
'field12': ['value34', 'value35', 'value36'],
'field13': ['value37', 'value38', 'value39'],
'field14': ['value40', 'value41', 'value42'],
'field15': ['value43', 'value44', 'value45']
}
# 创建CSV文件并写入数据
with open('data_with_label.csv', 'w', newline='') as csvfile:
writer = csv.writer(csvfile)
# 写入表头
field_names = list(field_values.keys()) + ['label']
writer.writerow(field_names)
# 写入随机数据和标签
for i in range(num_records):
record = []
for j in range(num_fields):
field_name = field_names[j]
field_options = field_values[field_name]
field_value = random.choice(field_options)
record.append(field_value)
# 添加二元标签
if i % 2 == 0:
record.append(1)
else:
record.append(0)
writer.writerow(record)
print("数据生成完毕!")
```
该代码与前一个示例代码类似,不同之处在于添加了一个名为'label'的字段,用于表示两个账户是否存在关联。在此示例中,我们通过判断记录的序号是否为偶数来随机生成标签。您可以根据需要修改标签生成的方式。