生成假数据 生成的数据,包括user_id,job_id,click_num,collection_num,tag这些列 生成的数据,用于hadoop的mapreduce 读取finall大数据.csv,读取user.csv,随机选择user_id,随机生成这个userid的点击数,收藏数,标签,collection_num非零即一,tag非零即10,如果用户id的值已经匹配了一个工作id,那么这个工作id将不会再次出现,生成csv文件
时间: 2023-04-01 16:01:14 浏览: 102
好的,这个问题我可以回答。您可以使用Python编写一个脚本来生成假数据。首先,您需要读取finall大数据.csv和user.csv文件,然后随机选择一个user_id。接下来,您可以使用Python的random模块来生成随机的点击数和收藏数。对于标签,您可以使用random.choice()函数从一个预定义的标签列表中随机选择一个标签。最后,您可以将这些数据写入一个新的csv文件中。
以下是一个示例代码:
```python
import csv
import random
# 读取finall大数据.csv和user.csv文件
with open('finall大数据.csv', 'r') as f:
finall_data = list(csv.reader(f))
with open('user.csv', 'r') as f:
user_data = list(csv.reader(f))
# 定义标签列表
tags = ['tag1', 'tag2', 'tag3', 'tag4', 'tag5']
# 随机选择一个user_id
user_id = random.choice(user_data)[]
# 随机生成点击数和收藏数
click_num = random.randint(, 100)
collection_num = random.choice([, 1])
# 随机选择一个标签
tag = random.choice(tags)
if tag:
tag = 10
# 写入新的csv文件
with open('fake_data.csv', 'w', newline='') as f:
writer = csv.writer(f)
writer.writerow(['user_id', 'job_id', 'click_num', 'collection_num', 'tag'])
for row in finall_data:
if row[] != user_id:
writer.writerow([user_id, row[1], click_num, collection_num, tag])
```
请注意,这只是一个示例代码,您需要根据您的具体需求进行修改。
阅读全文