1. 对歌曲艺人数据mars_tianchi_songs进行处理，统计出艺人的个数以及每个艺人的歌曲数量。输出文件格式为exp2_1.csv，第一列为艺人的ID，第二列为该艺人的歌曲数目。最后一行输出艺人的个数。 2. 将用户行为表和歌曲艺人表以歌曲song_id作为关联，合并为一个大表。各列名称为第一到第五列与用户行为表的列名一致，第六到第十列为歌曲艺人表中的第二列到第六列的列名。输出文件名为exp2_2.csv。 3. 按照艺人统计每个艺人每天所有歌曲的播放量，输出文件为exp2_3.csv，各个列名为艺人id,日期Ds，歌曲播放总量。注意：这里只统计歌曲的播放量，不包括下载和收藏的数量。 4. 对文件exp2_2.csv进行操作，查找重复数据的数量，并去重，得到新的文件exp2_4.csv。 5. 在去重后的文件exp2_4.csv上统计每位艺人每首歌曲每天的播放量，第一列为艺人id,第二列为歌曲，第三列为日期，第四列为播放量，并分别按照艺人、歌曲、日期排序，保存到exp2_5.csv。

时间: 2023-06-02 12:01:43 浏览: 239

1. 代码实现： ```python import pandas as pd # 读取歌曲艺人数据 df_songs = pd.read_csv('mars_tianchi_songs.csv') # 按照艺人id分组，统计每个艺人的歌曲数量 artist_count = df_songs.groupby('artist_id')['song_id'].count() # 将结果保存到文件 artist_count.to_csv('exp2_1.csv', header=['歌曲数量']) with open('exp2_1.csv', 'a') as f: f.write(f'艺人数量,{len(artist_count)}\n') ``` 2. 代码实现： ```python import pandas as pd # 读取用户行为表和歌曲艺人表 df_actions = pd.read_csv('mars_tianchi_user_actions.csv') df_songs = pd.read_csv('mars_tianchi_songs.csv') # 合并两个表格 df_merged = pd.merge(df_actions, df_songs, on='song_id') # 保存结果到文件 df_merged.to_csv('exp2_2.csv', index=False) ``` 3. 代码实现： ```python import pandas as pd # 读取用户行为表和歌曲艺人表 df_actions = pd.read_csv('mars_tianchi_user_actions.csv') df_songs = pd.read_csv('mars_tianchi_songs.csv') # 合并两个表格 df_merged = pd.merge(df_actions, df_songs, on='song_id') # 按照艺人和日期分组，统计每个艺人每天所有歌曲的播放量 df_grouped = df_merged.groupby(['artist_id', 'Ds'])['play'].sum() # 保存结果到文件 df_grouped.to_csv('exp2_3.csv', header=['播放量']) ``` 4. 代码实现： ```python import pandas as pd # 读取文件 df = pd.read_csv('exp2_2.csv') # 查找重复数据 duplicate_count = df.duplicated().sum() # 去重 df_unique = df.drop_duplicates() # 保存结果到文件 df_unique.to_csv('exp2_4.csv', index=False) # 输出重复数据的数量 print(f'重复数据的数量：{duplicate_count}') ``` 5. 代码实现： ```python import pandas as pd # 读取文件 df = pd.read_csv('exp2_4.csv') # 按照艺人、歌曲、日期分组，统计播放量 df_grouped = df.groupby(['artist_id', 'song_id', 'Ds'])['play'].sum() # 排序 df_sorted = df_grouped.reset_index().sort_values(['artist_id', 'song_id', 'Ds']) # 保存结果到文件 df_sorted.to_csv('exp2_5.csv', index=False) ```

阅读全文

相关推荐

阿里音乐趋势数据 mars_tianchi_artist_plays_predict.csv

tianchi_mobile_recommend_train_user-数据集

TIANCHI-津南数字制造算法挑战赛_language6l4_d5841.com_机器学习_数据挖掘_数据竞赛_

3. 在用户行为表中,统计所有歌曲和歌曲行为量(播放量+下载量+收藏量)且歌曲数量降序,准备用来预测艺人哪些歌曲比较受欢迎

tianchi_bottle-master

在使用SSAC模型对肺结节进行良恶性分类时，如何融合对抗自编码器和有监督分类网络，并在LIDC-IDRI与Tianchi数据集上进行应用？

企业用电量tianchi_power2 资源

r: [Errno 22] Invalid argument: 'A:\\001_Guo_Dan\\train1\\tianchi_txt\\tiaohua\\:'

如何利用半监督对抗学习方法实现肺结节良恶性分类？请结合SSAC模型和LIDC-IDRI及Tianchi数据集进行说明。

with open(txt_name) as f: OSError: [Errno 22] Invalid argument: 'A:\\001_Guo_Dan\\train1\\tianchi_txt\\tiaohua\\:'

在肺结节良恶性分类任务中，SSAC模型是如何通过对抗自编码器和有监督分类网络的结合来提高分类准确性的？请结合LIDC-IDRI和Tianchi数据集进行详细解释。

Can't get attribute 'SPPF' on <module 'models.common' from 'D:\\workspace\\pythonProject\\tianchi_mchar\\yolov5-master\\models\\common.py'>

怎么在阿里天池上用训练好自己的数据集的yolox模型在阿里天池上进行目标检测

请帮我找网络负载的时间序列数据集，我要用于训练LSTM模型，并进行负载预测

淘宝母婴购物性别数据可视化分析

国内大规模公开数据集

大家在看

煤矿井下图像型早期火灾探测

PDK安装及cdl文件和gds文件的导入

SAP各模块字段与表的对应关系

蓝牙室内定位服务源码！

Cadence Allegro16.6高级进阶教程

最新推荐

数据清洗之 csv文件读写

淘宝母婴商品分析-Python

虚拟串口软件：实现IP信号到虚拟串口的转换

【Python进阶篇】：掌握这些高级特性，让你的编程能力飞跃提升

后端调用ragflow api

IE6下实现PNG图片背景透明的技术解决方案

【欧姆龙触摸屏故障诊断全攻略】

Educoder综合练习—C&C++选择结构

VBS简明教程：批处理之家论坛下载指南

【欧姆龙触摸屏：新手必读的10个操作技巧】