1. 对歌曲艺人数据mars_tianchi_songs进行处理，统计出艺人的个数以及每个艺人的歌曲数量。输出文件格式为exp2_1.csv，第一列为艺人的ID，第二列为该艺人的歌曲数目。最后一行输出艺人的个数。 2. 将用户行为表和歌曲艺人表以歌曲song_id作为关联，合并为一个大表。各列名称为第一到第五列与用户行为表的列名一致，第六到第十列为歌曲艺人表中的第二列到第六列的列名。输出文件名为exp2_2.csv。 3. 按照艺人统计每个艺人每天所有歌曲的播放量，输出文件为exp2_3.csv，各个列名为艺人id,日期Ds，歌曲播放总量。注意：这里只统计歌曲的播放量，不包括下载和收藏的数量。 4. 对文件exp2_2.csv进行操作，查找重复数据的数量，并去重，得到新的文件exp2_4.csv。 5. 在去重后的文件exp2_4.csv上统计每位艺人每首歌曲每天的播放量，第一列为艺人id,第二列为歌曲，第三列为日期，第四列为播放量，并分别按照艺人、歌曲、日期排序，保存到exp2_5.csv。

时间: 2023-05-26 16:03:08 浏览: 206

1. import pandas as pd songs = pd.read_csv('mars_tianchi_songs.csv') artist_count = songs.groupby('artist_id').size().reset_index(name='song_count') artist_count.to_csv('exp2_1.csv', index=False) print("艺人数量：", len(artist_count)) 2. import pandas as pd behavior = pd.read_csv('mars_tianchi_user_behavior.csv') songs = pd.read_csv('mars_tianchi_songs.csv') merged = pd.merge(behavior, songs, on='song_id') merged.to_csv('exp2_2.csv', index=False) 3. import pandas as pd behavior = pd.read_csv('mars_tianchi_user_behavior.csv') songs = pd.read_csv('mars_tianchi_songs.csv') merged = pd.merge(behavior, songs, on='song_id') artist_plays = merged.groupby(['artist_id', 'Ds'])['play_count'].sum().reset_index(name='total_plays') artist_plays.to_csv('exp2_3.csv', index=False) 4. import pandas as pd merged = pd.read_csv('exp2_2.csv') duplicates = merged.duplicated().sum() print("重复数据数量：", duplicates) merged.drop_duplicates(inplace=True) merged.to_csv('exp2_4.csv', index=False) 5. import pandas as pd merged = pd.read_csv('exp2_4.csv') artist_song_plays = merged.groupby(['artist_id', 'song_id', 'Ds'])['play_count'].sum().reset_index(name='total_plays') artist_song_plays.sort_values(['artist_id', 'song_id', 'Ds'], inplace=True) artist_song_plays.to_csv('exp2_5.csv', index=False)

阅读全文

相关推荐

美赛TianChi_Meinian数据分析及特征工程流程

天池O2O竞赛数据集：xgb_preds.csv解析

数据分析实验二：用户行为与歌曲偏好研究

阿里音乐趋势数据 mars_tianchi_artist_plays_predict.csv

TIANCHI-津南数字制造算法挑战赛_language6l4_d5841.com_机器学习_数据挖掘_数据竞赛_

STM_Tianchi

阿里云天池大赛赛题解析_alibaba_tianchi_book.zip

text_detection_by_CTPN_tianchi_ICPR:阿里巴巴天池OCR比赛

天池-人工智能辅助糖尿病预测Rank422522_tianchi_competition_diabetes.zip

2018之江杯全球人工智能大赛__视频识别&问答_TianChi.zip

2021_“AI_Earth”人工智能创新挑战赛_AI助力精准气象和海洋预测_Tianchi_Prediction.zip

天池菜鸟-需求预测与分仓规划第二赛季代码_TianChi_CaiNiao_Season2.zip

第三届阿里云安全算法挑战赛_tianchi-3rd_security.zip

天池精准医疗大赛——人工智能辅助糖尿病遗传风险预测_第一赛季_tianchi-diabetes.zip

阿里云天池大赛2019——肺部CT多病种智能诊断，参赛代码_TianChi2019-lung-CT.zip

IJCAI18_Tianchi_Rank29:IJCAI18-阿里妈妈广告转化率预测代码（Rank29）

大家在看

台达变频器资料.zip

有限元软件Patran的二次开发语言PCL入门笔记

电力行业数字化转型智慧电力一体化监管云平台整体解决方案.docx

摩托车ECU硬件设计，程序源代码需自己开发

多无人机和实时局部轨迹规划最佳防撞算法附matlab代码.zip

最新推荐

数据清洗之 csv文件读写

淘宝母婴商品分析-Python

前端面试攻略（前端面试题、react、vue、webpack、git等工具使用方法）

租赁合同编写指南及下载资源

【项目管理精英必备】：信息系统项目管理师教程习题深度解析（第四版官方教材全面攻略）

最具代表性的改进过的UNet有哪些？

惠普P1020Plus驱动下载：办公打印新选择

数字电路实验技巧：10大策略，让你的实验效率倍增！

altium designer布线

Rust与OpenGL共同打造的迷宫游戏