1. 对歌曲艺人数据mars_tianchi_songs进行处理,统计出艺人的个数以及每个艺人的歌曲数量。输出文件格式为exp2_1.csv,第一列为艺人的ID,第二列为该艺人的歌曲数目。最后一行输出艺人的个数。 2. 将用户行为表和歌曲艺人表以歌曲song_id作为关联,合并为一个大表。各列名称为第一到第五列与用户行为表的列名一致,第六到第十列为歌曲艺人表中的第二列到第六列的列名。输出文件名为exp2_2.csv。 3. 按照艺人统计每个艺人每天所有歌曲的播放量,输出文件为exp2_3.csv,各个列名为艺人id,日期Ds, 歌曲播放总量。注意:这里只统计歌曲的播放量,不包括下载和收藏的数量。 4. 对文件exp2_2.csv进行操作,查找重复数据的数量,并去重,得到新的文件exp2_4.csv。 5. 在去重后的文件exp2_4.csv上统计每位艺人每首歌曲每天的播放量,第一列为艺人id,第二列为歌曲,第三列为日期,第四列为播放量,并分别按照艺人、歌曲、日期排序,保存到exp2_5.csv。
时间: 2023-06-02 21:01:43 浏览: 228
1. 代码实现:
```python
import pandas as pd
# 读取歌曲艺人数据
df_songs = pd.read_csv('mars_tianchi_songs.csv')
# 按照艺人id分组,统计每个艺人的歌曲数量
artist_count = df_songs.groupby('artist_id')['song_id'].count()
# 将结果保存到文件
artist_count.to_csv('exp2_1.csv', header=['歌曲数量'])
with open('exp2_1.csv', 'a') as f:
f.write(f'艺人数量,{len(artist_count)}\n')
```
2. 代码实现:
```python
import pandas as pd
# 读取用户行为表和歌曲艺人表
df_actions = pd.read_csv('mars_tianchi_user_actions.csv')
df_songs = pd.read_csv('mars_tianchi_songs.csv')
# 合并两个表格
df_merged = pd.merge(df_actions, df_songs, on='song_id')
# 保存结果到文件
df_merged.to_csv('exp2_2.csv', index=False)
```
3. 代码实现:
```python
import pandas as pd
# 读取用户行为表和歌曲艺人表
df_actions = pd.read_csv('mars_tianchi_user_actions.csv')
df_songs = pd.read_csv('mars_tianchi_songs.csv')
# 合并两个表格
df_merged = pd.merge(df_actions, df_songs, on='song_id')
# 按照艺人和日期分组,统计每个艺人每天所有歌曲的播放量
df_grouped = df_merged.groupby(['artist_id', 'Ds'])['play'].sum()
# 保存结果到文件
df_grouped.to_csv('exp2_3.csv', header=['播放量'])
```
4. 代码实现:
```python
import pandas as pd
# 读取文件
df = pd.read_csv('exp2_2.csv')
# 查找重复数据
duplicate_count = df.duplicated().sum()
# 去重
df_unique = df.drop_duplicates()
# 保存结果到文件
df_unique.to_csv('exp2_4.csv', index=False)
# 输出重复数据的数量
print(f'重复数据的数量:{duplicate_count}')
```
5. 代码实现:
```python
import pandas as pd
# 读取文件
df = pd.read_csv('exp2_4.csv')
# 按照艺人、歌曲、日期分组,统计播放量
df_grouped = df.groupby(['artist_id', 'song_id', 'Ds'])['play'].sum()
# 排序
df_sorted = df_grouped.reset_index().sort_values(['artist_id', 'song_id', 'Ds'])
# 保存结果到文件
df_sorted.to_csv('exp2_5.csv', index=False)
```
阅读全文