计算Steam上玩家的平均游戏时间。 Homework2 数据下载地址: cbfu.top/python2024/Data/steam-200k.csv
时间: 2024-12-16 07:18:45 浏览: 4
steam-recommendation-system:基于Steam游戏商店中可用的游戏的协同过滤的推荐引擎
要计算 Steam 上玩家的平均游戏时间,首先你需要从给定的 "steam-200k.csv" 数据文件中读取有关游戏时间和用户信息的数据。这个文件通常包含列如用户ID、游戏ID、游戏时长等。假设游戏时长是以小时为单位存储的。
以下是步骤概述:
1. **数据加载**:
使用 Python 的 pandas 库打开 CSV 文件并加载数据到 DataFrame 中。
```python
import pandas as pd
data = pd.read_csv("steam-200k.csv")
```
2. **数据预处理**:
确保游戏时长列是数值型,并检查是否存在缺失值或非正常数据。
```python
if "game_hours" in data.columns:
data["game_hours"] = pd.to_numeric(data["game_hours"], errors="coerce") # 将字符串转换成数值,忽略无法转换的
data = data.dropna(subset=["game_hours"]) # 删除 game_hours 列有缺失值的行
```
3. **计算平均游戏时间**:
对于每个用户的总游戏时间求和,然后除以用户数得到平均值。
```python
average_game_time = data.groupby("user_id")["game_hours"].sum().mean()
```
或者,如果你想要计算所有游戏的平均游戏时间,可以先按游戏ID分组再计算平均值:
```python
global_average_game_time = data["game_hours"].mean()
```
4. **结果打印**:
输出平均游戏时间。
```python
print(f"平均游戏时间为:{average_game_time:.2f} 小时")
```
记得在实际操作前确认你的数据集结构和列名是否匹配上述示例。
阅读全文