健身
MovieLens推荐健身房 1.概述 1.1总结 该项目将Stable-Baselines算法应用于MovieLens 100k数据集。 为此,代理的目标是预测user对给定movie 。 1.2实施 1.2.1环境 使用OpenAI的Gym框架作为基础类,将模拟器设置为POMDP问题。 奖励方案基于预测准确性: 该观察结果基于MovieLens数据集的派生功能: user_mean:特定user_id给出的平均评分 movie_mean:特定movie_id的平均评分 movie_genre_bucket:电影类型的热点 age_bucket:用户年龄段的热点 职业_铲斗:用户工作的热点 sex_bucket:用户性别的一小部分(仅M或F) 1.2.2代理 选择近端策略优化(PPO)算法作为代理,因为推荐问题是无状态的(或单一状态),因此使基于策略的方法(与基于值的方法相对)