政策依赖的人类反馈互动学习:COACH算法与机器人行为优化

需积分: 1 0 下载量 95 浏览量 更新于2024-08-04 收藏 401KB PDF 举报
身份认证 购VIP最低享 7 折!
领优惠券(最高得80元)