深度强化学习：从人类偏好中复制OpenAI和DeepMind技术

需积分: 27 152 浏览量更新于2025-01-08 收藏 148.12MB ZIP 举报

资源摘要信息:"基于复制OpenAI和DeepMind的‘从人类偏好中进行深度强化学习’的研究" 在人工智能领域，深度强化学习（Deep Reinforcement Learning, DRL）是一种强大的技术，它将深度学习（Deep Learning）与强化学习（Reinforcement Learning, RL）结合起来，以实现更高效的机器学习。本研究参考了OpenAI和DeepMind的创新成果，探索了如何通过人类的偏好来指导深度强化学习过程。本资源文档详细介绍了使用合成偏好训练智能代理商进行具体任务的方法，以及如何根据个人喜好来调整代理商的培训过程。 ### 深度强化学习简介深度强化学习是一种模型不直接学习输入到输出的映射，而是通过试错（trial and error）的方式来学习在特定环境中采取怎样的行动可以最大化预期的累积奖励。这一过程涉及到一个智能体（agent）通过与环境交互来学习策略（policy），策略是指定智能体在给定状态下应采取的行动。 ### 人类偏好与强化学习在强化学习中融入人类的偏好，可以让学习过程更加符合人类的需求和期望。本研究提出了通过合成的偏好信息来训练代理商的方法，即通过人类用户指定的偏好对训练过程进行指导。这通常需要一个能够理解和解释人类偏好的机制，比如通过交互界面获取用户的偏好反馈。 ### 训练代理商的特定任务研究中提到的三个具体的训练任务反映了深度强化学习在控制问题上的应用，包括： 1. **将圆点移到中间**：这个任务可能需要智能体在二维空间中学习移动一个物体，使其最终停留在中心位置。 2. **训练特工打乒乓球**：这是一个典型的控制任务，要求智能体学会如何控制乒乓球拍，使乒乓球持续在空中弹跳。 3. **与Enduro的其他汽车并驾齐驱**：Enduro是一个赛车游戏，此任务要求智能体学习如何在游戏环境中驾驶，以便与其他赛车竞争。 ### 克隆与使用文档指出了存储库中某些文件是使用Git Large File Storage (Git LFS)管理的，这意味着在克隆存储库之前，需要安装Git LFS以确保能够正确地处理大文件。Git LFS允许用户存储大文件，而不会影响Git仓库的性能。 ### Python设置与依赖安装文档提供了设置Python环境的指南，使用了Pipenv这一工具来创建隔离的Python环境并安装依赖。Pipenv是一个Python开发工作流的工具，可以管理依赖并创建虚拟环境。文档强调了必须手动安装TensorFlow这一过程，这表明深度强化学习的实验依赖于TensorFlow这一强大的深度学习框架。根据是否拥有GPU资源，可以选择安装TensorFlow的CPU版本或GPU版本。 ### 实践意义本资源文档展示了如何通过人类偏好来指导深度强化学习实验的设置，为希望在人工智能领域进行类似研究的开发者提供了实践指南。通过手动设置环境和安装必要的依赖，开发者可以重现研究中的深度强化学习实验，并在此基础上进行进一步的探索和改进。 ### 结论从人类偏好中进行深度强化学习的研究不仅提升了机器学习的智能化水平，也更加贴近于人类的实际需求。这为未来的人工智能应用开辟了新的道路，特别是在那些需要理解复杂人类偏好的场景中。通过本次研究提供的资源和工具，研究者和开发者可以更好地进行深度强化学习的研究与开发，推动人工智能技术的进步。

资源目录

收起资源包目录

深度强化学习：从人类偏好中复制OpenAI和DeepMind技术（107个子文件）

test_schedules.py 817B

events.out.tfevents.1522145732.gpu-0 51KB

run_checkpoint.py 4KB

val.pkl.gz 2.72MB

events.out.tfevents.1522143872.gpu-0 108KB

show_prefs.py 2KB

events.out.tfevents.1522227389.gpu-0 200KB

.floydignore 151B

reward_predictor.ckpt-3200.index 128B

checkpoint 127B

misc_util.py 10KB

reward_predictor.ckpt-3200.meta 131B

policy.ckpt-30000.data-00000-of-00001 133B

pong.gif 864KB

a2c.py 16KB

__init__.py 496B

pref_db.py 5KB

events.out.tfevents.1522143873.gpu-0 775KB

monitor_jobs.py 2KB

make_reward_predictor.pkl 128B

schedules.py 4KB

policy.ckpt-26000.data-00000-of-00001 132B

reward_predictor.ckpt-3200.meta 131B

pref_db_test.py 3KB

.gitattributes 297B

events.out.tfevents.1522144249.gpu-0 957KB

pref_interface_test.py 2KB

make_model.pkl 131B

reward_predictor.ckpt-3200.data-00000-of-00001 131B

enduro_wrapper.py 972B

Pipfile 389B

math_util.py 2KB

subproc_vec_env.py 3KB

policy.ckpt-26000.index 128B

events.out.tfevents.1522227389.gpu-0 6KB

make_reward_predictor.pkl 128B

policy.ckpt-250000.data-00000-of-00001 132B

plot_mems.py 655B

README.md 14KB

utils_test.py 4KB

moving-dot.gif 123KB

events.out.tfevents.1522230063.gpu-0 28KB

policy.ckpt-26000.meta 132B

events.out.tfevents.1522148573.eu-c7-012-01 860KB

reward_predictor_test.py 10KB

Pipfile.lock 19KB

reward_predictor.py 15KB

policy.ckpt-250000.index 128B

reward_predictor_core_network.py 2KB

pong-graphs.png 126KB

utils.py 8KB

diagram.png 237KB

LICENSE 1KB

val.pkl.gz 7.82MB

__init__.py 70B

policies.py 6KB

checkpoint 128B

policy.ckpt-30000.meta 133B

events.out.tfevents.1522148564.eu-c7-012-01 327KB

events.out.tfevents.1522148564.eu-c7-012-01 6.11MB

events.out.tfevents.1522227396.gpu-0 356KB

utils.py 7KB

checkpoint 128B

events.out.tfevents.1522143873.gpu-0 545KB

train.pkl.gz 74.3MB

reward_predictor.ckpt-3200.meta 131B

.gitignore 63B

checkpoint 127B

atari_wrappers.py 6KB

reward_predictor.ckpt-3200.data-00000-of-00001 131B

checkpoint 127B

run_test.py 3KB

checkpoint 128B

events.out.tfevents.1522144271.gpu-0 19KB

reward_predictor.ckpt-3200.data-00000-of-00001 131B

val.pkl.gz 26.22MB

pref_interface.py 5KB

train.pkl.gz 9.17MB

reward_predictor.ckpt-3200.index 129B

events.out.tfevents.1522149091.eu-c7-012-01 6.1MB

make_model.pkl 131B

logger.py 9KB

make_model.pkl 131B

run.py 15KB

reward_predictor.ckpt-3200.index 129B

get_dir.py 1007B

events.out.tfevents.1522230031.gpu-0 1.37MB

train.pkl.gz 20.61MB

params.py 7KB

make_reward_predictor.pkl 128B

events.out.tfevents.1522232097.gpu-0 44KB

events.out.tfevents.1522149150.eu-c7-012-01 125KB

policy.ckpt-250000.meta 132B

get_events.py 1KB

enduro.gif 2.81MB

LICENSE 1KB

policy.ckpt-30000.index 128B

events.out.tfevents.1522152945.eu-c7-012-01 427KB

moving-dot-graphs.png 143KB

nn_layers.py 1KB

共 107 条

无分别

粉丝: 26
资源: 4574

深度强化学习：从人类偏好中复制OpenAI和DeepMind技术

RLFromHumanPrefrences：加强从人类偏好中学习，以产生与预期不符的行为，并通过Garner工具通过人类偏好进行学习

Fine-Tuning Language Models from Human Preferences.pdf

Open-Bash-from-Context-Menu-on-Sublime-Text-3:Sublime包，用于从Sublime Text 3上下文菜单中打开当前文件目录中的bash终端

Sublime-Text-Preferences:这是我的 Preferences.sublime-settings

Android-Shared-Preferences-Demo-Spring-2020：共享首选项的演示项目

Android-Shared-Preferences-example-application:Android 共享首选项示例应用程序

reasoning-about-preferences:“智能代理系统偏好推理”的实现

matlab信任模型代码-spatial-frequency-preferences:确定人类早期视觉皮层空间频率与偏心率之间关系的实验

sublime-text-3-preferences:我的Sublime Text 3首选项

Learning from human preferences.pdf

最新资源