Modular-HER: 强化学习的模块化Hindsight Experience Replay改进

需积分: 5 100 浏览量更新于2024-12-19 收藏 1.1MB ZIP 举报

资源摘要信息:"Modular-HER是一个改进自OpenAI基线的强化学习软件包，通过模块化设计引入了Hindsight Experience Replay（HER）技术。它旨在为多目标强化学习提供更加模块化、可读和简洁的代码。Modular-HER支持多种HER的变体和增强策略，以支持对复杂任务的学习和适应。该项目鼓励社区贡献意见或代码，以共同完善和扩展功能。" 知识点: 1. 强化学习（Reinforcement Learning）: 强化学习是机器学习中的一个重要领域，涉及算法在与环境互动中学习如何做出决策以实现最大化的累积奖励。强化学习算法通常依赖于试错的方法来学习如何在特定环境中采取行动。 2. OpenAI基线（OpenAI Baselines）: OpenAI基线是一套经过精心设计的强化学习算法实现，它提供了易于使用的学习环境和一组预先训练好的模型。这些基线通常用于基准测试和快速原型设计。 3. 模块化HER（Modular-HER）: Modular-HER是对OpenAI基线的改进版本，其特点是引入了模块化的HER技术。模块化设计意味着HER算法的不同部分可以被单独修改或替换，这为研究者提供了更大的灵活性来尝试不同的策略和配置。 4. Hindsight Experience Replay（HER）: HER是一种强化学习技术，它通过从失败的经历中学习来增强学习效率。在HER中，即使一个尝试没有达到预定的目标，算法也会从这个尝试中"回顾性地"（hindsight）发现其它有用的副目标，并用这些信息来更新策略。 5. DDPG（Deep Deterministic Policy Gradient）: DDPG是一种用于连续动作空间的强化学习算法，它结合了策略梯度方法和Q学习。DDPG通过使用深度神经网络来近似策略和Q函数，允许它处理高维状态和动作空间的问题。 6. 多目标强化学习（Multi-Objective Reinforcement Learning）: 多目标强化学习是强化学习的一个分支，其中学习智能体必须在多个可能相互冲突的目标间做出平衡。此过程通常涉及权衡不同目标的重要性，并找到最优策略以最大化或最小化所有目标的组合。 7. 优先经验回放（Prioritized Experience Replay）: 优先经验回放是一种改进策略，用于DQN和其它基于Q学习的算法，它根据先前经验的重要性或优先级来选择经验进行学习。经验的优先级通常基于其学习潜在的价值。 8. 基于Energy的优先HER（Energy-Based Priority HER）: 这是一种特定的优先级设置方法，将HER算法与能量模型结合，以确定哪些经验应该被赋予更高的优先级进行学习。 9. 课程指导的后见之明体验重播（Curriculum-Guided Hindsight Experience Replay）: 这是HER的一个变体，结合了课程学习（curriculum learning）的概念，逐渐引导学习过程从简单的任务开始，逐步过渡到更难的任务。这有助于智能体更有效地学习和适应复杂的环境。 10. nstep DDPG和nstep HER: nstep方法是一种策略，通过考虑未来几步的信息来更新策略，而不是仅仅基于单步决策。这种方法可以使算法更好地处理长时期依赖的问题，因为它们可以考虑后续步骤的影响。 11. 必要的系统环境要求: 使用Modular-HER需要满足一定的系统配置要求，包括Python 3（版本3.5及以上），TensorFlow（版本1.4至1.14之间），以及一些系统依赖包，例如CMake、OpenMPI和zlib。这些依赖包可以通过如sudo apt-get这样的包管理器在Ubuntu系统上安装。该软件包的目标是为强化学习社区提供一个强大的工具，来研究和发展先进的HER技术，并在多目标学习任务中实现更加高效和可扩展的学习算法。通过社区的共同努力，Modular-HER有望不断完善，并在强化学习领域发挥重要作用。

收起资源包目录

Modular_HER:Modular-HER是从OpenAI基线修订而来，并支持将Hindsight Experience Replay作为模块进行许多改进（147个子文件）

math_util.py 2KB

subproc_vec_env.py 5KB

config.py 7KB

util.py 3KB

test_fetchreach.py 845B

test_schedules.py 818B

her_sampler.py 4KB

test_video_recorder.py 1KB

__init__.py 89B

run.py 3KB

sac.py 6KB

test_vec_env.py 5KB

misc_util.py 7KB

init_utils.py 972B

policies.py 6KB

README.md 4KB

logger.py 16KB

vec_normalize.py 2KB

sampler.py 3KB

atari_wrappers.py 9KB

__init__.py 668B

actor_critic.py 5KB

mpi_moments.py 2KB

plot.py 4KB

__init__.py 63B

algorithm.py 11KB

test_cartpole.py 1KB

replay_buffer.py 4KB

retro_wrappers.py 10KB

mpi_adam_optimizer.py 4KB

default_cfg.py 3KB

mpi_util.py 4KB

monitor.py 6KB

mnist_env.py 2KB

test_with_mpi.py 992B

mher_all.png 329KB

results_plotter.py 4KB

multi_world_wrapper.py 3KB

cg.py 897B

vec_env.py 6KB

prioritized_buffer.py 893B

test_mpi_util.py 971B

mpi_fork.py 667B

input.py 2KB

mher_sac.png 242KB

rollout.py 7KB

vec_video_recorder.py 3KB

plot_util.py 18KB

tf_util.py 17KB

dataset.py 2KB

test_fixed_sequence.py 1KB

util.py 1KB

dynamics.py 9KB

setup.py 2KB

tile_images.py 763B

vec_remove_dict_obs.py 321B

mher_all_step.png 358KB

ddpg.py 4KB

cmd_util.py 3KB

identity_env_test.py 1KB

distributions.py 13KB

vec_monitor.py 2KB

test_doc_examples.py 1KB

__init__.py 0B

sac_utils.py 2KB

segment_tree.py 7KB

LICENSE 1KB

test_identity.py 2KB

make_env_utils.py 6KB

wrapper_utils.py 326B

train.py 4KB

util.py 5KB

normalizer.py 7KB

test_serialization.py 4KB

vec_frame_stack.py 1KB

dummy_vec_env.py 3KB

console_util.py 2KB

mpi_adam.py 3KB

runners.py 670B

test_env_after_learn.py 850B

play.py 3KB

prioritized_sampler.py 4KB

test_tf_util.py 1KB

running_mean_std.py 6KB

__init__.py 171B

__init__.py 261B

schedules.py 4KB

env_utils.py 4KB

models.py 8KB

test_plot_util.py 707B

nstep_sampler.py 4KB

test_mnist.py 1KB

mpi_running_mean_std.py 4KB

fixed_sequence_env.py 1KB

wrappers.py 946B

shmem_vec_env.py 5KB

import_util.py 400B

test_segment_tree.py 3KB

identity_env.py 2KB

__init__.py 119B

共 147 条

蒙霄阳

粉丝: 24
资源: 4572

Modular-HER: 强化学习的模块化Hindsight Experience Replay改进

ML_modular_synth：https：ml-modular-team.github.ioML_modular_synth

TMR_CNT_SET.rar_PCI-Express_pci_site:www.pudn.com_tmr

scala_modular_roots:Scala的模块化根

modular_framework:模块化或关键字驱动的框架

Modular_GUI:使用PySide和Yapsy的模块化GUI

simple-test-and-modular-patterns:Code Fellows sea-d30 TDD 和模块化模式

flask-dashboard-modular-admin:Flask仪表板-模块化管理设计| 应用种子

angularjs_modular_boilerplate_app:模块化 AngularJS 结构

modular_rl:TRPO和相关算法的实现

modular_semantic_segmentation:IROS 2018论文“用于语义分割的模块化传感器融合”的相应实现

最新资源