深度强化学习实验再现与Pytorch开发新视角

需积分: 5 33 浏览量更新于2024-12-02 收藏 41.06MB ZIP 举报

原始研究中的代码是使用Tensorflow框架开发的，而该项目则是使用Pytorch框架重新实现的。项目的主要目标是验证PPO（Proximal Policy Optimization）算法在深度强化学习中的表现，并对相关的超参数进行实验和评估。在这个项目中，开发者将关注于如何在Pytorch环境中构建和实现深度强化学习模型，并且如何对模型进行训练和测试。此外，项目还涉及到对 Warehouse 环境的使用，这是一个用于测试强化学习算法的模拟环境。对于超参数的调整，文档指出目前待办事项中的超参数设置尚未正确。超参数包括但不限于学习率、纪元数/步数、价值系数/价值损失系数、熵/熵系数、剪辑/剪辑参数以及批处理大小/最小批处理数等。在PPO算法中，这些参数的正确设置对于模型的训练效果至关重要。例如，学习率决定了模型权重更新的速度，价值系数影响着价值函数的损失，而熵系数则用来保证策略的探索性。剪辑参数定义了对策略梯度的裁剪范围，以防止更新过程中出现过大的变化。此外，代码中已经包含了GAE（Generalized Advantage Estimation）增量的默认值为0.95，与原论文保持一致。GAE是用于深度强化学习中的一种估计优势函数的方法，它通过对回报的估计增加方差减少来改善算法性能。伽马（折扣）因子的默认值为0.99，这也是常见的设置，用以平衡即时回报和未来回报。值得注意的是，文档中提到了一个不确定点，即价值系数是否与价值损失系数相同。在PPO算法中，通常价值损失系数被设置为一个固定值，例如0.5，这个值的选择需要基于实验的结果来微调。开发者在实施过程中需要通过实验来确定这些参数的具体数值以达到最佳性能。最后，根据提供的标签“JupyterNotebook”和文件名称“Reproducibility_project-main”，我们可以推断这个项目可能是一个以Jupyter Notebook形式记录的项目，Jupyter Notebook是一个交互式计算环境，非常适合进行数据科学、机器学习和深度学习的实验和原型设计。" 以上内容详细总结了Reproducibility_project项目的背景、目标、重要技术点和参数设置等关键信息，提供了关于深度强化学习以及PPO算法在Pytorch环境下的实现和评估的深入见解。

资源目录

收起资源包目录

深度强化学习实验再现与Pytorch开发新视角（190个子文件）

reproduction_model.py 13KB

experiments.ipynb 178KB

visualize.ipynb 46KB

envs.py 9KB

16331_scenario.sumocfg 471B

buffer.py 4KB

19374_scenario.sumocfg 471B

minibatch32.png 38KB

Warehouse_04-09-2021-13-24-28.pt 1.17MB

output03-31-2021-20-56-12.txt 112KB

Warehouse_04-06-2021-17-29-07.pt 2.47MB

output04-02-2021-16-17-06.txt 399KB

fnn_1_experiments.py 674B

16143_scenario.sumocfg 471B

15905_scenario.sumocfg 471B

iam_model.png 29KB

14201_scenario.sumocfg 471B

distributions.py 3KB

Warehouse_04-08-2021-08-23-05.pt 2.47MB

utils.py 2KB

output03-31-2021-23-16-25.txt 408KB

kfac.py 8KB

output04-08-2021-21-51-57.txt 72KB

Warehouse_03-31-2021-23-16-25.pt 796KB

.gitignore 14B

paper_figure5.png 31KB

arguments.py 6KB

model.py 7KB

robot.py 5KB

Warehouse_04-07-2021-15-27-18.pt 4.13MB

__init__.py 53B

colab_notebook.ipynb 49KB

__init__.py 0B

vectorized_environment.py 3KB

SumoHelper.py 6KB

12717_scenario.sumocfg 471B

fnn_8_experiment.py 661B

networks.py 2KB

Warehouse_04-14-2021-06-04-36.pt 2.47MB

Warehouse_04-09-2021-17-06-24.pt 1.17MB

PPOcontroller.py 9KB

warehouse.py 10KB

warehouse.png 2KB

scenario.sumocfg 347B

cross.out 880B

__init__.py 78B

plot_data.py 6KB

a2c_acktr.py 3KB

cross.sumocfg 465B

output03-29-2021-19-53-54.txt 573KB

scenario.sumocfg 466B

18262_scenario.sumocfg 471B

controller.py 4KB

build_net.sh 146B

state_representation.py 30KB

SumoGymAdapter.py 12KB

LDM.py 19KB

evaluation.py 2KB

README.md 3KB

test.py 4KB

Warehouse_04-08-2021-13-41-34.pt 1.73MB

build_net.sh 146B

main.py 11KB

scenario.sumocfg 516B

18932_scenario.sumocfg 471B

__init__.py 0B

19691_scenario.sumocfg 471B

output04-08-2021-17-47-32.txt 72KB

gui-settings.cfg 56B

TrafficLightPhases.py 2KB

Warehouse_03-29-2021-18-07-36.pt 12.73MB

cross.netccfg 508B

Warehouse_04-08-2021-21-51-57.pt 1.73MB

15230_scenario.sumocfg 471B

utils.py 2KB

ppo.py 4KB

PPOmodel.py 14KB

worker.py 2KB

Warehouse_04-07-2021-11-47-30.pt 4.13MB

minibatch8.png 37KB

torch_load_test.py 413B

.gitignore 2KB

__init__.py 0B

19873_scenario.sumocfg 471B

cross.sumocfg 515B

sample.sumocfg 279B

Warehouse_04-06-2021-13-33-19.pt 2.47MB

storage.py 10KB

gail.py 6KB

Warehouse_04-14-2021-01-11-00.pt 2.47MB

poster.png 50KB

item.py 872B

Warehouse_04-09-2021-09-38-00.pt 1.17MB

Warehouse_04-08-2021-17-47-32.pt 1.73MB

__init__.py 40B

model.py 14KB

index.md 14KB

LoopNetwork.py 2KB

19581_scenario.sumocfg 471B

共 190 条

摔了个呆萌

粉丝: 37

深度强化学习实验再现与Pytorch开发新视角

ADA_Project:StyleGAN2-ada技术再现性挑战解析

fMRI数据处理新工具：rsamatlab代码-fmri_utils

深度学习可重复性研究项目：电力市场预测

deep-learning-reproducibility-project

Reproducibility-project-of-Deep-learning

Social-Media-and-Fake-News-in-the-2016-Election_reproduction-project:2016 Election_reproducibility项目中的社交媒体和虚假新闻

StyleGAN2-ada-Reproducibility:StyleGAN2-ada再现性挑战

dvc_pipelines_and_experiments_tutorial：使用DVC构建可维护的机器学习管道

lightning-hydra-template:PyTorch闪电+九头蛇。 一个非常通用的，功能丰富的模板，用于使用最佳实践进行快速且可扩展的ML实验。 :high_voltage::fire::high_voltage:

PyCharm Python Dependency Management: Resolving Dependency Conflicts to Ensure Project Stability

最新资源

lightning-hydra-template:PyTorch闪电+九头蛇。一个非常通用的，功能丰富的模板，用于使用最佳实践进行快速且可扩展的ML实验。 :high_voltage::fire::high_voltage: