探索影响驱动的奖励机制及其在程序化环境中的应用

需积分: 8 143 浏览量更新于2024-12-10 收藏 7.05MB ZIP 举报

资源摘要信息:"RIDE: Rewarding Impact-Driven Exploration for Procedurally-Generated Environments"是由Roberta Raileanu和Tim Rocktäschel撰写的论文，该论文在ICLR 2020上发表。这篇论文提出了一种新颖的内在奖励类型，即影响驱动的探索（Impact-Driven Exploration，简称RIDE）。RIDE鼓励行为人在程序化环境中采取行动，使得其环境状态表示形式发生重大变化。影响驱动的探索是一种新的探索策略，它根据行为人在环境中的行为对环境产生的影响来提供奖励。这种策略的目标是使得行为人能够在程序化环境中进行有效的探索，从而发现新的状态和行为。 RIDE策略的关键在于如何量化行为人的行为对环境状态的影响。在RIDE策略中，行为人的行为被视为对环境状态的改变。如果行为人能够使得环境状态发生显著的变化，那么他将会得到正向的奖励。相反，如果行为人的行为对环境状态几乎没有影响，那么他将不会得到奖励。 RIDE策略的优点在于它能够有效地推动行为人在程序化环境中进行探索。在程序化环境中，环境的状态和行为是随机生成的，因此行为人在这种环境中进行探索是非常困难的。然而，通过RIDE策略，行为人可以根据环境状态的变化来判断自己的行为是否有效，从而进行有效的探索。 RIDE策略的实现依赖于Python编程语言。论文中提到的代码包括了所有基线和烧蚀实验，可以用于运行基准测试。基线和烧蚀实验是衡量RIDE策略性能的重要工具，通过比较不同策略的性能，我们可以评估RIDE策略的有效性。总的来说，RIDE策略为程序化环境中的探索提供了一种新的思路，通过量化行为人的行为对环境状态的影响来提供奖励，从而推动行为人进行有效的探索。这种策略的优点在于它能够有效地推动行为人在程序化环境中进行探索，但是它也面临一些挑战，比如如何准确量化行为人对环境状态的影响，以及如何避免行为人过度探索导致的无效行为。

收起资源包目录

impact-driven-exploration:影响驱动的探索（108个子文件）

utils.py 9KB

rendering.py 3KB

KeyCorridorS3R3.png 2KB

arguments.py 6KB

distshift.py 2KB

door-key-curriculum.gif 4.29MB

dynamicobstacles.py 4KB

SimpleCrossingS9N1.png 2KB

main.py 1KB

env_utils.py 6KB

multi-room.gif 1.18MB

ObstructedMaze-1Dlhb.png 1KB

KeyCorridorS5R3.png 3KB

only_episodic_counts.py 10KB

gotodoor-6x6.png 16KB

multiroom.py 9KB

.gitignore 74B

losses.py 2KB

window.py 2KB

playground_v0.py 2KB

roomgrid.py 11KB

fetch-env.png 24KB

door-key-env.png 18KB

prof.py 2KB

ride_overview.png 115KB

run_tests.py 4KB

four-rooms-env.png 3KB

ObstructedMaze-1Q.png 3KB

ride_analysis.png 196KB

atari_wrappers.py 11KB

gotoobject.py 3KB

ObstructedMaze-2Dlhb.png 2KB

LavaCrossingS11N5.png 3KB

ObstructedMaze-2Q.png 3KB

environment.py 2KB

redbluedoors.py 2KB

blockedunlockpickup.py 2KB

wrappers.py 10KB

lockedroom.py 4KB

ride.py 15KB

SimpleCrossingS11N5.png 2KB

ObstructedMaze-1Dl.png 1KB

CONTRIBUTING.md 1KB

putnear.py 4KB

ObstructedMaze-2Dlh.png 2KB

no_episodic_counts.py 14KB

README.md 4KB

gotodoor-6x6.mp4 491KB

empty.py 2KB

LavaCrossingS9N2.png 2KB

obstructedmaze.py 7KB

gotodoor.py 3KB

CODE_OF_CONDUCT.md 244B

KeyCorridorS3R1.png 840B

BlockedUnlockPickup.png 1KB

KeyCorridorS6R3.png 3KB

LICENSE 11KB

ObstructedMaze-2Dl.png 2KB

crossing.py 5KB

benchmark.py 1KB

Unlock.png 1KB

LavaGapS6.png 1007B

LavaCrossingS9N1.png 1KB

file_writer.py 6KB

LavaCrossingS9N3.png 2KB

empty-env.png 5KB

vtrace.py 4KB

KeyCorridorS4R3.png 2KB

multiroom_noisytv.py 10KB

LICENSE 19KB

ride_results.png 289KB

ObstructedMaze-4Q.png 4KB

ObstructedMaze-1Dlh.png 1KB

ride_analysis_counts.png 248KB

SimpleCrossingS9N3.png 2KB

__init__.py 946B

manual_control.py 2KB

minigrid.py 36KB

README.md 22KB

unlockpickup.py 1KB

vtrace_test.py 10KB

doorkey.py 2KB

UnlockPickup.png 1KB

DistShift1.png 1KB

fourrooms.py 2KB

lavagap.py 2KB

count.py 10KB

torchbeast.py 9KB

SimpleCrossingS9N2.png 2KB

fetch.py 3KB

dynamic_obstacles.gif 381KB

keycorridor.py 3KB

rnd.py 13KB

KeyCorridorS3R2.png 1KB

DistShift2.png 1KB

models.py 23KB

memory.py 5KB

curiosity.py 15KB

unlock.py 1KB

共 108 条

weixin_42138139

粉丝: 23
资源: 4653

探索影响驱动的奖励机制及其在程序化环境中的应用

Test-Driven Development实战指南： Kent Beck 的金钱案例剖析

TIA-DKCL-BDD-SPEC原型：行为驱动设计规范的实践与探索

探索Test-Driven iOS开发：单元测试的艺术

event-driven-functions::metro:通过Salesforce Platform Events在Heroku应用中调用javascript函数

Example-TDD--Test-Driven-Development-:具有MVP的TDD示例

FIAP-Domain-Driven-Design:域驱动设计存储库

Learn-Type-Driven-Development:学习型驱动开发，由Packt出版

angular-js-for-data-driven-applications:用于数据驱动应用程序的 AngularJS

.NET Domain-Driven Design with C#:

ng-content-driven-angular：内容驱动的Angular应用展示

最新资源