深度强化学习框架：目标导向的VQG与中间奖励

91 浏览量更新于2024-06-20 收藏 943KB PDF 举报

本文主要探讨了一种新颖的深度强化学习框架，该框架专注于解决视觉问题生成（VQG）中的目标导向挑战。传统上，视觉问答（VQA）虽然受到广泛关注，但VQG任务更具复杂性，因为它要求生成一系列能有效引导用户实现总体目标的问题。当前的问题在于，许多现有方法倾向于生成冗长且价值有限的询问，而非提供关键信息。作者们提出了一种基于三种中间奖励的策略：目标实现奖励、渐进奖励和信息性奖励。目标实现奖励促使模型生成能直接推动整体目标达成的问题，避免了空洞查询的产生。渐进奖励强调问题序列的连贯性和逐步逼近目标，而信息性奖励则确保生成的问题能揭示有助于实现目标的有价值信息。具体实现中，研究者构建了一个深度强化学习模型，该模型在GuessWhat?! 数据集上进行了实验验证。结果表明，通过这种框架生成的问题不仅能引导用户准确地找到特定目标，还能提高测试和开发者的工作效率，尤其是在成功率方面有显著提升。文章的关键技术在于设计适应目标导向的奖励机制，以及如何将这些奖励融入到生成问题的过程中，使得模型能够生成既简洁又能有效引导对话的视觉问题。此外，研究还强调了提问者知识和动机在生成问题中的重要作用，表明一个恰当的问题能够最大限度地利用对话历史和图像内容来推动目标的实现。这篇论文为解决视觉问题生成中的目标导向问题提供了一个创新的解决方案，有望推动该领域的进一步发展，并在实际应用中提高人机交互的效率和有效性。

Junjie Zhang Qi Wu et al.

轮对话

…

Oracle

…

Oracle

…

Oracle

：耶

…

：否

…

：没有

…

：

问

：我是一个亿？

：是家具吗？

Q：是饮料

吗？

<Sr>

猜测者

（q

：

−

，

：

−

，

）

猜测者

（q

：

，

：，

）

猜测者

CNN

[第

页

，

[

，

图像特征

VQG

进展

信息性

VQG

提问

生

成部

中级

奖励

gol

−

eed

成功

VQG

图2：所提出的VQG代理在整个游戏环境中的框架。目标对象

被分配给

Oracle，但VQG和Guesser不知道它。然后VQG生成一系列问题，由Oracle回

答。在训练过程中，我们让Oracle基于每一轮的所有对象回答问题，并测量

信息性

奖励，我们还让Guesser生成概率分布来测量

渐进

奖励。最后，我们考

虑回合数

，并根据成功状态设置

目标实现

奖励。REINFORCE采用这些中间

奖励来优化VQG代理

将VQA和VQG视为双重学习过程，在端到端框架中对其进行联合培训

虽然这些作品可以产生与图像相关的有意义的问题，但提出这些问题

的动机相当弱，因为它们与任何目标都无关以往研究的另一个问题相

反，在我们的工作中，我们的目标是开发一个可以学习提出现实问题

的代理，这有助于实现特定目标。

面向目标的可视对话生成技术是近年来研究的热点。在[5]中，Das

等人

介绍了一种用于视觉对话生成的强化学习机制。他们建立两个

RL代理分别对应的问题和答案的生成，最终找到一个看不见的图像

从一组图像。问题代理预测图像的特征表示，并且通过测量表示与真

实特征相比有多接近来给出奖励函数然而，我们专注于鼓励代理产生

的问题，针对最终目标，我们采用了不同的中间奖励，以实现在问题

生成过程中此外，他们模型中的问题生成代理只根据对话历史提出问

题，而不涉及视觉信息。在[18]中，Florian

等人

提出采用强化学习来

解决GuessWhat游戏的问题生成，通过引入成功的最终状态作为唯一

奖励。我们共享类似的主干思想，但存在一些技术差异。其中一个最

显著的区别是，以前的工作只考虑是否实现最终目标作为奖励，而我

们分配不同的

剩余15页未读，继续阅读

cpongm

粉丝: 6

深度强化学习框架：目标导向的VQG与中间奖励

面向数据可视化大屏的自动代码生成工具的研究与实现

基于vue可视化拖拽编辑，页面生成工具

cole_02_0507.pdf

工程硕士开题报告：无线传感器网络路由技术及能量优化LEACH协议研究

【东海期货-2025研报】东海贵金属周度策略：金价高位回落，阶段性回调趋势初现.pdf

图像数据处理工具+数据(帮助用户快速划分数据集并增强图像数据集。通过自动化数据处理流程，简化了深度学习项目的数据准备工作)

diminico_02_0709.pdf

agenda_3cd_01_0716.pdf

A课件Python全栈开发线下班.zip

diminico_02_1108.pdf

最新资源