联合目标搜索中的协作智能体算法及其在目标检测中的应用

129 浏览量更新于2023-10-15 收藏 2.5MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1用于联合目标搜索的孔翔宇1王博鑫2王宜州1刚华21视频技术，北京大学媒体网创新合作中心{kong，Yizhou.Wang}@ pku.edu.cn2微软研究院{boxin，ganghua}@ microsoft.com摘要我们研究的问题，联合自上而下的主动搜索下的多个对象的相互作用，例如。、骑自行车的人、桌子上的杯子等。交互下的这些对象通常可以向彼此提供上下文线索以促进更有效的搜索。通过将每个检测器视为智能体，我们提出了第一个协作多智能体深度强化学习算法来学习联合主动对象定位的最佳策略，该算法有效地利用了这些有益的上下文信息。我们通过Q网络之间的门交叉连接来学习智能体间的通信我们验证了我们提出的方法在多个目标检测基准。我们的模型不仅有助于提高最先进的主动定位模型的性能，它还揭示了直观可解释的有趣的协同检测模式。1. 介绍给定一个图像，检测和定位物体的目标是在预定义的物体类的实例周围放置一个边界框，例如汽车，人脸，人/人[5，29，3，1]。随着深度卷积神经网络（CNN）在对象分类方面的最新进展[15，25，11]，通用对象检测也吸引了越来越多的关注，在流行的基准上快速提高检测精度[8，22，21，17]。最近的检测器探索了自下而上的对象区域建议的想法[8]，其中预先选择了几千个窗口的相对较小的集合[28]并进行了评估。加速是通过共享计算和池化CNN层的特征图来实现的[7，10]。通过使用所谓的“锚点”将分离区域建议步骤和分类步骤集成到一个网络中[22，17]，进一步加速了这些工作，所述锚点但是，待评估的窗口数量仍然存在在微软研究院实习期间所做的工作(a) 单代理检测（b）联合代理检测图1.联合代理检测与单代理检测的比较[2]。边界框轨迹由逐渐的颜色变化指示。蓝色代表人，红色代表自行车。成功的检测以粗体绿色突出显示。两个物体在15次迭代内通过联合检测被检测到，而单代理检测即使在200次迭代后也未能定位自行车。（出于可视化目的，仅示出了前30次迭代）。几千个。因此，这种基于区域的方法的速度当计算能力有限时，例如只有CPU可用，这些流水线不可避免地很慢。主动搜索方法提供了一种有前途的自上而下的补充方案，以减少待评估的窗口数量[19，9，2，32，18]。当搜索或定位对象时，生物视觉系统被认为具有一个连续的过程，视网膜注视不断变化，逐渐积累确定性的证据[14，16]。因此，在生物学和计算方面，都非常期望探索促进这种自上而下行为中的对象搜索的计算模型。通常，这些模型通过顺序地平移和/或重塑绑定框检测器来学习搜索对象的策略人们可以将这样的搜索过程看作是智能体搜索奖励的地面真值边界框，并利用强化学习（RL）算法来学习好的策略。一般来说，这些方法仅使用几十个步骤（有效地评估的窗口的数量）就可以实现相当好的性能研究了多个目标在相互作用下的联合主动搜索问题.一方面，考虑这样一个协同检测16951696由RL设置下的多个代理;另一方面，在视觉对象定位的上下文中，这似乎特别有益，在视觉对象定位中，不同的对象经常以一定的相关模式出现，例如，骑自行车的人、放在桌子顶部的杯子等。这种交互下的对象通常可以为彼此提供上下文线索[31]。这些线索具有很好的潜力，以促进更有效的搜索策略。我们通过设计一个计算模型来验证这样的假设/直觉。我们提出了一个协作的多智能体深度RL算法来学习联合活动对象本地化的最佳策略。我们的建议遵循现有的智慧，利用RL方法，但允许多个代理之间的协作行为，以利用上下文信息。在这方面，有两个关键问题尚未解决。㈠如何在不同代理人之间进行有效的沟通;ii) 如何为所有代理共同学习好的策略。我们建议通过Q-网络之间的门控交叉连接这是由一种新的多智能体深度Q学习算法与联合开发采样和基于虚拟代理的实现。最后，我们在多个目标检测基准上验证了我们提出的方法。我们的模型有助于提高最先进的主动局部化模型的性能，它还揭示了直观可解释的有趣的协同检测模式。在第2节中，我们讨论了与我们的工作相关的文献。在第3节中，我们详细介绍了所提出的交叉Q网络结构和一种新的多智能体深度Q学习算法，该算法有效地促进了交叉Q网络的训练。在第4节中，我们提出了多个流行的基准综合实验。第五部分是本文的结论。在这里，我们总结我们的主要贡献如下。• 据我们所知，这项工作提出了第一个合作的深度RL解决方案，联合主动对象本地化。• 我们提出了一种新的多代理Q学习解决方案，促进可学习的代理之间的门控交叉连接的Q网络之间的• 我们的建议有效地利用了相关对象之间的有益上下文信息，并不断提高最先进的主动查找的性能。尺度化模型2. 相关工作主动搜索。主动搜索本地化的想法并不新鲜。举几个例子，在[4]中，Dollar et al.建议通过梯度学习的级联回归步骤来估计姿态下降等。关于对象定位的最新工作设法利用深度学习的力量，并取得了更具竞争力的结果[19，9，2，32，18]。在[19]中，Mnih et al.提出了一种基于递归神经网络（RNN ）的定位网络，该网络可以从杂乱的翻译MNIST数据集中累积查找数字。在[9]中，Garcia et al.提出探索连续窗口之间的统计关系，并将其模型基于R-CNN [8]进行通用对象检测。在[32]中，Yoo et al.提出了“AttentionNet”，其中在每个当前窗口，CNN被训练来预测量化的弱方向，用于下一步模拟逐渐的注意力转移。在[2，18]中，作者明确部署了深度RL，并通过比主流区域建议方法少得多的窗口评估实现了有希望的性能。然而，没有这些作品研究的问题，联合主动搜索的多个对象。为了利用不同对象之间的有益上下文信息，我们提出了协作多代理深度RL。我们用Caicedo和Lazebnik [2]作为一个单一的主动搜索模型基线来实例化我们的想法，但是我们的机制可以应用于其他具有微小调整的基线模型。深度强化学习最近，再学习领域因深度学习的力量而复兴[20，24]。配备了有效的想法，如经验重放等，常规方法，例如，Q-learning，在学习好的政策时非常有效，而无需中间监督来完成具有挑战性的任务。我们的模型以与最近的主动方法类似的方式受益于这些有效的想法[2，18]，但具有由感兴趣的联合搜索问题激发的特定新颖设计。多智能体机器学习和强化学习并不是新的话题。然而，传统的协作RL方法主要探索手工制作的通信协议[27，23]。在这项工作的准备过程中，我们实现了两项有趣的工作，提出了为多智能体深度RL [6，26]提供可学习的通信协议，并在控制管理和游戏相关任务上表现出优于非通信同行的性能。在 [26] 中，Sukhbaatar et al.提出了“CommNet”，通过反向传播学习可学习的沟通渠道，促进政策网络。在[6]中，Foerster et al.提出了“可区分的代理间学习”，以有效地学习深度Q网络的通信。我们的建议共享的想法，利用反向传播或设计可微的通信信道，但有不同的交叉网络结构的门和一个新的联合采样Q学习方法。具体来说，我们的跨网络结构使用显式门控机制，允许特定的代理负责某些动作。这是由对象搜索的问题，其中一个代理通常有主要贡献的政策。所以，dif-1697不同于[6]中展开的RNN的训练，其中远程反向传播可能不太有效，我们的联合采样设计有助于立即更新参数，并且可以通过引入虚拟代理实现的辅助概念来轻松地并入深度Q学习算法3. 用于联合对象搜索的协作RL我们首先回顾一种用于对象定位的最先进的（单代理）RL方法[2]。3.1. 单Agent RL对象定位强化学习提供了一个正式的框架，关注代理如何在环境中采取行动，以最大限度地提高累积奖励的概念。具体地说，强化学习定义了智能体为实现其目标而采取的一组动作A;表示代理对当前环境的理解/信息的状态集合S;以及奖励函数R，其帮助学习最优策略以基于其状态指导代理的动作。在[2]中，整个图像被视为环境。代理根据一组动作变换边界框。智能体的目标是着陆边界框目标物体的位置具体而言，动作集定义如下。A：={向右移动，向左移动，向上移动，向下移动，缩放更大，缩放更小，纵横比改变更胖，纵横比改变更高，触发器}。每一个动作都通过一个因子rel对盒子进行离散的改变相对于目前的规模。动作触发器意味着代理认为它找到了对象。状态表示被定义为元组s：=（o，h）。o是观察区域的特征向量（加上一些额外的从CNN层提取的上下文余量），并且h是动作历史的固定大小的向量。o和h的级联被馈送到两个完全连接的层的典型Q网络中。网络输出对应于九个动作选择的9维向量。在图2中，以相同颜色（例如蓝色/红色）示出的网络提供了该架构的图示。奖励函数R（a，s→s′）是为一个主体定义的，当它采取行动a从状态s移动到s′时。R （a ， s→s′） =sign （IoU （b′ ，g ） −IoU（b，g））（1）其中IoU（b，g）=面积（bg）/面积（bg）是后SVM分类器到轨迹中的所有窗口以提高性能。3.2. 用于关节对象定位的协作RL我们推广了单主体强化学习模型用于联合目标搜索。关键概念包括不同Q网络之间的门控交叉连接;用于生成相应训练数据的联合开发采样，以及便于轻松适应现有深度Q学习算法的虚拟代理实现3.2.1门控交叉连接Q网络具体来说，Q学习是一种用于找到最佳动作选择策略的RL算法。策略π的Q函数（动作值函数）被定义为Qπ（s，a）=E[R t|S t =s，a t=a]，其中t的下标为-注意时间步长。最优行动价值函数服从Bellman最优性方程Q<$（s，a）= Es′ [r +γmaxa′ Q<$（s′，a′）|s，a]其中r = R（a，s → s′）是采取行动a将状态s移动到s′的特定奖励，γ ∈[0，1]是未来收益的折扣因子。深度Q学习[20]使用深度神经网络来表示Q函数，即Q（s，a;θ），其中θ是网络参数。（Q网络的常见选择由两个完全连接的层组成，如图2所示。）注意，假设对于每个代理i，我们假设一个Q-网络Q（i）（a（i），s（i）;θ（i）），在多代理RL的设置中，人们自然会希望Q-函数（稍微滥用符号，我们在这里继续使用Q-函数）促进代理间的通信Q（i）（a（i），m（i），s（i），m（−i）;θ（i））其中m（i）表示从代理i发出的某种形式的消息，m（−i）表示从其他代理接收的常规地，m通常是基于关于动作和状态的先验知识手工制作的。这可以表示为m（a，s;θm）的函数，其中θm是手动设计的。因此，一个自然的想法是构建差分消息，其中θm可以通过梯度反向传播来学习。这个想法是直观和合理的，就像许多深度学习的成功一样，可学习的功能优于手工制作的功能。具体来说，我们定义一个智能体Q函数为Q：=Q（i）（a（i），m（i），s（i），m（−i）;θ（i），θ（i）），（2）a m目标对象边界框G和预测框B。通过定义动作集、状态集和奖励函数，作者在[2]中直接应用深度Q学习[20]来学习最优策略。有关设置参数的更多详细信息，请参见[2]。他们还提出了一个有趣的设计，在采取触发动作后在图像中设置蒙版。这种设计允许有效地检测同一类的多个实例。最后，作者应用其中θa和θm分别表示与动作和消息相关的参数我们现在认为，当Q-函数用深度网络参数化时，直观地存在L2（L是Q-网络的层数）的可能配置供我们构建消息通道。这是因为消息可以在任何层上发送和接收。换句话说，不应该有全局最优1698L−1L−1不=σ（L−1L图2.具有门控交叉连接和协作强化学习管道的联合Q网络相反，应当以问题相关的方式选择消息通道的合适配置我们注意到最近的两项工作也提出了促进多智能体深度RL [6，26]的可学习通信协议，然而，我们注意到，目前的趋势缺少一个重要的洞察力。消息通常以无差别的方式被接收，并直接与网络中的信息流实际上，允许消息通过一个显式的可学习门（就像在LSTM单元中一样）有助于更好地合并信息，并促进代理人负责的行动。这个想法是从我们感兴趣的搜索问题的动机。一般来说，在搜索特定对象时，我们希望负责检测目标类的代理成为决策的主要来源。同时，我们也希望允许其他代理提供他们的建议，特别是当主要来源在某些情况下感到困惑可学习的门控机制是一个自然的适合。具体来说，我们设计了交叉Q网络消息通道，如图2所示。我们从倒数第二层在不同代理的Q网络之间我们将代理i的Q网络的这一层的输出表示为x（i）。然后我们有引入，我们能够学习有效的代理人负责的决策。这有助于我们更好地理解搜索过程。此外，现在许多行动都是由一个主要代理有效地确定的（稍后讨论的相应梯度更新也是如此），即使其他代理不共存，也可以直接3.2.2联合开发取样我们现在转向联合训练所有Q网络的问题。由于我们在RL设置中没有任何即时监督，因此我们不能以多任务方式直接反向传播梯度。关键的想法是在开发阶段联合采样接下来的步骤。具体地，在单个代理的情况下，为了达到贝尔曼最优性，Q学习算法以迭代的方式进行。在每次迭代时，将根据Q函数的当前估计来采样/选择动作at。然后在仿真器中执行此操作并观察奖励rt和状态st+1 。在此之后，通过最小化（Q （at， st;θ ）−（rt+γmaxa′Q（a′，st+1;θ−）））2的距离来更新Q函数的参数。这里θ−是目标网络的参数。θ−可以是在线网络但通常是另一个网络冻结多次迭代，而一个更新在线网络Q（a，s;θ）[20]。x<$（i）=σ（W（ii）x（i）+b㈡）在多智能体环境中，我们建议对交流进行采样-g（i） =σ（W（ig）x¯（一）+b（ig））（三）根据自身的两种活化，试剂i的反应a（i）和其他探员的信息我们共同表演m（i）W（im）x（i）L−1+b（im））所有探员都要进行取样。例如，在图2中，这对应于来自两个网络的联合前馈传递其中σ表示sigmoid函数，使得σ（z）=1/（1 +exp（−z））。现在，我们不再像在单个代理的情况下那样直接将x（i）输入到下一层，而是还接收消息工程.这些样本稍后用于通过联合最小化所有i的以下距离来更新所有参数。L（i）：=（ Q（i）（ a（i），m（i），s（i），m（−i）; θ（i），θ（i））−t t t t a m从其他来源加权的门，并定义（r（i）+γmaxQ（a′（i），s（i）;θ（i）−，θ（i）−）2（5）x（i）=g（i）·x<$（i）+（1−g（i））·m（−i）（4）ta′（i）1699t+1上午请注意，sigmoid函数倾向于将输出推到大约0或1。因此，通过这个简单的门控-由于消息也是不同的，联合最小化-上述功能的执行将更新与每个代理以及所有消息通道相关的1700一M自我介于两者之间具体地，θ（i）的梯度更新来自于其自身的损失，即 L（i），而θ（i）的梯度更新来自于其他代理的损失，即 L（−i）.请注意，原则上，我们可以在一个全局马尔可夫决策过程（MDP）约束下查看所有代理，并使用常规Q学习算法在联合动作空间中搜索最优性。然而，这种选择的另一面是更大的搜索空间（81V.S. 18、两种情况下，可能需要结合。更多的训练数据和时间。在这方面，委员会注意到，所提出的联合采样策略可以被看作是对全局最优的上界近似然而，我们观察到，该建议有效地促进了对所有参数的梯度反向传播，并且可以根据需要联合3.2.3联合训练的虚拟智能体实现直觉联合采样的思想可以通过同时向前和向后通过所有Q-网络来实现。然而，在实践中，我们采用了一种替代方案，虚拟代理的概念。对于对象类的每个Q-网络，我们分配一个实际的代理检测器。同时，对于每个跨网络连接，我们分配一个我们称之为虚拟代理。虚拟代理与实际代理共享相应层的权重。图3示出了图2的示例的这个想法。这种实现方式有两个主要优点。1)通过以这种单独的方式考虑代理（并在之后共享权重），我们可以很容易地将我们的设计融入到几乎所有现有的RL算法中。可以简单地为所有代理实现一个额外的外部for循环，然后执行必要的权重复制步骤。2)更重要的是，这也允许每个代理（包括虚拟代理）维护自己的样本池（重放存储器[20]）。这些样本用于更新相应的参数。请注意，在使用深度网络的现代RL算法中，重放内存池的概念对于稳定学习过程非常重要例如，假设我们想要联合训练个人和自行车检测器。在训练过程中，我们有包含两个类D的图像，也有只包含人D或自行车D的图像。受益于所提出的智能体重放记忆，实际的人和自行车智能体可以有效地训练，分别来自D都是D人和D 都是D自行车的数据，而交叉连接（由虚拟连接代理）仅根据需要用来自D两者的最后，我们在虚拟代理实现的上下文中更新Q函数的表示如下。图3.图2中示例的实际代理和虚拟代理的图示。每行代表一个代理，中间的虚线代表虚拟代理。用θ（i→j）代替概念性的输出信息m（−i），用后加法代替概念性的输入信息m（i ）。（请注意，如图3所示，我们将根据定义，Q函数内部的门控部分。具体地，我们总结了算法1中的联合采样和虚拟代理的多代理Q学习算法。虽然该算法适用于一般情况，但我们通常只考虑两个对象类，因此虚拟代理的数量是非常可控的。4. 实验4.1. 数据构建和实施细节虽然在现实生活中的许多情况下，不同类别的对象共存，有几个数据集明确收集数据的联合检测任务。然而，我们注意到，来自流行的检测数据集（如PASCAL VOC数据集和COCO数据集）的许多图像具有不同类别的标记对象，并且这些图像被归类到所有相关类别下。这些图像自然地为我们构建一些有用的数据集以验证我们的假设和方法提供了来源。具体来说，我们认为-选择：{人+自行车（VOC），球+球拍（COCO），个人 + 手提包（ COCO ），键盘 + 笔记本电脑（COCO）}。有了这些对，我们构建了两个数据集用于评估pur-pose. D1由每个类只包含一个对象的图像组成。这个数据集用于证明某些概念，因为学习和测试往往在这个相对干净的数据集上更有效D2由PASCAL VOC数据集中的所有人和自行车类别的图像组成。这是用来评估我们提出的方法Q（i）（a（i），s（i）;θ（i），θ（i））;与现有单一代理模型的结果进行比较。每股自我（i→j）（一）（一）（一）（i→j）（六）为了进行比较，我们实现了单个Qv（a）得双曲余切值.;θshare，θself）。代理模型精确地根据[2]。我们设法让与公式（2）中的定义相比的主要变化实现了非常接近的性能，如[2]中所报告的，尽管1701图4.联合代理检测（中）与单代理检测（下）的比较边界框轨迹由蓝色和红色的渐变颜色表示，成功的检测以粗体绿色突出显示。不完全一样差异可能是由于采样中涉及的随机性。在多个代理的情况下，Q-网络之间的交叉连接被实现为从一个代理的倒数第二层到另一个代理的最后一层的全连接层，其具有尺寸与单个代理中的相应层对于联合训练，我们使用预先训练的模型初始化每个实际的单智能体网络，并使用随机权重初始化交叉连接我们应用了[2]中的贪婪策略，其中我们调整了学习率，以在我们的情况下实现更好的收敛。我们报告的检测结果，从联合模型的数据集D1，因为它包含两个类的建设;并通过联合训练使用微调的单代理模型报告检测结果，这证明了门控机制促进代理特定推理和学习的能力。4.2. 对单Agent方法在表3和表2中，我们展示了与单药剂模型相比时我们的提议的性能。我们的联合模型在数据集D1上的表现始终优于单代理模型。我们注意到，在人+自行车（VOC）和笔记本电脑+键盘（COCO）的组合上，改进更为明显。这是因为这些组合的配置在图像上相对更稳定，例如，骑自行车的人和包含键盘的膝上型计算机等。同时，人+手提包（COCO）和球+球拍（COCO）的配置在所有的图像中具有多个模式和更多的“噪声”的图像，包含很少的信息，以共同定位。当在数据集D2上测试时，我们的联合模型也取得了比单个主动搜索模型更好的性能在这种情况下，性能增益适中。这是因为包含两个对象类别的图像的数量与每个类别的图像的数量相比是小的对于图像数量大得多的人类别尤其如此。请注意，最先进的检测模型，如R-CNN [8]及其扩展，在使用数十倍的窗口时可以获得更好的结果。但这不是我们的重点。在图4中，我们用一些例子.在这些情况下，虽然我们的联合检测模型成功地定位了两个类别的对象，但单代理模型通常只检测到其中一个或两个都不正确。由联合模型找到的最终边界框的位置似乎也与地面实况对象更好地重叠此外，联合模型所采取的步骤的数量要小得多。例如，从顶部到底部，我们的模型的步骤数为：1017021不不不分享分享自我v初始化所有代理的重放存储器D（i）;初始化具有随机权重的所有Q-网络（或潜在地具有预训练的网络）;对于发作= 1，M做初始化序列s（i）=φ（x1）;表2. D2的定位精度。对于t=1，Tdo以概率n选择一个随机动作a（i），其他方式选择a（i）= arg max{ Qa（ a，s（i）; θ（i），θ（i））塔贾不分享自我 ;+Qv（a，s（j）;θ（j），θ（j→i））}j/=i不分享分享在模拟器中执行操作a（i）并观察returnr（i）;设s（i）为s（i），a（i）;电话+1t.tΣ存储转换s（i），a（i），r（i），s（i）在D（i）中t t tD（j→i），对于所有j;电话+1S.跃迁的样本随机最小匹配s（i），a（i），r（i），s（i）从D（i）;特特特t′+1设y（i）=.t ′（一）t′if在t′+ 1;r（i）+γmax′Q（a i′，s（i）;θ（i）−）else塔一tt′ +1执行梯度下降步骤（y（i）−Q（a（i），s（i））;θ（i），θ（i）（2）与塔t′t′+1分享自我图5.由特定代理人主导的行动的例子。的关于θ（i）（一）自我实心边界框示出了每个检测器的当前位置对于j我分享我到所有虚拟代理（i→j）;托尔虚线边界框示出了接下来的位置，指示相应的操作。蓝色代表人，红色代表自行车。支配行动选择的代理人（通过从D（j→i）取样小批量;更新虚拟代理的θ（j），θ（j→i）Q（j→i）同上;检查门值）以粗体黑色突出显示。当使用有限数量的建议时，使用最佳方法[2]。联合模型中的代理人在一个理性的J分享结束结束端实际代理人j;时尚.例如，在图4的第一列中，自行车看起来与灌木丛的背景相对较难区分。当单个自行车智能体无法定位目标时，在联合模型中，算法1：多智能体Q学习算法表1. D1的定位精度上：单，下：联合。（VOC）（COCO）（COCO）（COCO）人自行车球球拍人hbag笔记本克博德76.986.061.577.852.053.959.360.280.482.545.146.460.664.656.964.7分别为24、7和11。我们展示了单个模型的前30个步骤以用于可视化目的。实际上，在所有这三种情况下，单代理模型未能在200步内定位两个对象。在实践中，我们的模型只使用几十个步骤来定位两个对象，并且步骤的数量往往少于使用两个单一代理时，这被证明始终优于区域亲。R，θ复制θ复制θD2人（VOC）自行车（VOC）Mathe等人[18个国家]18.731.4Caicedo等人[二]《中国日报》45.761.9我们的（单人）44.662.2;1703儿子似乎帮助找到自行车，因为它经常出现一个人骑自行车的模式。在第二列中，网球看起来非常小，单个网球智能体很难找到它;同时受益于联合模型学习的球拍共存模式，我们可以成功地检测到球。第三和第四列还展示了相对容易检测的对象（在这些情况下是人和键盘）由于学习到的共存模式而有助于定位更具挑战性的对象（包和笔记本电脑）的情况。4.3. 逐步检查在图5中，我们展示了一些动作的例子，这些动作的选择由特定的代理人主导。正如左边两幅图所示，当主犯的线索1704图6.召回作为建议区域数量的函数。与区域建议方法相比，主动搜索方法在早期召回方面更好：每个图像只有几十个建议达到50%的召回率。我们的联合模型甚至比单一代理模型更好。是明确的，行动往往是根据自己。例如，给定其当前输入边界框，自行车代理知道在左上图像中缩放较小，并且人代理知道在左下图像中向右移动然而，在主代理不太自信的情况下，我们的建议有效地查询来自其他代理的信息。例如，在右下角的图像中，自行车检测器被按下，但这个动作主要由人代理决定。这可能是因为个人探测器触发了一个目标，它对情况感觉更确定。由于学习的模式，它发出相对较强的信号，表明自行车被压下，并有助于向下推动红色盒子。当然，这并不一定意味着主要自行车代理必须做出错误的动作选择，而是简单地，考虑到其相对嘈杂的电流输入，它可能不太自信。4.4. 召回评价请注意，对于主动搜索方法，代理所关注的所有区域都可以被视为对象提案。[2]声称，与具有有限数量的框提议的最先进的对象提议方法相比，单代理本地化算法可以实现更高的召回值。我们遵循他们的设置，并对我们的关节模型进行了相同的测试。在图6中，我们的实验表明，所提出的多代理方法具有较高的召回值时，使用较少的建议。遵循 Hosang etal.[13]，我们将我们的召回率与单代理基线[2]以及一种最先进的对象提议方法Edgebox [33]进行了比较。结果来自人+自行车（VOC）的组合，提供了稳定的配置。4.5. 故障案例分析在图7中，我们展示了我们方法的一个有趣的失败案例。在这种情况下，我们的联合模型正确地检测到图7.联合检测失败1例。在左图中，网球的真实位置用黄色虚线圆圈突出显示。左：关节剂检测;右：单药剂检测。球拍，但错误地将网球定位在球拍的顶部。而球的真实位置却在右边很远的地方。这种过度拟合的现象提出了一个重要的问题。联合检测总是有帮助吗？在一般情况下，答案显然是否定的。许多组合在联合检测方面是没有意义的。实际上，人们几乎不能找到完全不相关的对象对的共享图像，例如“鸟+汽车”等。然而，我们确实探索了几种经常共存但空间相关性较低的组合。结果如下所示。表3.定位精度。上：单，下：联合。（COCO）（COCO）（COCO）（ImageNet）叉刀烤箱水槽椅子电视吉他迈克31.934.745.246.938.242.434.337.735.135.957.156.280.987.745.450.2我们注意到，即使这样的对不显示一个固定的空间相关性，他们往往有几个主要的配置共存的模式。因此，我们仍然可以始终如一地实现比单一代理模型更好的性能，展示了有意义的消息被学习。这对“椅子+电视”是这种情况下最少的，椅子和电视在图像中的位置似乎相当随机，即使它们经常共存。在这种情况下，我们的联合模型实现了类似的性能与单模型。这一现象表明，当没有明确的协作信息存在时，我们的建议可以执行以及单代理模型没有混乱。我们将此属性归因于设计的门控机制。5. 结论在交互下的多个对象的联合搜索通常为彼此提供上下文线索通过将每个检测器视为智能体，我们提出了第一种协作多智能体深度强化学习方法，该方法可以有效地学习联合主动对象定位的最佳策略。我们的技术贡献在于可学习的跨Q网络通信和联合开发采样策略。更重要的是，我们首次尝试通过设计一个计算模型来验证协作对象定位的概念，该模型揭示了有趣和直观的协同检测模式。1705鸣谢。GH部分由国家自然科学基金资助61629301。这项工作得到了 973- 2015 CB 351800 、 NSFC-61625201、NSFC-61527804和微软亚洲研究院合作研究项目。我们也非常感谢NVIDIA公司捐赠Titan Z GPU用于本研究。引用[1] Shivani Agarwal，Aatif Awan和Dan Roth。学习通过稀疏的、基于部分的表示来检测图像中的对象。IEEE模式分析与机器智能学报，26（11）：1475-1490，2004年。1[2] Juan C Caicedo和Svetlana Lazebnik。使用深度强化学习的主动对象定位。在IEEE计算机视觉国际会议论文集，第2488-2496页，2015年。一二三五六七八[3] Navneet Dalal和Bill Triggs。用于人体检测的定向梯度的直方图。在2005年IEEE计算机协会计算机视觉和模式识别会议IEEE，2005年。1[4] 彼得·多尔，彼得· 韦林德和彼得·佩罗纳。级联姿态回归。在计算机视觉和模式识别（CVPR），2010 IEEE会议，第1078IEEE，2010。2[5] 佩德罗·费尔岑斯瓦，大卫·麦卡莱斯特，和德瓦·拉曼南。一个有区别的训练，多尺度，可变形零件模型。计算机视觉和模式识别，2008年。CVPR 2008。IEEE会议，第1-8页。IEEE，2008年。1[6] Jakob N Foerster，Yannis M Assael，Nando de Freitas，and Shimon Whiteson.学习与深度多智能体强化学习进行通信。arXiv预印本arXiv：1605.06676，2016。二、三、四[7] 罗斯·格希克。快速R-CNN。IEEE国际计算机视觉会议论文集，第1440-1448页，2015年1[8] Ross Girshick，Jeff Donahue，Trevor Darrell和JitendraMalik。丰富的特征层次结构，用于精确的对象检测和语义分割。在 Proceedings of the IEEE conference oncomputer vision and pattern recognition，pages 580一、二、六、七[9] 阿贝尔·冈萨雷斯·加西亚亚历山大·维日涅韦茨和维托里奥·法拉利一种有效的目标类别检测的主动搜索策略。2015年IEEE计算机视觉与模式识别会议（CVPR），第3022-3031页。IEEE，2015年。一、二[10] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于视觉识别的深度卷积网络中的空间金字塔池。欧洲计算机视觉会议，第346-361页。Springer，2014. 1[11] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习arXiv预印本arXiv：1512.03385，2015。1[12] SeppHochreiter和JürgenSchmidhube r. 长短期记忆。神经计算，9（8）：1735-1780，1997。4[13] J. 霍桑河贝嫩森山口 Doll a'r和B. 席勒什么是有效的检测建议？PAMI，2015年。8[14] Laurent Itti，Geraint Rees，and John K Tsotsos.注意力的神经生物学中国科学技术出版社，2005. 一、二[15] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。神经信息处理系统的进展，第1097-1105页，2012年。1[16] 雨果·拉罗谢尔和杰弗里·E·辛顿学习结合中央凹瞥见与三阶玻尔兹曼机。神经信息处理系统的进展，第1243-1251页，2010年一、二[17] Wei Liu ， Dragomir Anguelov ， Dumitru Erhan ，Christian Szegedy ， Scott Reed ， Cheng-Yang Fu ， andAlexander C.伯格。Ssd：单发多盒探测器。arXiv预印本arXiv：1512.02325，2015年。1[18] Stefan Mathe Aleksis Pirinen和Cristian Sminchisescu视觉对象检测的强化学习。在IEEE计算机视觉和模式识别会议的Proceedings中，第2894-2902页，2016年。一、二、七[19] Volodymyr Mnih，Nicolas Heess，Alex Graves，et al.视觉注意力的再流模型。神经信息处理系统，2014年，第2204一、二[20] Volodymyr Mnih，Koray Kavukcuoglu，David Silver，Alex Graves，Ioannis Antonoglou，Daan Wierstra，andMartin Riedmiller.用深度强化学习玩雅达利。arXiv预印本arXiv：1312.5602，2013。二三四五[21] Joseph Redmon，Santosh Divvala，Ross Girshick，andAli Farhadi.你只看一次：统一的实时对象检测。arXiv预印本arXiv：1506.02640，2015年。1[22] 任少卿、何开明、罗斯·格尔希克、孙健。更快的r-cnn：利用区域建议网络进行实时目标检测。神经信息处理系统的进展，第91-99页，2015年。1[23] 霍华德·M·施瓦茨多智能体机器学习：一种改进方法。John Wiley Sons，2014. 2[24] David Silver ， Aja Huang ， Chris J Maddison ， ArthurGuez，Laurent Sifre，George Van Den Driessche，JulianSchrit-twieser，IoannisAntonoglou，VedaPanneershelvam，Marc Lanctot，et al.用深度神经网络和树搜索掌握围棋游戏。Nature，529（7587）：484-489，2016. 21706[25] Karen Simonyan和Andrew Zisserman用于大规模图像识别的非常深的卷积网络。 arXiv 预印本 arXiv ：1409.1556，2014。1[26] Sainbayar Sukhbaatar，Arthur Szlam，and Rob Fergus.用反向传播学习多智能体通信。arXiv预印本arXiv：1605.07736，2016年。二、四[27] 谭明。多智能体强化学习：独立与合作代理商。第十届国际机器学习会议论文集，第330-337页，1993年。2[28] Jasper RR Uijlings，Koen EA van de Sande，Theo Gev-ers，and Arnold WM Smeulders.目标识别的选择性搜索。 International Journal of Computer Vision ， 104（2）：154-171，2013。1[29] 保罗·维奥拉和迈克尔·J·琼斯强大的实时人脸检测。国际计算机视觉杂志，57（2）：137- 154，2004。1[30] 王维、陈成、王益州、姜婷婷、方芳、元瑶。在自然图像上模拟人类扫视扫描路径。在计算机视觉和模式识别（CVPR）中，2011 IEEE会议，第441IEEE，2011年。2[31] Tianfu Wu，Bo Li，and Song-Chun Zhu.学习与或模型来表示汽车检测和视点估计的上下文和遮挡。 IEEEtransactionsonpatternanalysisandmachineintelligence，38（9）：1829-1843，2016。2[32] Donggeun Yoo，Sunggyun Park，Joon-Young Lee，An-thony S Paek，and In So Kweon.关注网：聚合弱方向以实现准确的对象检测。在IEEE计算机视觉国际会议论文集，第2659-2667页一、二[33] CL a wrenceZitnickandPiotrDoll a'r. 边框：从边定位欧洲计算机视觉会议，第391-405页。Springer，2014. 8

下载后可阅读完整内容，剩余1页未读，立即下载