自适应目标检测：融合自主能力和持续训练的Interactron模型

116 浏览量更新于2023-10-25 收藏 16.8MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1. Introductionvision since the inception of the ﬁeld. There has been anextensive literature over the past decades proposing vari-ous methods ranging from constellation [13,14,17], region-based [21, 49, 50], and hierarchical [24, 44, 60] models tothe more recent powerful CNN [18,19,42] and Transformer[5, 6, 61] based models to tackle this problem. Typically,there are two main assumptions in these works: (1) Thereis a ﬁxed training set and a test set. (2) The model is frozenafter the training stage (i.e., it cannot be updated) and isevaluated on the pre-deﬁned test set.CupFridgeCup?BoxTVRemoteBoxTV?DetectionsAdaptive FeedbackDetectionsAdaptive FeedbackDetectionsDetectionsDetectionsDetectionsObject DetectorObject DetectorObject DetectorObject DetectorObject DetectorObject DetectorPaintingBinTableRemote??ing during inference while interacting with an environment.148600Interactron: 具有自主能力的自适应目标检测0Klemen Kotar和Roozbeh Mottaghi0PRIOR @ Allen Institute for AI0摘要0多年来，已经提出了各种各样的方法来解决目标检测问题0由于强大的深度神经网络的出现，目标检测在这个领域取得了巨大的进展。然而，这些方法通常有两个主要的共同假设。首先，模型是在一个固定的训练集上进行训练，并在一个预先录制的测试集上进行评估。其次，在训练阶段结束后，模型被冻结，不再进行任何更新。这两个假设限制了这些方法在实际环境中的适用性。在本文中，我们提出了一种名为Interactron的自适应目标检测方法，其目标是在由一个具有自主能力的智能体在不同环境中导航观察的图像中进行目标检测。我们的想法是在推理过程中继续训练并在测试时调整模型，而不需要任何显式的监督。我们的自适应目标检测模型在AP上提供了11.8个点的改进（在AP50上提供了19.1个点），超过了最近的高性能目标检测器DETR[5]。此外，我们还展示了我们的目标检测模型适应了具有完全不同外观特征的环境，并且其性能与在这些环境中进行完全监督训练的模型相当。代码可在以下链接找到：https://github.com/allenai/interactron。0目标检测一直是计算机视觉中的一个核心问题0这些假设对目标检测提出了一定的限制0训练测试0标准检测器0Interactron0测试时训练持续进行0图1.我们引入了一种名为Interactron的新方法来进行目标检测。其思想是在推理过程中在交互环境中调整检测模型，而不需要任何显式的监督。顶部一行显示了一个在推理过程中保持冻结的标准检测器。底部一行显示了我们的模型，它在推理过程中通过使用未来的观测数据进行更新，而不需要任何监督。0在现实世界的应用中，目标检测面临着一些挑战。首先，在许多应用中（例如自动驾驶或家庭助理机器人），模型不断从环境中接收新的观测数据。新的观测数据可能有助于模型纠正其信念。例如，部分遮挡的物体在当前帧中可能无法被可靠地检测到，但在后续观测中可能有更好（未遮挡）的视角。模型应该利用这个信号来提高在类似情况下的置信度。其次，在训练阶段结束后，冻结模型的权重会阻止进一步的改进和适应。我们相信，在推理阶段，通过与环境进行交互，具有自主能力的智能体可以利用这些自我监督信号来适应模型。已经有一些工作以无监督的方式来适应目标检测器（例如[10, 46, 51, 54]）。然而，它们在推理过程中假设了预先记录的观测数据集。0在当前帧中，部分遮挡的物体可能无法被可靠地检测到，但在后续观测中可能有更好（未遮挡）的视角。模型应该利用这个信号来提高在类似情况下的置信度。其次，在训练阶段结束后，冻结模型的权重会阻止进一步的改进和适应。我们相信，在推理阶段，通过与环境进行交互，具有自主能力的智能体可以利用这些自我监督信号来适应模型。已经有一些工作以无监督的方式来适应目标检测器（例如[10, 46, 51,54]）。然而，它们在推理过程中假设了预先记录的观测数据集。0所提出的方法的思想是在与环境进行交互的过程中继续进行推断训练。148610我们的假设是，与环境进行交互使具身化代理能够在推断过程中捕捉到更好的观察结果，从而实现更好的自适应和更高的性能。与常见的目标检测工作截然不同的是，训练和推断阶段之间没有明确的边界，模型在推断过程中学习采取行动并自适应，没有任何显式的推断监督。更具体地说，有一个代理在室内环境中进行交互，并依赖于完全监督训练的目标检测器来识别对象。我们的目标是通过在推断过程中根据学习的策略与环境进行交互来提高目标检测性能（图1）。在训练过程中，代理使用有标签数据学习损失函数，即学习模仿训练过程中产生的梯度。在推断过程中，目标检测没有可用的监督。然而，模型可以为输入图像生成梯度。因此，模型可以使用生成的梯度在推断时进行更新。基本上，模型在测试时无需任何显式的监督进行更新。0我们评估了我们的自适应目标检测模型，re-0称为Interactron 1，使用AI2-THOR[26]框架，其中包含出现在120个室内场景中的125个不同对象类别。任务是在代理在场景中导航时观察到的所有帧中检测对象。我们的实验表明，通过学习自适应，最近的高性能目标检测模型DETR[5]的mAP提高了11.8个百分点。除了这个强大的结果外，我们还展示了我们在AI2-THOR上训练的自适应模型与在Habitat[43]框架上进行全监督训练的模型在性能上相当，后者包括具有完全不同外观特征的场景。0总之，我们提出了一种具身化自适应目标0检测方法，网络在训练和推断过程中都进行更新。这种方法与传统的目标检测框架相反，在训练后网络被冻结。模型通过与环境的交互和无需任何显式监督来学习在推断过程中进行自适应。我们的模型明显优于强非自适应基线，并且在具有不同外观分布的环境中具有良好的泛化性能。02. 相关工作0目标检测。已经提出了各种方法来解决目标检测问题。在基于CNN的方法出现之前，基于部件和基于区域的模型[13,15, 53]是性能较高的方法。基于CNN的检测器[18, 19, 33,41, 42]和01 受Detectron [20]这一流行的目标检测框架的启发。0最近提出的基于Transformer的方法[5, 6,61]在检测基准上取得了显著的性能。这些方法的主要假设之一是模型在训练后保持冻结状态，即模型的权重在测试时不能改变。相比之下，本文中的模型通过自监督方式进行更新，以提高检测性能。在分割和检测方面也有一些工作对网络进行了调整[10, 46, 48, 51,54]。然而，它们只能访问一组固定的图像，并且没有与环境进行交互的机制。我们的检测模型属于在测试时进行自适应的模型。我们描述了一些针对具体任务的自适应方法的示例。[36]提出了一种方法，可以在线适应新的地形、残缺的身体部位和高动态环境。[31]提出了一种算法，使视觉里程计网络能够持续适应新环境。[30]提出了一种域自适应方法，使在模拟中训练的方法更好地推广到真实环境。然而，与自适应方法不同的是，它在训练过程中可以访问一些目标域图像。[55]提出了一种基于元学习的方法，用于适应导航到目标物体的新测试环境。在[29]中，有一个元学习器学习了一组可转移的导航技能。当提供导航特定的奖励时，代理可以快速适应组合这些技能。[52]通过在测试时使用少量示例来学习适应新的相机配置，用于视觉和语言导航任务。[28]通过使用少量样本元学习一组任务（环境配置），以更好地推广到新任务。与这些方法相比，我们的重点是改进目标检测。更重要的是，与这些方法（除[55]外）不同，我们提出学习损失函数而不是依赖预定义的损失函数。0我们的方法与持续学习方法相似0[47]方法。然而，大多数持续学习的工作都集中在非具体化的被动场景中（例如[4, 40,45]）。[32]最近提出了一种用于导航场景的持续学习方法。持续学习的工作通常侧重于在不遗忘的情况下学习，而我们的目标是在没有任何监督的情况下高效地适应测试场景。主动视觉。主动视觉[3]通常涉及代理在环境中移动，以便更好地感知定义的任务或更高效地执行任务。主动视觉文献涉及各种类型的任务，例如3D重建[8, 9, 27]，对象识别[1, 23,25]，3D姿态估计[7, 56,59]和3D场景建模[2]。我们的方法与这些工作的主要区别在于，我们的模型根据自学习的损失实时更新（而不是典型的手动定义的不确定性度量）。[57]与我们的工作相似，并推断出一种策略以更好地识别对象。然而，它与我们的方法不同，因为他们在训练后冻结模型，并且基于完全监督。[37]提出在场景中主动选择视角并请求该视角的注释。相比之下，我们的方法是自适应的，不需要请求注释。[12]使用伪标签进行自学习的对象检测训练。相比之下，我们学习一种策略，更重要的是，在推理过程中继续训练。具体化自监督。有各种各样的工作通过具体化交互来学习自监督表示[11, 34, 35, 38,39]。我们的目标不同，我们以自监督的方式学习损失函数，以在新环境中改变对象检测器的权重，以适应该环境。148620[57]更接近我们的工作，并推断出一种策略以更好地识别对象。然而，它与我们的方法不同，因为他们在训练后冻结模型，并且基于完全监督。[37]提出在场景中主动选择视角并请求该视角的注释。相比之下，我们的方法是自适应的，不需要请求注释。[12]使用伪标签进行自学习的对象检测训练。相比之下，我们学习一种策略，更重要的是，在推理过程中继续训练。具体化自监督。有各种各样的工作通过具体化交互来学习自监督表示[11, 34, 35, 38,39]。我们的目标不同，我们以自监督的方式学习损失函数，以在新环境中改变对象检测器的权重，以适应该环境。03.具体化自适应学习0在本节中，我们介绍了将我们的方法应用于对象检测任务的方法0在推理过程中进行具体化、自适应学习以进行对象检测任务。主要思想是我们不会在训练后冻结模型的权重，而是让模型在推理过程中在没有任何明确监督的情况下0在训练后不固定模型的权重，而是在具体化代理探索环境时让模型在推理过程中自适应调整，而没有任何明确的监督。03.1.任务定义0我们首先介绍了一种新的对象检测方法0适用于交互环境（如AI2-THOR [26]或Habitat[43]）的目标是为具体化身代理的自我中心RGB帧中的每个对象预测边界框和类别标签。形式上，我们给定一个场景S∈S和一个位置p，并要求预测在场景S中位置p处的自我中心RGB帧fS,p中可见的所有对象o∈OS,p的边界框和类别标签。代理还可以根据某个策略P从动作集A中选择n个动作，并记录其观察到的n个附加RGB帧。我们将代理观察到的n个帧的序列称为F。然后，我们使用一些模型M，该模型将F作为输入，预测OS,p中每个对象（对于一定的对象类别词汇表）的边界框和类别标签。请注意，我们仅对初始帧执行检测。否则，代理将被鼓励通过简单地移动到少量易于检测的对象区域来“作弊”。0对于每个场景S中的每个位置p，有许多0可能的帧序列F的可能性，因为代理可以探索许多轨迹。我们将这些帧序列称为rollouts，并将给定场景S和位置p的所有rollouts的集合定义为RS,p。最后，由于存在许多场景和位置，每个场景和位置都可以成为许多rollouts的起点，我们可以定义集合Rall，其中包含所有场景中所有可能位置的所有可能rollouts，使得F∈RS,p�Rall。总之，0每个交互式目标检测任务T的每个实例包含一个场景S和一个起始位置p，并从一组场景中的所有任务实例的分布d(T,S)中绘制。03.2. 标准方法0解决这个问题的最简单方法是通过0使用现成的检测器M exist 并在初始帧f S,p上执行目标检测。这里我们的策略P no − op简单地是不采取任何行动。我们可以通过在与我们的交互环境相同领域的数据上预训练目标检测器来提高性能。0更强大的方法将使用随机策略来0移动代理并收集起始位置p周围的几个帧。然后可以训练一个多帧模型M mf，使用所有帧作为输入，在初始帧上执行目标检测。在这样的序列上训练的模型可以利用代理收集到的对象的多个视角，随着代理的移动来改善目标检测。03.3. 自适应学习0直观地说，在一个特定的环境中训练目标检测器0在环境的局部区域（无论是房间、建筑还是场景）增加目标检测器在该局部区域中其他附近帧上的性能，因为这些环境（实际上是自然界）是连续的。我们通过实证结果确认了这种直觉，因此我们将这个任务作为元学习问题来制定，其中交互式目标检测任务T的每个实例都代表一个要适应的新任务。在训练时，这个抽象很好地工作，因为我们可以将F中的每个帧及其对应的真实标签视为一个任务示例，并应用MAML算法的一个版本。然后我们可以产生一个目标检测器M �0由 � 参数化的meta。我们训练0通过使用F中的所有帧进行前向传递，然后使用真实标签和目标检测损失L det进行反向传递来优化这个模型。然后我们可以通过在F中的所有帧上进行前向传递，然后使用真实标签和目标检测损失L det0采取梯度步骤并更新我们的参数，使得 � 0 = � − � r � L det (�, F )。然后通过最小化检测损失L det来优化模型。我们在d(T, S train)的许多任务上重复这个过程，其中S train是0然而，在测试时，这种方法是不可行的，因为我们0对于F中的帧，我们没有给出任何标签。我们可以通过添加另一个损失来克服这个问题，这个损失不是基于标签，而是仅仅基于F中的帧。这个损失可以手动设计，也可以学习。在我们的情况下，我们使用一个被称为自适应损失或L φ 的模型产生的学习损失。受[55,58]的启发，我们学习损失函数。0ada参数化为φ，它以所有F中的帧作为输入0F中的帧以及预测M �0meta(F)来生成0产生用于动态适应的梯度。没有FllIn standard adaptive and meta learning applications, weIFGA(F) =|r✓L�ada(✓, F)�r✓Ldet(✓, [fS,p])| (2)Algorithm 1 Training (d(T , Strain), ✓, �, ⇢, ↵, �1, �2, �3, n)1: while not converge do2:for mini-batch of tasks ⌧i 2 d(T , Strain) do3:✓i ✓4:t 05:Fi [fSi,pi]6:while t < n do7:Sample action a from P⇢int(Fi)8:Take action a and collected frame f9:Fi Fi + [f]10:t t + 111:✓i ✓i � ↵r✓iL�ada(✓i, Fi)12:✓ ✓ � �1Pi r✓Ldet(✓i, fSi,pi)13:� � � �2Pi r�Ldet(✓i, Fi)14:⇢ ⇢ � �3Pi r⇢Lpol(✓i, P⇢int(Fi))148630学习损失没有明确的目标。相反，我们只是鼓励最小化这个损失能够提高我们模型的检测能力。因此，这个模型的学习目标是0m �,φin0X0L det ( � − � r � L φ0ada(�, F), F) (1)0如上所述，在测试时L det 不可用0所以L φ 的参数0ada被冻结，只有M �0meta是0根据L φ 进行训练0ada。这种方法使我们能够动态地适应我们的模型。0根据随机策略Prand获取的F中的帧中包含的信息，动态地使我们的目标检测器适应其本地环境。03.4. 交互式自适应学习0通常我们在自适应和元学习应用中假设每个任务的数据样本分布是固定的，不能受到我们的影响。在交互式设置中，这是不正确的，因为我们用于适应的样本是由我们的代理收集的。正式地说，每个时间步，我们的代理根据某个策略P2采取一个动作a，该策略以它所看到的所有先前帧作为输入。根据不同样本提供的信息质量和数量不同的直觉，我们可以学习一个策略Pint，它是由�参数化的神经网络，并优化它以引导代理沿着一系列帧F进行操作，这将使M meta能够轻松适应新任务。0通过我们的行动收集到的每个轨迹F的梯度的相似性来为每个轨迹F分配一个值。我们通过测量�的梯度的相似性来实现这一点，�是由检测损失Ldet（基于标记数据计算）产生的，以及由学习损失L ada产生的。具体来说，我们测量L det使用第一帧的真实标签产生的梯度与L ada使用代理收集的帧序列产生的梯度之间的`1距离。通过这种方式，我们鼓励代理收集有助于学习损失模拟由真实标签提供的监督的帧。我们将这个值称为初始帧梯度对齐IFGA，并对任何序列F定义如下：0这使我们能够提取另一个有用的训练信号0从我们学到的损失中提取。注意，我们只计算0IFGA 为长度为n +1的完整序列（初始帧加上代理收集的n帧）作为我们学习的损失估计器的输入来计算02我们用P表示学习的策略，用P表示预定义的策略。0自适应梯度。然后我们可以定义一个完全利用的策略P exp，给定任何不完整的帧序列Finc，其中len(F inc)

下载后可阅读完整内容，剩余1页未读，立即下载