主动视觉探索：在有限视野中智能选择相机运动重建环境结构的方法和技术

61 浏览量更新于2023-10-13 收藏 1.81MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

用于主动视觉探索的桑索什湾Ramakrishnan1和Kristen Grauman21The University of Texas at Austin，Austin，TX 787122Facebook AI Research，300 W。德克萨斯州奥斯汀第六街78701⋆网址：srama@cs.utexas.edu，grauman@fb.com抽象。我们认为一个积极的视觉探索的情况下，代理必须智能地选择其相机的运动，以有效地重建结构的整个环境，只有一个有限的一组狭窄的视野瞥见。虽然智能体在训练期间具有对环境的完全可观察性，但一旦部署，它仅具有部分可观察性，受到它所看到的部分和允许的相机运动的约束。我们引入辅助政策学习来利用这种可观察性的不平衡。其主要思想是一个预备学习阶段，尝试简化版本的最终探索任务，然后通过奖励塑造或初始政策监督指导代理。为了支持解释所产生的政策，我们还开发了一种新的政策可视化技术。主动视觉探索任务的结果◦与360场景和3D对象显示，助手始终IM-证明了现有方法的性能和收敛速度代码，数据和演示是可用的3.关键词：视觉探索·强化学习1介绍近年来，视觉识别取得了巨大的成功。在由Web照片组成的基准测试的推动下，重点一直是从人类捕获的图像中推断语义标签-无论是对场景进行分类，检测对象还是识别活动[51，41，57]。通过依赖于人类拍摄的图像，通常的假设是智能代理已经决定在哪里以及如何捕获输入视图。虽然足以处理照片的静态存储库（例如，自动标记Web照片和视频），假设信息丰富的观察掩盖了嵌入式视觉系统的一个非常真实的障碍对与行动相关的感知的兴趣的复苏瞄准了这一障碍。特别地，最近的工作探索了优化其物理运动以实现特定感知目标的代理，例如，用于主动识别[43，29，31，2，28]，视觉探索[30]，对象操作[40，49，46]或导航[70，21，2]。在任何这样的环境中，深度强化学习（RL）都是一种很有前途的方法。离开德克萨斯大学奥斯汀分校（grauman@cs.utexas.edu）3项目网站：http://vision.cs.utexas.edu/projects/sidekicks/2S. Ramakrishnan和K.格劳曼部分可观测性宾语补足语部分可观测性HistOry历史场景完成活动视图选择环境活动视图选择环境完全可观测性完全可观测性◦图1：主动探索新对象（左）或360度环境（右）的具体代理灵活地选择相机运动，以获得尽可能多的信息，而很少瞥见。虽然他们自然地面对环境的有限可观察性，但在学习期间，可以获得更充分的可观察性我们提出的助手，以指导政策学习积极的视觉探索。我们的目标是学习一个政策，规定了最好的行动，为给定的状态，从而整合顺序控制决策与视觉感知。然而，昂贵的探索阶段和部分状态可观测性是RL的众所周知的障碍。特别地，主动视觉代理[70，21，71，30]必须纯粹基于从其第一人称视图可用的有限信息来采取一长串动作。由于基于有限信息的不良动作选择，最有效的视点轨迹被隐藏在许多媒体记录中，从而影响了复杂的交互空间中的年龄的灵活性。我们观察到，在某些情况下，在部署时缺乏完全可观察性的代理可能在训练过程中具有完全可观察性总的来说，当智能体被训练有比测试时可用的更广泛的传感器阵列时，或者被训练没有限制测试时探索的困难时间压力时，不平衡自然发生。特别地，如我们将在这项工作中检查的，一旦被部署，主动全景相机就可以移动到附近的“很好的”相机[ 30]，但是如果用全向全景进行训练，则可以在学习时访问任何可能的类似地，主动对象识别系统[29，31，2，65，28]只能看到其先前选择的对象视图;然而，如果使用CAD模型进行训练，则可以在学习时观察所有可能的视图。此外，代理可以在模拟环境中的训练期间访问多个传感器[13，48，10]，但在测试期间对第一人称观察进行操作然而，现有方法在训练期间将代理限制在相同的部分可观测性[65，31，29，30，70，28]。我们建议利用可观测性的不平衡。为此，我们在-T-D我们使用名称的标识符来标识英雄的助手（例如，在漫画或电影中）提供了英雄所没有的替代观点、知识和技能与专家相反[19，61]，助手补充了英雄（代理人），但不能解决手头的主要任务我们提出了两个sidekick变体。两者都使用在预分离期间对完全状态的访问，以实现将该年龄段的完全分离为k。第一个助手预览各个状态，估计它们的值，并为在训练期间访问有价值的状态的智能体制定奖励。第二个助手通过轨迹选择提供初始监督，以加速用于主动视觉探索的Sidekick策略学习3年龄是一个很大的问题，而年龄的增长通常会导致年龄的增长。在两种情况下，助手学习以完全可观察性解决主任务的简化版本，并使用来自这些解决方案的见解来帮助训练代理。在测试时间，代理人必须在没有助手的情况下行动我们验证了用于主动视觉探索的伙伴策略学习[30]。代理进入一个新的环境，必须选择一系列的相机运动，以快速了解其整个环境。例如，一个探过各种杂货店的探员应该进入一个新的杂货店，并且通过几次瞥见，1)为不同的对象所处的位置变出一个信念状态，然后2）引导它的相机来充实更难预测的对象和上下文。该任务类似于主动识别[65，31，29，2]，除了训练信号是全环境的像素重建误差而不是标记误差。我们的侧踢可以在训练过程中以任何顺序查看环境的任何部分，而实际的代理仅限于物理上可行的相机运动，只能看到它选择的那些视图在两个标准数据集[66，65]上，我们展示了助手如何加速训练并促进更好的环顾政策。作为次要贡献，我们提出了一种新的政策可视化技术。我们的方法将学习到的策略作为输入，并显示一系列映射，这些映射显示了年龄段所选操作的虚拟机内存策略的可能性由此产生的可视化有助于说明助手策略学习与传统培训的不同之处。2相关工作积极的视觉和注意力：将智能控制策略与感知相关联在该领域具有早期基础[1，6，5，63]。最近的工作探索了用于主动对象识别[65，31，29，2，28]，对象定位[9，20，71]和视觉SLAM [32，58]的新策略，以便最小化执行准确识别或重建所需的采样视图的数量。我们的工作是对上述任何一项的补充：助手策略学习是在训练期间可观察性更大时加速和改善主动感知的一种手段显著性和注意力的模型允许系统优先化信息的部分。它的观察，以减少杂波或节省计算[42，4，45，68，67]。然而，与我们的工作和上面的主动方法不同，它们假设在测试时完全可观察，在已经观察到的区域中进行选择。主动传感器放置工作旨在将传感器放置在环境中以最大化覆盖率[11，36，62]。我们在策略学习解决方案中引入了一个覆盖率模型3.第三章。（3）第三章。然而，而不是放置和固定N个静态传感器，视觉探索任务需要动态地和顺序地选择新的观察。具有可观察性不平衡的监督学习：监督学习中的先前工作研究了在训练期间利用更大的可观察性的方法，尽管在测试时间期间的可观察性更有限。用于深度估计[22，16，60]和/或语义分割[56，25，26]的方法在训练期间使用RGBD深度同样，自我监督损失[44，27]4S. Ramakrishnan和K.格劳曼基于辅助预测，训练时的任务已被用于帮助表示学习以将其作为k。新的定义[24]使两个工作站都能与两个工作站的计算机保持一致。在改进的过程中，“扩展”使用具有额外信息（在测试期间不可用）的测试数据来改进测试结果在高层次上，所有上述方法都与我们的方法有关，因为一个简单的学习任务有助于一个更难的学习任务。然而，与此形成强烈对比的是，他们解决的是监督分类/回归/表示学习，而我们的目标是学习选择动作的策略因此，我们开发了一个非常不同的策略，引入奖励和轨迹建议，而不是辅助标签/模态。指导政策学习：有一个广泛的工作，旨在解决稀疏奖励和部分可观察性。一些作品探讨了不同因素激励的奖励塑造内在动机文献发展了平行奖励机制，例如，基于惊奇[47，7]，以指导探索。TAMER框架[33，34，35]利用关于最终任务的专家人工奖励。基于潜力的奖励形成[23]结合了基于潜在功能的专家知识，以确保政策不变性。其他人通过将目标和奖励定义为测量的函数，将控制任务转换为监督测量预测任务[12]。与所有这些方法相比，我们的助手利用训练和测试之间的可观察性差异，从更简单的任务版本中转移知识。这种外部知识直接影响最终的政策，通过增强任务相关的知识，通过奖励塑造。行为克隆提供专家生成的轨迹作为监督（状态，动作）对[8，17，14，50]。离线规划，例如，树搜索是另一种通过投入大量计算来准备好训练片段的方法[19，3，54]，但假设训练和测试之间的可观测性相同。引导策略搜索使用重要性采样来优化高回报区域内的轨迹[39]，并且可以利用完全可观察性[38]，但以纯粹的监督方式从专家转移。我们的第二个助手也展示了良好的动作序列，但我们特别考虑了随着时间的推移退火监督的可观测性不平衡。与我们的目标更密切相关的是不对称演员评论家，它利用合成图像来训练机器人拾取/推动物体[48]。充分利用来自图形引擎的状态信息来更好地训练评论家。虽然这种方法修改了像我们的第一个助手这样的状态所期望的优势，但这只在任务级别完成我们的助手通过解决任务的更简单版本来注入不同的视角4.第一章2）的情况。策略可视化：深度网络的事后解释方法由于其复杂性和有限的可解释性而受到关注。在监督学习中，指示对决策最负责的图像区域的热图通过类标签的梯度的反向传播来生成[55，15，52]。在强化学习中，视觉任务（如Atari）的策略使用t-SNE图[69]或热图来可视化，突出显示当前观察的部分用于主动视觉探索的Sidekick策略学习5这对选择一个行动很重要[18]。我们引入了一种政策可视化方法，它反映了一个时代的文化观对其行动选择的影响3方法我们的目标是了解一个可以有效地探索新环境和新对象的社区，以适应一个时代的挑战。我们的关键见解是通过利用1）完全可观察性和2）无限时间步长来解决准备训练阶段的简单问题的助手来促进策略学习。我们首先在第二节中将问题设置形式化。3.1. 在概述了第二阶段作为积极勘探手段的观测完成后，3.2，我们将在第二节介绍我们的伙伴学习框架。3.3. 我们将观察、完成和助手组件与第二节中的整体学习目标联系在一起。三点四分。最后，我们提出了我们的政策可视化技术在SEC。三点五3.1问题设置：主动视觉探索在[ 30]中记录的“学习”上设置的问题将在“学习”中查找。从形式上讲，任务如下。智能体首先从一些未知的视点4观察一个新的环境（或物体）X。它有一个预算T的时间来探索环境。学习目标是仅使用在该预算内选择的视图序列来最小化该时间段内的该多个被观测环境的像素分辨率。在[30]之后，我们将环境离散化为一组候选视点。特别地，视点空间是由N个标高和M个标高索引的视图网格，其中M个标高由V（X）={X（X，θ（i））}表示。|1≤i≤MN}，其中x（X，θ（i））是X从θ（i）的一个视点的二维视图，它由两个角组成. 一般来说，θ（i）可以通过摄像机角度和位置来捕获;然而，为了最好地利用现有数据集，我们将摄像机运动限制为旋转。智能体通过依次选择T-1个相机运动，以离散增量（称为“瞥见”）消耗预算。在每一个时间步，智能体从当前视点获得ob-braxt代理基于其策略π进行探索性旋转（δt）。当智能体执行动作δt∈ A时，视点c的长度为c或dingoθt+1=θt+δt. 对于由代理执行的缓存，由环境提供奖励（第2节）。 3.3和3。4）. 使用视图xt，智能体更新其环境的内部表示，deotedV（X）。由于安全检查的限制，因此无法立即执行当前摄像机角度（秒4. 1）并且候选视点部分重叠，离散化在不忽略问题的物理现实的情况下提高了效率（遵循[43，29，30，31]）。[4]为了简化演示，我们将环境表示为X，其中智能体探索新的场景，在新的观看方向上向外看然而，实验也将使用X作为对象，其中代理围绕对象移动，从新的视角向内看它6S. Ramakrishnan和K.格劳曼t = 1 t = 2 t = 3图2：主动观察完成。智能体收到一个视图（红色显示），更新其信念并在每个时间步重建视图网格它根据其策略执行操作（红色箭头）以获取下一个视图。主动代理必须用精心选择的观点迅速完善其信念3.2循环观测完备网我们从[ 30]中提出的深度RL神经网络架构开始，以恢复年龄的恢复对象的完整性。该过程被定义为“综合性”，因为它将对尚未看到的所有环境的所有方面进行年龄测试。它由五个模块组成： SENSE ， FUSE ，AGGREGATE，DEcode和AcT，参数分别为Ws，Wf，Wr，Wd和Wa– S ENSE：独立编码视图（xt）和本体感受（pt），包括时间t的高度和从时间t−1到t的相对运动，并返回编码元组st= S ENSE（xt，pt）。– F用途：由联合编码元组s_t并输出融合表示f_t= F_USE（s_t）的全连接层组成。– A GGREGATE：随时间聚合融合输入以在t=Aggregate（f1，f2，…ft）。– 解码器：一种卷积解码器，它重建视图网格Vt=DEcODE（at）作为在uremaps（3MNfor3channeled）处的MNfe的集合图像）。– Ac T：给定聚合状态at和本体感受pt，Ac T模块输出概率分布π（δ|αt）在候选相机运动δ∈ A上的运动。执行从该分布δt= Ac T（at，pt）采样的动作。在每个时间步，代理接收并编码新的视图xt，然后通过感测、融合和聚合来更新其内部表示at它解码视频gridV（t）并执行解码以改变视频点。在时间预算T达到之前，在时间预算T处重新开始（参见图2）。2）的情况。参见补充履行详细信息和架构图。3.3Sidekick定义Sidekicks提供了一个为政策学习提供信息的准备学习阶段。Sidekicks在训练过程中具有完全的可观察性：特别是，它们可以观察任意序列中任意相机运动的结果这对于实际的环视代理是不可能的-其必须进入新颖的环境并且考虑物理相机运动和预算约束-但是对于具有完全观察到的训练样本的助手是360°全景图像或3D对象模型，参见秒4. ①的人。Sidekick被训练来解决与最终环视代理相关的更简单的问题，用于加速训练并帮助代理收敛到更好的策略。在下文中，我们定义了两个sidekick变体：基于奖励的sidekick和基于演示的sidekick。用于主动视觉探索的Sidekick策略学习7基于奖励的助手基于奖励的助手旨在标识 K 个视图 {x （ X ，θ1），. . . ，x（X，θK）}，其可以提供关于环境X的最大信息。允许助手访问X和选择视图，没有任何限制。因此，它解决了一个简化的完成问题。基于候选视图的信息量来对其进行评分，即，仅给定该视图，整个环境可以重建得多好。我们在模型上训练一个复合体。 Sec. 3.第三章。2）由任意整数维（即，例如，当T=1时）。 LetV （X|y）dentede助手对观察x（X，θ）中的信息进行如：Info（x（X，θ），X）<$−1D.ΣV（X|x（X，θ）），V（X）、（1）其中d表示重建误差，V（X）是完全观察到的环境。我们使用一个简单的2损失像素d量化信息。更高级别的损失，例如，对于检测到的对象，可以在可用时使用。在X的不同视图中，分数被归一化为位于[0，1]中。助手对每个候选视图进行评分。然后，为了锐化评分函数的效果并避免有利于冗余观察，助手选择具有贪婪非最大抑制的前K个最具信息量的视图。它迭代地选择具有最高分数的视图，并抑制该视图的邻域中的所有视图，直到选择K个视图为止（参见Supp.2010）。以取得详细数据）。这将生成一个地图每个培训环境的最佳视图参见图3，顶行。在策略学习期间，助手以增强奖励的形式（将在第2节中定义）第3.4段）。因此，基于奖励的助手预览观察结果，并鼓励选择那些对重建有价值的个体请注意，虽然助手索引视图的绝对角度，代理将不会;其所有的观测都是相对于其初始（随机）扫视方向的。这起作用是因为助手成为环境的一部分，即，它重视对环境的真实看法。简而言之，基于奖励的助手基于其具有完全可观察性的探索来塑造奖励基于演示的助手我们的第二个助手生成信息性视图的轨迹给定X中的起始视图，演示助手选择被认为是关于X的信息最多的T个视图的轨迹。与上面的基于奖励的助手不同，该助手提供关于开始状态的指导，并且它受到放置在主代理上的相同相机运动限制。这样的限制模型如何代理不能使用一个单位的努力远距传送其为了识别信息丰富的轨迹，我们首先定义了一个得分函数，捕获覆盖范围。覆盖率反映了X（X，θ）中包含了多少信息。在选择视图时，视图θ（j）的覆盖率θ（i）is：覆盖X.Σθ（j）|θ（i）1d.Σx（X，θ（j）），x（X，θ（j））、（二）其中，x表示的元素不与该V（X）中的元素相关联|x（X，θ（i），如在使用由基于奖励的助手使用的相同T = 1完成网络的情况下。覆盖8S. Ramakrishnan和K.格劳曼基于奖励的sidekick增强了奖励功能360环境- X导出信息分数选择K视图奖励函数Info（x，*），X）基于演示的sidekick提供了一个样本轨迹派生覆盖t = 1t = 2t = 3t = 48（i）8t=48t=38t=28t=18（j）覆盖面（8（j）|（第X第8（j）款的总覆盖率=覆盖率（8（j））|Xt◦Fig. 3：将图360中的部分显示出来在虚拟机的视图中，通过使用级别和大小来执行。上图：奖励助手根据个人观点的推理能力对个人观点进行评分（等式1）。用非最大抑制对分数网格（中心）进行后处理，以优化K_n_r_d_t_v_w（r_g_t），该分数网格被用于获得分数的恢复。 Botom：Demonstrationsidekick。对于所有θ（i），θ（j 结果N×M个网格包含一个给定的θ（i），而另一个网格包含一个给定的θ（j），用于给定的θ（i）（底图）。如果θ（j）给定θ（i）的覆盖范围较大，则在该图中的一个顶点是最小的，并且该图的顶点是e。 Eachθ（i）denotesan（elevation，azimuth）pair. 当观察到的视图及其邻居是自然可恢复的（更亮）时，助手使用更广泛的环境上下文来也预测环境的远处和/或不同外观的部分，如通过左侧网格中的分数的非均匀分布所看到的。给定覆盖函数和起始位置，该助手选择动作以贪婪地优化覆盖目标（等式3）。右下方的条带示出了当选择T =4次瞥见中的每一次时的累积覆盖图。对于1≤i，j≤MN，分数被归一化为位于[0， 1]中。MΣNΣC（Θ，X）=C（θ，X）|θ），（3）j=1θ∈Θ演示助手的目标是最大化覆盖目标（等式10）。3），其中Θ={Θ1，. . .，θt}表示所选视图的序列，并且C（Θ，X）在1处饱和。换句话说，其寻找在“e × p l ai n e d”的水平视图处的可达视图的序列，尽可能地。SeeFig. 3、底部为平面。sidekick（πs）的策略是基于覆盖目标贪婪地选择动作。目标鼓励助手选择这样的视图关于X中的每个视图获得的总体信息被最大化。πs（Θ）= arg max C（Θ ∈ {θt+ δ}，X）。（四）δ我们使用这些侧踢生成的轨迹作为监督代理的一个很短的准备期。我们的目标是用助手学到的有用见解来初始化代理，以加速更好策略的训练。我们通过结合模仿和强化的混合训练过程来实现这一目标。特别是，对于第一个tsup时间步，我们让sidekick驱动动作用于主动视觉探索的Sidekick策略学习9不/a不rec不基于监督目标选择和训练策略。对于步骤t至T，我们将保留该年龄段的概率，并使用REIN FOR OR R C E [ 64]或Ac t or - C r i t ic [ 59]来更新该年龄段的概率（参见S ec. 4）. 我们开始使用tsup= T，并在预备侧踢阶段逐渐将其减少到0（见附录）。该步骤涉及行为克隆[8，17，14]，其将策略学习制定为给定状态的监督动作分类然而，与典型的行为克隆不同，Sidekick不是专家。它解决了任务的一个更简单的版本，然后在代理接管时后退，以部分可观察性进行训练。3.4与伙伴一起在定义了两个sidekick变体之后，我们现在解释它们如何影响策略学习。目标是学习策略π（δ|at），其返回在时间t的聚合内部表示at的动作上的分布。令A={δi}表示智能体可用的相机运动的集合。我们的代理寻求的政策，最大限度地减少重建误差的环境中给定的预算T相机运动（视图）。如果我们用W来表示网络的权重集合[Ws，Wf，Wr，Wd，Wa]，并且用W/a来表示不包括Wa的W，并且用W/d来表示不包括Wd的W，则总权重更新为：1Σn∆W=λrWrec+λpWpol（五）n/a/dj=1其中，n是训练样本的数量，j是训练样本上的索引。ples，λr和λp是常数，更新所有参数/a/d除了Wa和Wd。逐像素MSE重构损失（L_rec）和d_rec_pon_d_n被在Eq_n中给定的时间间隔上更新。在图6中，其中，x（t（X，θ（i））不表示在视点θ（i）和时间t处的接收器结构视图，并且Δ0不表示偏移以考虑未知的起始方位角（参见[30]）。测试接收（X）=MΣNi=1.Σdxt（X，θ（i）+∆0），x（X，θ（i）），ΣT（六）∆Wrec=−t=1A/W测试接收（X），年龄的恢复时间（见等式）。7）内部记录的原因从助手rs= Info（x（X，θt），X）（见第二节）3.第三章。（3）否定式重建损失（−LT（X））。.Rt=St不rec（X）+rs1≤t≤T− 2t=T−1（七）来自策略的更新（参见等式1）。8）包括REINFORCE更新，具有基线b以减少差异，以及来自演示的监督LLR−L10S. Ramakrishnan和K.格劳曼/d/d/dt tt2sidekick（参见等式第9段）。我们考虑REINFORCE [64]和Actor-Critic[59]方法来更新AcT模块。对于后者，保单条款还包括更新学习价值网络的损失（参见补充）。对于这两个，我们包括一个标准的熵项，以促进多样性的行动选择，避免收敛太快，一个次优的政策。∆Wpol=TΣ−1t=1W/d对数π（δt|at）.TΣ−1′t=tΣrt′−b（at）+∆Wdemo，（8）演示助手通过与该策略的策略的交叉熵损失来影响策略学习（cf. Sec.3.第三章。3）和年龄的概率：TΣ−1ΣW演示=t=1δ∈A/d（πs（δ|at）log π（δ|at））。（九）我们用T= 1预训练SENSE、FUSE和DECODE模块然后端到端地训练完整的网络（SENSE和FUSE冻结）。对于具有伙伴的训练，代理被增强有来自奖励伙伴的额外奖励（等式11）。7）或来自演示助手的附加监督损失第9段）。正如我们将通过经验证明的那样，与助手一起训练有助于克服由于部分可观察性而导致的不确定性，并学习更好的策略。3.5可视化学习的运动策略最后，我们提出了一个可视化技术，定性地了解已学到的政策。策略网络使用聚合状态at为了分析年龄t的哪个部分对于产生的离散度δt是最小的，我们求解使预离散度δ t的变化最大化的聚合状态的变化（Δ t）。|at））：aπ（δ|a）−π（δ|a+∆a）Σ2∆atδ∈AS.T. ||∆at||≤ C||的t||（十）其中C是限制标准与真实信念的偏差的常数。等式10使用梯度上升最大化（见附录）。这种信念的变化是可视化的viewgrid空间通过前向传播通过DE代码模块。可视化热图强度（Ht）定义如下：Ht∝||DEcODE （ at+∆a* ） −DEcODE （ at ） || 二、（11）年龄最佳的部分具有变化的地图以影响其动作选择。具有高强度的视图是那些影响年龄对睡眠的影响的视图。用于主动视觉探索的Sidekick策略学习114实验节中4.1，4.2，我们描述了我们的实验设置，并分析了不同方法的学习效率和测试时间性能。节中4.3，我们将学习到的策略可视化，并展示我们的策略优于基线。4.1实验装置数据集：我们使用两个流行的数据集来对模型进行基准测试– SUN360：SUN360 [66]由来自多个场景类别的高分辨率球形全景图组成我们将实验限制在[66，30]中使用的26个类别子集。视图网格由在4个仰角（-45◦到45◦）和8个方位角（0◦到180◦）上捕获的32×32个视图在每一步中，代理看到60◦的视场。这个数据集代表了一个智能体在一系列狭窄的视野瞥见中看着一个场景。– ModelNet硬：ModelNet [65]为不同类别的对象提供了3D CAD模型的集合。ModelNet-40和ModelNet-10分别由40和10个对象类别组成，后者是前者的子集我们对ModelNet-10中不存在的30个类别的对象进行训练，并对看不见的10个类别的对象进行测试我们通过比[ 30]更具挑战性的照明条件、纹理和视角来实现“Model Ne t Hard”中的复杂性它由从5个仰角和9个方位角采样的32× 32个视图组成该数据集表示代理查看3D对象并将其移动到一系列选定的姿势。对于两个数据集，候选运动A被限制为3个高程X5方位角邻域，表示单位成本动作的集合。在年龄的物理量受到约束的情况下无心灵传输），并与最近的主动视觉工作一致[30，43，29，28，2]。步骤数量的预算固定为T= 4。基线：我们根据几个基线对我们的方法进行基准测试：– 单视图：训练智能体从一个视图（T= 1）重建– rnd操作：随机均匀采样动作。– ltla[30]：我们实现了“lelearning”以查找本地应用程序[ 30]。我们验证了我们的代码重现了[30]的结果。– rnd-rewards：naive sidekick，其中在运行时均匀分配奖励dom在viewgrid上。– asymm-ac [48]：来自[48]的方法，适用于离散动作。评论家看到整个全景/对象和真实的相机姿势（没有经验重播）。– demo-actions：在训练/测试时由demo-sidekick选择的动作– 专家克隆：从使用完全可观察性的专家策略模仿（类似于图中的批评者）。2个补充）评估：我们评估重建误差平均均匀采样海拔，方位角和所有测试样本（平均值）。为了提供最坏情况分析，我们还报告了一个对抗度量（adv），它在每个测试样本中最难的起始位置上评估每个代理，并对测试数据进行平均12S. Ramakrishnan和K.格劳曼方法SUN360ModelNet硬平均值（×1000）平均值↓ %↑adv（×1000）平均值↓ %↑avg是说（×1000）↓ %↑Adv是说（×1000）↓ %↑单视图38.31-55.12-9.63-17.10-rnd动作30.99 19.0944.85 18.637.3223.9312.3827.56rnd奖励25.55 33.3030.20 45.217.0426.899.6643.50Ltla[30]24.94 34.8931.86 42.196.3034.578.7848.65Asymm-ac[48]23.74 38.0129.92 45.726.2435.208.5550.00专家克隆23.98 37.3828.5048.286.4133.448.5250.13我们的23.4438.8228.5448.225.8039.797.1758.04我们的（演示）24.2436.7329.0147.366.3234.378.6449.47我们的（rew）+ac23.3639.0128.2648.725.7540.267.1058.44我们的（演示）+ac24.0537.2228.5248.266.1336.318.2651.64演示操作*26.1231.8231.5342.765.8239.507.4656.40表1：两种数据集的平均/高级MSE误差×1000（↓越低越好）和相对于传统模型（↑越高越好）的相应改进（%）。模型的最佳值和最佳值分别以绿色和蓝色突出显示。SUN360的标准误差范围为0.2至0.3，ModelNet Hard的标准误差范围为0.1至0.2（*-要求在测试时完全可观察4.2积极勘探成果表1显示了两个数据集的结果对于每个指标，我们报告平均误差以及单视图基线的百分比改进。我们的方法缩写为我们的（rew）和我们的（demo），分别指的是我们基于奖励和基于演示的助手的使用。我们用+ac表示Actor-Critic而不是REINFORCE的使用。我们观察到我们的（rew）和我们的（demo）与REINFORCE的表现一般比ltla与REINFORCE的表现更好[30]。特别是，我们的（rew）在所有指标的两个数据集上的表现都明显优于ltla我们的（演示）在SUN360上的性能更好，但在ModelNet Hard上仅略好图4示出了验证损失图;使用侧踢导致在LTLA上的收敛速率的显著改进。图5比较了示例解码重建。我们强调，当解码置信状态时，绝大多数像素是未观察到的，即，仅观察到整个观察范围中的4个因此，它们是模糊的。无论如何，它们的差异表明两种方法之间的信念状态的差异更好的策略可以更快地充实场景或对象的一般形状。接下来，我们将我们的模型与asymm-ac进行比较，asymm-ac是一种在训练过程中利用完全可观测性的替代首先，我们注意到asymm-ac在所有数据集和指标上的表现都优于ltla将asymm-ac与我们的（rew）+ac和我们的（demo）+ac进行比较，我们发现我们的方法在所有指标和数据集上的表现都要好得多正如我们在Supp中所示，我们的方法也导致了更快的收敛。为了对比从助手那里学习和从专家那里学习，我们还将我们的模型与在训练时利用完全可观察性的专家的行为克隆进行了比较。如Tab.所示。1，我们的（rew）在两个数据集上的表现都优于expert-clone，验证了我们方法的优势。这是特别有趣的，因为训练一个专家需要比训练助手长得多的时间（17倍）（见附录）。与演示操作相比，消融用于主动视觉探索的Sidekick策略学习13图4：验证误差（×1000）与SUN360（左）和ModelNet Hard（右）上的epoch此处显示的所有模型均更多曲线）。我们的方法加速了收敛。GT viewgridltla ours（rew）Fig. 5：Qual itativecomparisonors（rew）vs. ltla[30]onSUN360（前2行）和ModelNetHard（后2行）。第一列显示地面实况视图网格和随机选择的起始点（用红色标记）。第2列和第3列包含来自T = 4个时间段的ltla和我们的（rew）的解码的视图网格。来自我们的（重新）的重新计算结果很好。例如，在第3行，我们的模型更清晰地重建了突起;在第二行中，我们的模型更有效地重建了天空和中央山丘。最好用pdf格式放大查看尽管我们的版本（演示）在测试时需要完全可观察性，但我们的性能在SUN360上仍然明显更好，在ModelNet Hard上略好。我们的（rew）和我们的（demo）也以显著的优势击败了其余的基线。这些结果验证了我们的假设，即助手策略学习可以通过在训练过程中充分利用可观察性来改善强基线4.3政策可视化我们在图6中展示了我们的ltla策略可视化和我们在SUN 360上的（rew）策略可视化;请参见Supp.以我们的示例（演示）。来自等式10的热图以粉红色示出并且覆盖在重建的视图网格上。对于这两种模型，策略倾向于采取行动，使它们向具有低14S. Ramakrishnan和K.格劳曼GT视图网格t = 1 t = 2 t = 3 t = 4Fig. 6：应用程序：我们的（rew）和ltal[30]的版本描述是来自SUN360的两个示例。第一列显示带有随机选择的视图的视图网格（红色）。随后的列显示了接收到的视图（红色），重建的视图网格，选择的动作（红色箭头），以及我们的方法认为负责动作选择的信念空间部分（粉红色热图）。两个代理倾向于朝向热图的较稀疏区域移动，从而尝试在不存在于所述较稀疏区域中的情况下改进所述最佳视图。我们的（rew）更快地更新其信念，并且因此执行更明智的动作选择。热图密度，如由指向较低密度区域的箭头/动作所证明的直观地说，代理移动到的意见，没有有效地促进他们的行动选择，以增加他们的理解的场景。在许多情况下可以观察到，与ltla相比，我们的（rew）模型具有更密集的时间热图。因此，我们的（rew）考虑了更多的意见，以选择其行动轨迹的早期，这表明，一个更好的政策和历史聚合导致更明智的行动选择。5结论我们提出了伙伴政策学习，一个框架，利用额外的可观察性或对一个年龄段的心理学的更新来学习策略我们展示了在两个具有挑战性的数据集上使用助手学习的政策的优越性，改进了现有的方法并加速了训练。此外，我们利用一种新的策略可视化技术来阐明不同的推理背后的政策训练和没有助手。在未来的工作中，我们计划调查我们的框架对其他主动视觉任务，如识别和导航的有效性。确认作者感谢 Dinesh Jayaraman 、 Thomas Crosley 、 Yu-Chuan Su 和 IshanDurugkar进行了有益的讨论。这项研究得到了DARPA终身学习机器、索尼研究奖和IBM开放合作研究奖的部分支持。LTLALTLA我们的我们的用于主动视觉探索的Sidekick策略学习15引用1. Aloimonos，J.，韦斯岛Bandyopadhyay，A.：主动视觉。International Journalof Computer Vision（1988）2. Am mirato，P.， Poirson，P.， Park，E.， K oˇseck a´，J.， B erg，A. C.：用于开发Active Vision并在：机器人与自动化，2017年IEEE国际会议（2017）3. 安东尼，T.，田志Barber，D.：使用深度学习和树搜索快速和慢速思考。在：神经信息处理系统的进展（2017）4. Ba，J.，Mnih，V.，Kavukcuoglu，K.：多目标识别与视觉注意。arXiv预印本arXiv：1412.7755（2014）5. Bajcsy，R.：主动感知。IEEE会议录（1988）6. Ballard，D.H.：动画视觉。03 The Dog of the Woman（1991）7. Bellemare ， M. ， Srinivasan ， S. ，美国， Ostrovski ， G. ， Schaul ， T. ，Saxton，D. Munos，R.：将基于计数的探索和内在动机相统一。在：神经信息处理系统的进展（2016）8. Bojarski ， M. ， Del Testa ， D. Dworakowski ， D. ， Firner ， B. ，弗莱普湾Goyal，P.，Jackel，L.D.蒙福特，M.穆勒大学张杰，等：自动驾驶汽车的端到端学习。arXiv预印本arXiv：1604.07316（2016）9. 凯西多JC Lazebnik，S.：使用深度强化学习进行主动目标定位。在：计算机视觉，2015年IEEE国际会议（2015年）10. Das，A.，达塔，S.，Gkioxari，G.，Lee，S.，Parikh，D.Batra，D.：具体化的问题回答。在：计算机视觉和模式识别，2018年IEEE会议（2018）11. Dhillon，S.S.，Chakrabarty，K.：分布式传感器网络中有效覆盖和监视的传感器布局。《无线通信与网络》，2003年。WCNC 2003。2003 IEEE（2003）12. Dosovitskiy，A.，Koltun，V.：通过预测未来来学习行动在：学习表征国际会议（2017）13. Dosovitskiy，A.，Ros，G.，Codevilla，F.，Lopez，A. Koltun，V.：卡拉：一个开放式的城市驾驶模拟器。在：机器人学习会议（2017）14. 段玉，Andr

下载后可阅读完整内容，剩余1页未读，立即下载