基于视觉的物理直觉在广义对象堆叠中的应用

90 浏览量更新于2023-10-13 收藏 1.21MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

ShapeStacks：学习基于视觉的物理直觉用于广义对象堆叠Oliver Groth（），Fabian B.Fuchs，Ingmar Posner，AndreaVedaldi英国牛津大学工程系{ogroth，fabian，ingmar，vedaldi}@ robots.ox.ac.uk抽象。物理直觉是智能代理执行复杂任务的关键。在本文中，我们研究的被动收购对物理原理的直观理解以及在广义对象堆叠的背景下积极利用这种直觉。为此，我们提供了ShapeStacks1：基于模拟的数据集，其特征在于20，000个堆栈配置，其由关于语义和结构稳定性进行了丰富注释的各种基本几何图元组成。我们在ShapeStacks数据上训练视觉分类器进行二进制稳定性预测，并仔细检查他们学到的物理直觉。由于丰富的训练数据，我们的方法也有利于推广到现实世界的情况下，实现国家的最先进的稳定性预测的公开可用的基准块塔。然后，我们利用我们的模型学习到的物理直觉来积极构建稳定的堆栈，并观察由主动堆叠任务引起的可堆叠性的我们的方法表现良好，超过了在训练过程中观察到的堆栈高度，甚至设法抵消最初不稳定的结构。关键词：直观物理·稳定性预测·对象堆叠1介绍认知科学[14，8]的研究强调，人类操纵环境的能力在很大程度上取决于我们从视觉观察中直观地理解其物理学的能力。对于自主代理来说，直观的物理学可能同样重要，以便有效地执行复杂的任务，例如对象堆叠或（拆卸）组装，甚至创建和使用工具。这些讨论的核心是在如何使用对象的背景下理解对象的物理属性。这样的对象示能表示通常是预先定义的，给定手头任务的知识[11，12]。相比之下，我们假设相关的启示不需要事先指定，但可以在任务驱动的方式学习。受计算机视觉[15，23]和机器人[17，6，25]的最新工作的启发，我们考虑了对象堆叠的任务和学习的问题1源代码数据可从http://shapestacks.robots.ox.ac.uk2O. Groth等人观察预测分析堆叠稳定性预测器堆叠性行动图1：我们提出了一个视觉分类器，它在不同形状的堆栈上进行训练我们表明，隐式知识捕获的预测器可以用来检测结构的不稳定性，推断的可堆叠性（关于堆叠的实用程序）的对象，并指导模拟的堆叠过程中，仅从视觉线索。Visualobservati on s-it s in t u i t v e p y s i c al p r i n c i p l e s。通过结合模型获得的直觉，我们能够在如图1中概述的主动操纵任务中利用被动观察，这使我们在范围和范围上与现有技术分开。首先，我们认为，为了代理执行复杂的任务，他们需要能够与各种不同的对象类型进行交互。因此，我们调查的堆叠问题，使用一组更广泛的几何图元比发现在相关的作品。为此，我们引入了ShapeStacks，这是一个基于模拟的数据集，专门用于探索各种对象的可堆叠性。此外，据我们所知，ShapeStacks是第一个这样的数据集，其中注释了堆栈的机械故障点，这些故障点是通过正式分析基础物理学来推断的。这使得ShapeStacks成为该领域最严格和最完整的公开数据集。其次，基于ShapeStacks数据集，我们扩展了[15，23]中提出的稳定性预测的研究，以包括包含多个对象几何形状的堆栈。这允许对系统性能进行更严格的定性和定量评估例如，我们的工作首次量化了为稳定性预测训练的模型是否正确地定位了潜在的稳定性违反。我们证明，我们的模型的基础上ShapeStacks优于Lerer等人的基线[15]并且在测试期间不需要物理引擎的情况下，在真实世界的图像数据上与当前最先进的技术[23]并行地执行最后，为了研究我们的主要假设–形状堆栈3不稳定且主动地执行堆叠。特别是，我们认为，通过稳定性预测的被动任务，我们的系统隐式地学习评估所涉及的单个对象几何形状的可堆叠性我们证明了这一点，通过提取不同的块几何形状的堆叠得分，并使用它来优先选择件在建设高栈。通过在实际堆叠过程中插入噪声来代替真实代理中存在的干扰（例如，电机和感知噪声以及接触物理学），我们证明出现了对象可堆叠性的更直观的概念。作为结果，我们的应用程序将收集和分析对象的能力，并相应地对部件进行排序，从而成功地构建稳定的塔。此外，我们表明，我们的模型是能够稳定以前不稳定的结构，通过增加配重，可以说是通过开发一个直观的理解平衡。2相关工作基于视觉的物理直觉的想法深深植根于认知科学，它是一个长期的研究主题[14]。人类非常善于预测结构稳定性[1]，推断相对质量[8]和外推运动物体的轨迹[14]。尽管人类物理直觉的确切工作原理强大的深度学习模型和物理模拟器的结合在预测物体在倾斜表面上的运动[24]和球碰撞的动力学[5，2，3]方面取得了令人鼓舞的结果。虽然一些关于直觉物理学的先前工作假设直接访问物理参数，例如位置和速度，但一些作者已经考虑从视觉观察中学习物理学。示例包括关于支持关系[7，10]及其几何启示的推理以及牛顿图像理解中的推断力[18]。我们的目标是相似的，因为我们从视觉观察中了解到了生物学的影响。然而，重要的是，在我们的工作中，启示不是先验指定的，而是通过被动地预测对象堆栈的稳定性而出现的。后者与稳定性预测中最近的几项工作有关。Lerer等人[15]通过展示来自模拟和真实图像的堆栈的前馈稳定性预测，开创了该领域，Wu等人。[23]提出了基于重新渲染观察到的场景并使用物理引擎计算稳定性的更复杂的预测器，其在现实世界数据上的表现优于[15]。相比之下，我们的方法实现了与[23]相当的性能，同时仅使用如[15]中的有效前馈结构稳定性问题在机器人领域也得到了很好的研究，特别是在操纵任务的背景下。早期的工作实现了基于规则的方法与基本的视觉感知的游戏叠叠[21]或安全解构物体堆[19]。最近，在4O. Groth等人图2：来自ShapeStacks数据集的不同场景（A）-（D）描绘了初始堆叠设置：（A）稳定的、校正的立方体塔，（B）多个物体彼此平衡的稳定塔;一些记录的图像被有目的地裁剪以包括部分可观察性的困难，（C）稳定的，但由于颜色和纹理而具有视觉挑战性的场景，（D）违反平面原理（VPSF）。（E）-（H）示出了由于质心违反（VCOM）引起的不稳定的倒塌塔的模拟3D感知和物理模拟已被用于堆叠石头等不规则物体[6]。Li等人的实验装置[17，16]与我们的相关之处在于，在模拟中为Kappla块训练稳定性预测器，然后将其应用于引导机器人臂的堆叠。我们的工作与[17，16]不同，因为我们正在考虑各种物体几何形状以及更具挑战性的堆栈配置。此外，[17，16]不考虑对象启示。最近，Zhu et al.[25]表明，在循环中具有末端效应器的端到端方法可用于学习足以将两个块堆叠在彼此之上的视觉运动技能-无论是在模拟还是在现实世界中。他们的工作可以被看作是对我们的补充，集中在堆叠过程中的末端执行器驱动，而我们专注于视觉反馈回路和新兴的对象启示。3ShapeStacks数据集在本节中，我们将描述ShapeStacks数据集，首先概述其内容（第3.1节），然后分析堆叠的物理特性（第 3.2 节）。后者需要解释ShapeStacks的设计以及精确定义其一些物理数据注释。包括模拟描述和数据生成脚本的完整数据集是公开可用的。形状堆栈5表1：ShapeStacks内容。在左侧，我们展示了数据集的两个子集中的场景和记录图像的数量。CCS由不同大小的长方体、圆柱体和球体组成，而Cubes仅具有规则块。在右侧，我们报告了渲染和注释的详细信息。有关稳定性破坏类型VCOM和VPSF的推导，请参见第3.2节。CCS（方案数）立方体（方案数）渲染注释渲染C224× 224 RGBes图片数量 102，272 21，856 21，856115，552 24，704 24，704C场景语义3.1数据集内容ShapeStacks是一个包含20，000个模拟块堆叠场景的大型集合。方案的选择强调了多样性，如图2所示，其特征在于多个几何形状、结构复杂程度和结构稳定性破坏类型数据集内容的详细总结见表1。每个场景都是由立方体、长方体、圆柱体和球体组成的单链堆栈，所有这些都具有不同的尺寸、比例和颜色。这20，000个场景大致均匀地分布在仅包含立方体的场景（用于与稳定性预测的相关工作[15，23]进行比较）和包含长方体，圆柱体和球体的场景（v.CCS）。堆栈具有可变的高度，从两个到六个对象，大多数对象的高度为三个。每种情况都可能是稳定的，也可能是不稳定的。这是通过以给定场景作为起始条件2运行物理模拟来确定的。对于每个堆栈高度，我们提供了等量的稳定和不稳定场景。此外，不稳定场景被均匀地划分为两种不同的不稳定类型（参见图1）。第3.2节）。场景分为训练集（约70%）、验证集（约15%）和测试集（约每个场景都使用随机设置的背景纹理，对象颜色和照明条件进行渲染。我们从16个不同的摄像机角度记录每个场景，并保存分辨率为224 x 224像素的RGB图像。每个记录的图像都带有一个二进制稳定性标签。此外，每个图像都与分割图对齐，该分割图将图像的不同部分与其关于稳定性的语义相分割图注释了2我们只报告和发布模拟结果与物理推导一致的场景。由于模拟器的不精确性而表现不同的场景被丢弃。堆叠高度火车Val测试火车Val测试随机场景h=2h=31,3402,4642865282865281,6801,680360360360360C25背景纹理C6对象颜色h=41,7163683681,558332332C5照明条件h=56781441441,274272272注释h=619440401,030220220C0/1稳定性#场景6,392 1,366 1,3667,222 1,544 1,544CVCOM VPSF6O. Groth等人3图3：质心准则。可以通过从顶部到底部顺序地考虑子堆叠来为了稳定性，每个子堆叠的CoM的投影必须位于与支撑它的块的接触表面内如右图所示，圆柱形或球形物体提供了无限小的接触表面，这不提供稳定性。破坏塔稳定性的物体、倒塌过程中第一个坠落的物体以及塔的底部和顶部。3.2堆叠力学虽然我们的目标是研究直观的物理和对象affor-舞蹈的出现，我们认为，一个精确的理解的物理特性的情况下，控制数据生成以及评估模型是必不可少的。在本文中，我们将注意力限制在单链堆栈上：每个对象S都位于另一个对象S′或地平面的顶部，并且没有两个对象处于同一水平。也就是说，我们排除了拱、多柱、叉等结构我们还假设所有物体都是凸的，因此物体的任何两点之间的直线都完全包含在其中。为了确定堆栈的稳定性，我们必须使用质心（CoM）的概念设p=（x，y，z）∈SiR3是包含在刚体Si内的点。如果m是物体的质量∫如果物质是均匀的若密度为ρ，则其CoM由ri=ρSipdx dy dz/m给出。我们现在研究一个物体在另一个物体上的稳定性，然后进行推广结果是一个完整的堆栈。为此，参考最上面的两个块是有用的图3中的假设刚体S4浸没在均匀重力中在z轴的负方向上作用的场。此外，假设S4搁置在水平表面上（在这种情况下为S3），使得其所有接触点包含在水平面π中，Aπ表示这些点的凸包。那么S4是稳定的当且仅当它的CoMr4的投影A [22]中包含了一个新的π，记为Proj π（r4）∈A.如果S4在S3上停留在一个稳定的位置，那么（S3，S4）的组合可以看作是一个刚体4、RR R 然后我们可以检查实体（S4，S3）相对于S2的稳定性。从堆栈的顶部到底部对每个对象进行迭代，会产生图3中所示的以下引理引理1. 设S1，. . . 、Sn是形成搁置在平坦地平面S0上的单股塔架的凸刚性体的集合。设m1，. . . ，m，n是物体的质量，r1，. . . ，r在它们的质心上。此外，设Ai是物体Si−1和Si之间的接触面，πiAi是包含它的平面。形状堆栈7n一期+1假设π平行于xy平面，而xy平面又与重力正交。那么，如果物体最初是静止的，塔是稳定的，当且仅当，i=1，. . . ，n−1： Proj（rn）∈A， rnΣn=Σj=i+1mjrj（一）πii+1ii+1j=i+1mj其中r n是最上面n − i个块的总CoM。该引理可以用于通过针对每个接口Ai从上到下检查CoM条件来评估栈的稳定性。注意，重要的不是单个块的质心，而是每个表面Ai上方的塔架部分的质心。因此，可以构建稳定的堆叠，其对于各个块具有明显的CoM违反，但是由于顶部上的其他块的平衡效应而总体重要的是，这允许复杂的堆栈不能通过一次只放置一个对象以自底向上的方式构造。我们特别区分两种类型的不稳定性。第一种是违反平面准则（VPSF）。这是由堆叠在弯曲表面顶部的物体引起的，该弯曲表面由于无限小的接触面积而违反等式（1）。值得注意的是，这取决于对象的形状，而不是相对对象定位。第二种类型的不稳定性被称为违反质心准则（VCOM），并且包括违反等式（1），其取决于堆叠中的对象的定位。对于每个不稳定场景，我们针对恰好一个接触区域Ai引入VPSF或VCOM违反。对于数据集构造，引理1因此允许我们严格控制在每个模拟场景中发生哪个稳定性违反，并且在每个图像中标记它可归因于哪个对象（参见图1）。见图4）。4稳定性预测在本节中，我们构建了可以单独从RGB图像预测堆栈稳定性的模型我们从稳定和不稳定堆栈的被动观测中学习这些模型具体来说，我们的基于视觉的稳定性分类器经过训练，可以区分稳定和不稳定的塔（第4.1节），并通过在模拟和真实数据上展示最先进的性能进行我们还量化了模型如何可靠地定位不稳定堆栈中存在的机械稳定性违规（第4.2节）。4.1训练稳定性预测器我们训练了一个视觉分类器，用于预测形状堆栈是否稳定的任务，使用来自ShapeStacks数据集的图像3，用二进制稳定性标签进行注释3我们只使用初始堆栈配置的静态图像，而没有图像描绘模拟中稍后时间点的崩溃。8O. Groth等人为此，我们研究了通常用于基于图像的分类的两种神经网络架构的使用：AlexNet [13]和Inception v4 [20]。在这两种情况下，我们优化网络参数θ，给定我们的数据集D={（x（1），y（1）），. . . ，（x（m），y（m））}，并且通过最小化以下逻辑回归损失来确定y（i）的可L（θ;D）=−Σmi=1y（i）log.Σ11 +e−f（x（i）;θ）.+（1−y（i））log1−Σ11 +e−f（x（i）;θ）（二）CNN的未缩放logit输出由f（x;θ）表示，并且对于稳定图像，标签值为y= 0，对于不稳定图像，标签值为y= 1。Inception v4和AlexNet都使用RMSProp优化器[9]进行训练，其中求解器超参数如[20]中所报告的80个时期。我们在训练过程中使用两个不同的ShapeStacks子集（参见。表1），每一个包含等量的稳定和不稳定图像。两种类型的违规行为（VCOM和VPSF，参见第3.2节）在不稳定图像中均匀表示。我们还保留了一组46，560张图像，其中包含所有形状的堆栈作为最终测试集。在训练过程中，我们通过随机化颜色、改变纵横比、应用随机裁剪、垂直翻转和最小平面内旋转来增强训练图像我们确保所有的数据扩充仍然产生物理上合理的直立塔。表2显示了分类器在我们的模拟测试数据和[15]提供的真实世界块塔数据上的性能。我们的实验表明，AlexNet为CNN在这项任务上的表现提供了一个有用的基线。然而，它始终优于Inception网络。我们选择在ShapeStacks数据上训练的Inception v4架构作为所有进一步实验的参考模型。正如预期的那样，当仅在立方体上训练时，这两个模型在真实世界数据上的表现最好，因为真实世界图像也仅显示立方体堆栈。当训练也在多个对象类型上执行时，两个模型在组合的ShapeStacks测试数据（具有所有形状）上达到最佳性能。然而，令人惊讶的是，Inception网络从立方体到其他结构的推广程度如此之好，这表明它学会了对CoM原理的直觉（第3.2节），这也适用于更复杂的形状。在真实图像上，在我们的数据集上从头开始训练的Inception v4超过了Lerer等人的基线。[15]并且与Wu等人的更复杂的视觉去动画方法相当。[23]，它将观察到的图像转换为物理状态，并使用物理引擎检查稳定性。我们在-致敬这丰富的ShapeStacks数据集，以及我们的数据增强方案，这导致在视觉上和结构上不同的堆栈集，因此提供了良好的概括。4无法进行比较，因为训练数据和模型都不是公开可用的。形状堆栈9表2：稳定性预测准确度，表示为正确分类为稳定或不稳定图像的百分比。AlexNet和Inception v4（INCPv4）是在模拟数据上从头开始训练的，这些数据由具有立方体或 CCS 的堆栈组成 INCPv 4-IMGN 在ImageNet上进行了预训练[4]。所有算法都在来自[15]的真实图像和来自我们的ShapeStacks测试分割的模拟图像上进行了测试，其中包含所有形状。AlexNet INCPv4-IMGN INCPv4 Physnet VDA立方体CCS立方体CCS立方体CCS [第十五条] [23日]模拟60.5% 58.8%百分之七十六点二百分之八十四点九百分之七十七点七百分之八十四点九不适用4不适用4真实[15]百分之六十五点五百分之五十二点五百分之七十三点二64.9%百分之七十四点七百分之六十六点三66.7% 百分之七十五模拟实例真实的例子4.2不稳定性定位为了探讨网络是否基于健全的机械原理的稳定性预测，我们检查其能力，本地化的机械故障点。我们的方法类似于[15]的方法，尽管由于ShapeStacks数据集中包括的注释，我们能够通过将n个w或k个at t e n ti n映射与c或r e s p on d i n g r ou n t t i n g r u t i t i t y s te g t i t见图4）。具体而言，我们通过进行遮挡研究来计算注意力图，由此使用高斯滤波器将图像模糊化，该高斯滤波器具有以滑动窗口方式应用的30个像素的标准偏差，步幅为8，补丁大小为14 x 14像素。为了避免产生类似对象的遮挡伪影，模糊的补丁不具有刚性边界，而是逐渐淡入图像（参见图1）。图4A和D）。修补图像作为稳定性分类器的输入给出，并且预测的稳定性分数在图中聚合（参见图10）。图4B和E）。然后，我们检查注意力地图的最大化是否包含在负责稳定性违反的对象中（参见图4 C和F），并在第4.2节中报告结果在79年。9%的不稳定情况下，网络关注违规区域，我们将其定义为包围违规对象和第一个下降对象的最小矩形。对于VPSF不稳定性，网络关注具有52的ke_h〇d的违规弯曲对象。百分之一。在38中，对于V⑶M可行，两个w或k的焦点仍然保持在违反对象上，但是也扩散到塔的无支撑的上部部分（第一掉落对象+塔顶）。1%的情况下，这是符合物理支配VCOM不稳定性（参见。当量① ①）。10O. Groth等人一BCFE表3：网络参与具有特定物理意义的图像区域的次数的分数（参见图1）。见图4）。使用在CCS数据上训练的Inception v4网络分析了1，500个图像（参见图1）。第4.1节）。第一行汇总了所有不稳定性类型，第二行和第三行分别提供了CoM（VCOM）和平面违规（VPSF）的细分第四行列出了在所有不稳定场景的分割图上被相应标签占据的区域的分数，并且用作仅通过随机机会聚焦于特定区域的可能性同样，第五行报告塔内的随机机会注意。违反对象第一个目标下跌违反区域塔基塔顶背景VCOM VPSF38.9%29.3%79.9%百分之五点九百分之五点五百分之二十点四VCOM百分之三十二点七百分之三十点八76.5%百分之六点五百分之七点三22.7%VPSF52.1%百分之二十六点三87.1%百分之四点六百分之一点七15.4%随机机会百分之一点六百分之一点九百分之四点九百分之一点七百分之一点八93.0%塔内随机百分之十九点三百分之二十二点九59.0%百分之二十点五21.7%百分之十四点五D图4：经由遮挡研究获得的注意力可视化。以滑动窗口方式对图像（A，D）应用高斯模糊，增加（红色）预测稳定性的/减少（蓝色）被示出为（B，E）中的热图，并且后者与（C，F）中的地面实况分割图进行比较。将注意力中心与相应的分割图（C）和（D）进行比较。(F)并且实际上与由十字线指示的各个违规位置相关。5堆叠和可堆叠性C F图例塔顶第一目标落在违反对象塔基背景VCOMVPSF形状堆栈11到目前为止，我们一直专注于预测堆栈的稳定性然而，我们所学习的模型是否理解所需的几何示能，这一点还不清楚10O. Groth等人图5：顶行：具有随机方向的无序对象集合底行：从最可堆叠（左）到最不可堆叠（右）排序的对象。每个对象都以根据我们的网络提供最佳可堆叠性的方式定向。分数允许在不同稳定性类别之间进行划分，如用白色垂直线可视化的。积极地建立新的书库。在这里，我们通过考虑三个主动堆叠任务来回答这个问题。第一个是估计不同对象的可堆叠性，并在堆叠时对其进行优先级排序（第5.1节）。第二个是通过视觉反馈准确估计堆栈上块的最佳位置（5.2节）。第三种方法是在不稳定的结构上放置一个额外的物体来平衡它（5.3节）。所有任务都显示出令人鼓舞的性能，表明模型确实从被动稳定性预测中获得了可操作的物理知识。5.1堆叠性不同的物体形状本质上具有不同的堆积电位：虽然长方体可以在任何方向上作为坚实的基础，但圆柱体只能在直立放置时支撑物体，而球体永远不是一个好的选择作为支撑物体。如果一个智能体被给予一组要堆叠的块，它可以使用对这些启示的理解来优先考虑对象，将最稳定的放在堆栈的底部。我们定义对象的可堆叠性（即它在堆栈构造方面的实用性），方法是回答以下问题：“此对象对其他系统的支持程度如何？”给定一组对象，我们计算它们的相对可堆叠性得分如下：每个对象被放置在地面上，就好像它是使用其离散方向之一的堆叠的基础5。然后，将所有其他对象系统地放置在基础对象的顶部，一次一个，在它们各自的所有方向上。生成所得组合的图像，并使用我们的预测器评估稳定性。顶部对象的位置经由模拟退火在基本对象周围的限定半径内被采样，并且记录最大稳定性得分基础对象的可堆叠性得分然后被估计为5长方体提供三个离散的方向，每个方向对应于它的三个不同的面（考虑对称性）。圆柱体提供两个方向（直立和侧向），而球体由于其径向对称性而仅提供一个方向12O. Groth等人一BCD图6：不同物体类别的可堆叠性得分与投影表面积的相关性。通过将对象投影到x-y平面上来计算投影表面积。球体和卧式圆柱体的可堆叠性得分非常低。随着投影表面积的增加，直立圆柱体和长方体通常更所有其他物体放置在其顶部时所达到的平均最大稳定性。我们还增加了随机扰动的基础位置，反映堆叠的鲁棒性的想法，在估计的分数。如图5所示，存储能力可以用于存储对象的属性，并且可以基于它们可以被期望支持其他对象的程度来确定它们的属性。我们对图6中所示的模型和存储能力进行了测试，以计算具有不同体积和纵横比的所有对象类的分数。我们通常发现，该模型以合理的方式排列形状，更喜欢堆叠在长方体的最大面上，然后在直立的圆柱体上，并拒绝球体通常不适合堆叠。结果表明，不同的几何形状堆叠的适用性是隐含学习的稳定性预测。5.2仿真中的堆垛机接下来，我们调查的稳定性预测的能力，不仅为了ob-boundary在一个积极的堆叠的情况下，但也准确地将它们定位在稳定的配置。为此，我们设计了三种涉及不同形状类型的堆叠场景：立方体、长方体和CCS。在每种情况下，该方法都有一个12种不同形状和大小的对象池，以堆叠尽可能高的塔每个场景都是从六个摄像机观察到的（参见图1）。图8D），其随着堆叠的增长而向上移动，以保证在任何时候完全覆盖工艺在每个堆叠片段开始时，背景纹理、对象颜色和场景灯光都是随机的。然后，根据可堆叠性得分计算每个对象的堆叠顺序和最佳取向（参见图1）。第5.1节）。堆叠过程开始于将第一对象放置在场景中心。堆栈队列中位置r处的对象总是派生的在当前塔架主干上方的固定高度hr处，并且根据第5.1节中描述的模拟退火过程，在z=hr处的x-y平面中对如果没有为特定对象识别稳定位置（即，Logistic回归评分为<0。5），则搁置一旁，对其余形状堆栈13图7：堆叠性能。条形图的高度表示算法在倒塌之前用相应数量的物体建造塔平均塔高度用垂直虚线指示。的过程。迭代该过程，直到对象的放置导致堆栈的折叠或没有更多的对象可用。在图7中，我们报告了在分别具有立方体、长方体和CCS的三种场景中的两种不同训练的模型的实现的堆叠高度对于每个堆叠事件，算法被给予12个随机对象的池。然而，CCS场景总是包括正好两个球体，因此在这种情况下可实现的最大我们比较两个稳定性预测因子：一个只在立方体上训练（蓝色条），一个在CSS对象上训练（橙色条）。CCS稳定性预测器在所有三种情况下都明显优于仅在立方体上训练的预测器。事实上，立方体预测器只能在立方体堆叠上表现得很好，并且在面对各种形状时基本上失败，突出了在不同形状集上训练的重要性。5.3平衡不稳定的结构在最后一个任务中，我们用一个不稳定的堆栈呈现我们的模型，冻结它，使它不会崩溃，然后要求算法在顶部放置一个额外的对象来平衡不稳定性。这是一个微妙的任务，需要该模型理解平衡的概念，不能通过简单地将一个块放在下面的块的顶部来解决。图9示出了我们的算法充分地解决了对于不同类型的配重对象在“不可测场景”中具有高可实现性的问题6结论我们调查收购的物理直觉和几何启示的背景下，基于视觉的，广义的对象堆叠。为此，我们构建了ShapeStacks数据集，该数据集具有不同的形状堆栈，并对违反机械稳定性进行了详细的注释，并将其公开发布。我们在ShapeStacks上训练了我们的模型还正确地定位结构不稳定性，产生关于对象的可堆叠性的直观概念，并成功地指导仅基于14O. Groth等人对象成功率立方体百分之七十六长方体百分之九十四气缸百分之七十二球体百分之九十八图8：堆叠尝试的三个示例。在（A）和（B）中，该算法成功地将立方体和长方体堆叠到最大高度12。在C中，算法以违反等式的方式放置第10个对象。（一）.在（D）中，针对（C）中失败的堆叠尝试示出了从不同相机角度获得的图9：平衡不稳定结构。A：冻结，堆栈不稳定; B：塌塔; C：成功放置防止塌陷的配重。右图：不同配重类型的成功率总计超过50集。视觉提示我们的研究结果表明，一个直观的理解，物理原理和几何启示，可以获得从视觉观察和有效地利用在操作任务。谢谢。本研究由欧洲研究委员会（ERC 677195-IDIU）和牛津大学EPSRC AIMS博士培训中心资助。形状堆栈15引用1. Battaglia，P.W. Hamrick，J.B.，Tenenbaum，J.B.：模拟作为物理场景理解的引擎。Proceedings of the National Academy ofSci-ences110（45），18327-18332 （ 2 013 ） .http ： //doi. org/10 。 1073/pnas. 1306572110 ，http://www.pnas.org/cgi/doi/10.1073/pnas.13065721102. Battaglia，P.帕斯卡努河赖先生，Rezende，D.J.，等：交互网络，用于学习物体，关系和物理。在：神经信息处理系统的进展。pp. 45023. Chang ， M.B. ， Ullman ， T. ， Torralba ， A. ， Tenenbaum ， J.B. ： ACompositionalObject-BaseddApproachtoLearninggPhysicalDynamicspp.1http://arxiv.org/abs/1612.003414. Deng，J.，Dong，W.，索赫尔河Li，L.J.，Li，K.，李菲菲：Imagenet：一个大规模的分层图像数据库。在：计算机视觉和模式识别，2009年。CVPR2009。 IEEEConfencen。pp. 248-255 02The Dog（2009）5. Fragkiadaki ， K. ，阿格拉瓦尔， P. ， Levine ， S. ， Malik ， J. ：学习VisualPredicVe 时尚外来资产公司简介福尔 PLAYING 碧丽ARDS pp.1 （2015），http://arxiv.org/abs/1511.074046. Furrer，F.，Wermelinger，M.，Yoshida，H.，Gramazio，F.，Kohler，M.，齐格瓦特河Hutter，M.：自动机器人石头堆叠与在线下一个最佳对象目标-获取姿态规划。IEEE International Conference on Robotics andAutomatio n pp.2350http：//doi. org/10。1109/ICRA. 2017年。79892727. Gupta，A.，埃夫罗斯，匿名戒酒会Hebert，M.：区块世界重访：使用定性几何和力学的图像理解。欧洲计算机视觉会议（ECCV）（2010）8. Hamrick，J.B.， Battaglia，P.W. Griffiths，T.L. Tenenbaum，J.B.：通过心理模拟推断复杂场景中的质量。认知 157 （ 2016 ）。https://doi.org/10.1016/j.cognition.2016.08.0129. Hinton，G. Srivastava，N.，Swersky，K.：Coursera，neural networks formachine learning ， lecture 6e （ 2014 ）， http://www.cs.toronto.edu/tij-men/csc321/slides/lecture slides lec6.pdf10. Jia，Z.加拉格尔，AC Saxena，A.，陈T：从块到稳定性的3D推理。IEEE Transactions on Pattern Analysis and Machine Intelligence 37（5），905http：//doi. org/10。1109/TPAMI. 2014年235943511. K jellstrm，H.， Romero，J.， K rag i'c，D. ：Visualobect-acti onre cti n t it in tin：从人类演示中感受对象示能表示。Computer Vision and ImageUn-derstanding115（1），81- 90（2011）. http：//doi. org/10。1016/j. cviu. 2010年。08. 00212. Koppula，H.S.， Saxena，A.：使用Ob-预测人类活动反应性机器人响应的示能表示舞蹈。 IEEE 学报PATTERNAnalysis的 ndMACHINE我爱你38 （ 1 ）条，14（ 2016 年）。https://doi.org/10.1109/TPAMI.2015.243033513. 克里热夫斯基一、萨茨科弗一、辛顿G.E.：ImageNet分类-深度卷积神经网络（Deep Convolutional Neural Networks）预付款NeuralInformmationProcessingSystemspp.1（ 2012年）。https://doi.org/http://dx.doi.org/10.1016/j.protcy.2014.09.00714. 库布里希特J.R.霍利奥克K.J.鲁智深道：H：直观物理学：Cur-研究和争议。Trends in Cognitive Sciences21（ 10），七四九（2017年）。http：//doi. org/10。1016/j. TICS. 2017年。06. 002，http://dx.doi.org/10.1016/j.tics.2017.06.00216O. Groth等人15. Lerer，A.，格罗斯，S.，Fergus，R.：通过实例学习积木塔的物理直观。In ： Proceedingsofthe33rdInternationalConferenceonInternationalConFerenceonMachineLearning-Volume48. pp. 430-438 ICML' 16，J M L R. org（2016），http://dl.acm.org/citation.cfm? 3045390.304543716. 李伟，Azimi，S.，Leonardis，A.，Fritz，M.：跌倒或不跌倒：物理稳定性预测的可视化方法。arXiv预印本arXiv：1604.00066（2016）17. 李伟，Leonardis，A.，Fritz，M.：机器人操作的视觉稳定性预测。IEEEInternational Conference on Robotics and Automation（IEEE机器人与自动化国际会议） 2606- 2 613（2017）。 http：//doi. org/10。1109/ICRA. 2017年。798930418. Mottaghi河Bagherinezhad，H.，Rastegari，M.，Farhadi，A.：牛顿图像理解：在静态图像中展开对象的动态。2016年IEEE计算机视觉和模式识别会议（CVPR）（2016）。https://doi.org/10.1109/CVPR.2016.38319. Ornan，O.，德加尼答：朝向自治拆卸的以最小的扰动随机堆积的物体。 IEEE InternationalConferenceon我爱你Robots的 ndSystems pp.4983（2013年）。https://doi.org/10.1109/IROS.2013.669707620. 塞格迪角Ioffe，S.，Vanhoucke，V.，Alemi，A.A.：起始-v4，起始-resnet和剩余连接对学习的影响在：AAAI。卷4，p.12（2017）21. 王杰，Rogers，P.，帕克湖Brooks，D.，Stilman，M.：机器人叠叠乐：辅助和战略区块开采。2009IEEE/RSJInternationalCon-fe-receonIntelligentRobotsandSystems，IROS2009pp. 第5248- 5253号决议（2009年）。https://doi.org/10.1109/IROS.2009.535430322. Wieber ， P.B. ：步行系统的稳定性。 Proceedings of the ThirdIARPInternalWorkshoponHumanoidandHumanFriendlyRoboticspp.1-7（2002）。https://doi.org/10.1088/0264-9381/12/2/00323. 吴，J.，Lu，E.，Kohli，P.，弗里曼，W. T.，Tenenbaum，J.B.：学习通过视觉去动画看到物理。神经信息处理系统进展（Nips）（2017）24. 吴，J.，耶尔德勒姆岛Lim，J.弗里曼，W.，Tenenbaum，J.：伽利略：通过将物理引擎与深度学习集成来感知物理对象属性。Adva nces inNeur alI nformat o nProce ss sinSystems28（NIPS2015） pp.125. Zhu ， Y. ，王志， Merel ， J. ， Rusu ， A.A. ， E

下载后可阅读完整内容，剩余1页未读，立即下载