可解释的直观物理模型:图像序列中的物体碰撞行为的预测与潜在物理因素的关联

106 浏览量更新于2023-10-13 收藏 853KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

时间可解释的直观物理模型田野1，王小龙1，詹姆斯戴维森2，阿比纳夫古普塔11卡内基梅隆大学机器人研究所2第三波自动化图1.可解释的物理模型。考虑上面显示的序列我们不仅可以预测未来的碰撞帧，还可以预测导致这种推断的潜在因素。例如，我们可以推断圆柱体的质量我们推断有意义的潜在因素的能力启发我们在本文中学习一个可解释的直观物理模型。摘要人类具有运用物理常识和预测碰撞效应的非凡能力. 但他们了解其中的深层因素吗他们能预测潜在因素是否发生了变化吗？有趣的是，在大多数情况下，人类可以预测不同条件下类似碰撞的影响，如质量，摩擦等的变化，这是假设这主要是因为我们学会了有意义的潜在变量的物理模型。这并不意味着我们可以估计这些有意义的变量的精确值（估计质量或摩擦力的精确值受此观察的启发，我们提出了一个可解释的直观物理模型，其中瓶颈层中的特定尺寸对应于不同的物理特性。为了证明我们的系统对这些潜在的物理特性进行建模，我们在不同形状（立方体、圆锥体、圆柱体、球体等）的碰撞上训练我们的模型。以及测试看不见的形状组合的碰撞。此外，我们证明了我们的模型推广，即使类似的场景模拟不同的底层属性。关键词：直观物理·可解释模型·物理性质2Tian Ye，Xiaolong Wang，James Davidson，AbhinavGupta1介绍考虑图1所示的碰撞图像序列。当人们看到这些图像时，他们不仅能识别物体的形状和颜色，还能预测将要发生的事情。例如，在第一序列中，人们可以预测圆柱体将旋转，而在第二序列中，球将在圆柱体上没有运动的情况下反弹。但除了视觉预测之外，我们甚至可以推断出潜在的潜在因素，这些因素可以帮助我们解释视觉预测的差异。例如，如果我们知道球的质量没有变化，则两个等式之间的行为的可能解释是，第一个等式的圆柱体长度比球长，因为第二个等式的圆柱体比球重。除此之外，我们还可以推断，第一个序列中的圆柱体比第二个序列中的圆柱体轻得多。人类展示了深刻的能力，了解世界的基本物理[9，10]，并用它来预测未来。我们使用这种物理常识不仅是为了丰富理解，也是为了物理交互。问题是，这种物理常识是否只是一个端到端的模型，中间表示是一个黑盒子，或明确和有意义的中间表示？对于人类来说，答案似乎是后者。如果某些基本条件发生变化，我们就能预测未来。例如，我们可以预测，如果我们在第二个序列中以10倍的初始速度扔球，那么圆柱体可能会旋转。在本文中，我们专注于学习物理学的直观模型[13，17，2]。与最近的一些努力不同，我们的目标是以端到端的方式学习物理，对中间层几乎没有限制，我们专注于学习可解释的模型。更具体地说，我们的网络模型中的瓶颈层的物理属性，如质量，摩擦等。然而，学习一个可解释的直观物理模型是一项相当具有挑战性的任务。例如，Wu等人[25]试图建立一个模型，但逆向图形引擎推断出物理属性，如质量和摩擦。然后，这些属性与神经物理引擎或模拟器一起用于预测。但我们真的能从这种碰撞的几帧中推断出物理性质我们能通过观察框架把摩擦力和质量，复原力分开吗？事实上，这些物理因素中的大多数都是如此依赖，以至于无法推断出物理属性的确切值例如，我们可以确定性质之间的比率，但不能确定两者的精确值（例如，我们可以确定两个物体之间的相对质量，但不能确定两者的精确值）。这正是为什么在[25]中，只有一个因素是从运动中推断出来的，而另一个因素与外观直接相关。此外，学习的物理模型是特定于领域的，即使在不同的形状中也不会为了解决这些挑战，我们提出了一个可解释的直观的物理模型，其中瓶颈层中的特定尺寸对应于不同的物理特性。瓶颈层对分布进行建模，而不是推断质量、速度和摩擦力的精确值。为了证明我们的系统对这些潜在的物理特性进行建模，我们在不同形状（立方体、圆锥体、圆柱体、球体等）的碰撞上训练我们的模型。和碰撞试验可解释的直观物理模型3看不见的形状组合。我们还通过预测不同物理条件下的未来状态（例如，温度）来展示我们模型例如，在一个实施例中，如果摩擦加倍，未来帧将看起来如何）。我们的贡献包括：（a）以可解释的方式解开不同物理性质的直观物理模型;(c)对不同形状和物理量组合的概括;最重要的是，（d）当物理环境改变时，适应未来预测的能力注（d）与一般化不同：对于与观察到的前四个帧完全不同的物理场景进行幻觉/预测。2相关工作近年来，物理推理和学习物理常识引起了人们的极大兴趣[29，17，16，28，18，1，31，5]。已经有多种努力来学习物理常识的隐式和显式模型。大多数这些系统的潜在目标是利用物理学来预测将要发生的事情下一个[8，6，13，14，7，26，24]。希望是，如果模型可以预测与物体交互后接下来会发生什么例如，[13]试图通过预测积木塔是否会倒塌来学习物理属性。[7]提出学习一个打台球的视觉预测模型。然而，第一个问题是什么是正确的数据来学习这个物理模型。研究人员尝试了各种各样的方法。例如，许多研究人员专注于使用真实世界视频进行视觉预测的任务，基于预测模型将包含一些潜在的物理属性的假设[22，15，21]。虽然视频提供了真实的数据，但对如何收集数据几乎没有控制，因此隐式模型最终学习纹理的动态模型为了强迫身体常识学习，人们甚至尝试使用身体互动的视频例如，Physics101数据集[24]收集了该任务的碰撞序列。但大部分学习仍然是被动发生的（随机批次）。为了克服这一点，最近的方法试图通过使用机器人的主动交互来学习物理[18，1，6]。虽然在数据收集过程中有更多的控制，但由于大多数实验是在实验室环境中进行的，对象很少，因此仍然存在缺乏多样化数据的问题最后，可以使用仿真在完全控制若干物理参数的情况下收集数据最近有很多努力使用模拟来学习物理模型[13，7，17，16]。这些方法在数据方面的一个限制是在训练期间缺乏多样性，这迫使它们学习特定于特定形状（诸如块、球体等）的物理模型。此外，这些方法都没有使用模拟的全部功能来生成具有多个条件的密集视频集。最重要的是，这些方法都没有学习可解释的模型。除了数据问题，另一个核心问题是这些模型中的物理为了真正理解物体的物理性质4Tian Ye，Xiaolong Wang，James Davidson，AbhinavGupta属性，它要求我们的模型是可解释的[3，23，25，4，12]。也就是说，模型不仅应该能够预测未来，而且潜在表示还应该指示物理属性（例如，质量、摩擦和速度）。例如，[3]提出了一个交互网络，它可以学习预测引力系统的刚体动力学[25]提出了显式地估计物理对象状态并将该状态信息转发到物理引擎以进行预测。然而，我们认为这些物理性质的确切值而不是估计的物理状态明确，我们的工作集中在分离的瓶颈层的尺寸。我们的工作主要涉及逆图形网络[12]。它在图形代码层中学习一种分解的表示，鼓励不同的神经元可以以端到端的方式训练系统，而不提供显式状态值作为图形代码层的监督然而，与反向图形网络不同，在反向图形网络中，姿势和光线可以从输入图像中单独推断出来，动态取决于我们模型中的物理属性（质量，摩擦力和速度）的联合集合，这会混淆未来的预测。我们的模型也与计算机视觉中的视觉预测模型[11，22，15，27，30，19，20]相关例如，[20]提出在给定前帧序列作为输入的情况下，直接预测原始像素中的视频帧序列不是直接预测像素，[22]提出预测给定输入图像的光流然而，光流估计并不总是正确的，从而在用于训练的监督中引入误差。为了解决这个问题，[30]提出了一个双线性采样层，使扭曲过程可微。这使他们能够以端到端的方式从像素到像素地训练他们的预测模型。3数据集在本文中，我们为我们的实验创建了一个新的数据集我们提出的数据集的优点是，我们有不同的物理属性以及不同类型的碰撞（跌倒，扭曲，弹跳等）的不同对象外观的丰富组合与以前的数据集不同，我们数据集中的物理属性通过这种方式，我们可以训练模型，通过观察碰撞来估计物理特性。更重要的是，我们的测试集包含在训练集中看不到的物体形状或物理属性的新组合。数据集生成的细节如下所示。我们使用虚幻引擎4（UE4）游戏引擎生成数据。我们使用11种不同的对象组合，其中包含5种独特的基本对象：球体、立方体、圆柱体、圆锥体和楔形体。我们选择了三个不同的物理属性，包括静态物体的质量，碰撞物体的初始速度和地板的摩擦力。对于每个属性，我们选择5种不同的值尺度，如表1所示。为简单起见，我们通过格式{parameter}指定参数的特定小数位数可解释的直观物理模型5图2.我们的数据集包括2个具有各种形状的物体碰撞。与现有的物理数据集只有一种类型的形状不同，我们的数据集在不同的形状和物体的物理属性方面是多样name}{scale}（例如，质量1，摩擦4，速度2）。我们模拟了所有5× 5× 5= 125组物理组合。对于每组物理属性组合，有11种不同的对象组合和15种不同的初始旋转和恢复。因此总共有125× 15× 11 = 20625次碰撞。每个碰撞由5个样本帧表示，它们之间具有0.5s的时间间隔。我们数据集的多样性在图2中突出显示。例如，我们的数据集有圆锥体倾倒;被球击中时倒下的圆柱体和滚动的圆柱体。我们相信，这种巨大的多样性使其成为学习和解开物理性质最具挑战性的数据集之一。对于训练，我们使用124组物理组合，其中包含9种不同的对象组合（16740次碰撞）。其余数据用于两种类型的测试：（i）参数测试和（ii）形状测试。参数测试集包含135次碰撞，其具有不可见的物理参数组合（质量3、速度3、摩擦3），但具有可见的物体形状组合。形状测试设置为6Tian Ye，Xiaolong Wang，James Davidson，AbhinavGupta表1.数据集设置比例尺1秤2规模3秤4秤5质量100200300400500速度1000020000300004000050000摩擦0.010.020.030.040.05另一方面，包含3750个碰撞，具有2个看不见的形状组合，但看到的物理参数组合。我们展示了我们的物理模型的泛化能力在这两个测试条件。4可解释的物理模型我们的目标是开发一个基于物理的推理网络来解决预测任务，e. 例如，在一个实施例中，物理碰撞，同时具有有趣的中间表示。4.1可视化预测模型如图3所示，我们的模型将4个RGB视频帧作为输入，并学习预测碰撞后的未来第5个 RGB帧该模型由两部分组成：用于提取抽象物理表示的编码器和用于未来帧预测的解码器。物理表示的编码器。编码器被设计成捕获两个碰撞对象的运动，从中可以推断出物理属性。给定4个RGB帧作为输入，它们首先被转发到具有AlexNet架构和ImageNet预训练的ConvNet。我们提取每个视频帧的pool5特征，并将这些特征连接在一起作为输入序列的表示然后将该特征转发到两个卷积层和四个全连接层以获得物理表示。物理表示是306维向量，其包含质量（维度1至25）、速度（维度26至50）、摩擦（维度51至75）和其他内在信息（维度76至306）的解开的神经元，如图3所示。请注意，尽管矢量被分解，但每个神经元值没有明确的含义。未来预测的解码器。物理表示被转发到解码器用于未来帧预测。我们的解码器包含一个全连接层，然后是六个反卷积层。受[30，22]的启发，我们的解码器使用光流场作为输出表示，而不是直接输出RGB原始像素值。然后，光流被用于通过双线性采样层[30]对最后一个输入帧执行扭曲以生成未来帧。由于双线性采样层是可微的，因此可以用第5帧以端到端的方式训练网络以进行直接监督。使用光流作为输出有两个主要优点：（i）它可以迫使模型学习引起两帧之间变化的因素(ii)它允许模型聚焦于前景对象的变化。可解释的直观物理模型7k=1333136物理矢量308质量34096441024速度摩擦1024444流未来帧y内在双线性网格采样I5I4我1我2我3我4输入帧x图3. 模型架构：我们遵循编码器-解码器框架。编码器获取4个冲突帧（冲突前2个，冲突期间1个，冲突后1个）。所有输入首先通过预先训练的Alexnet。Alexnet特征沿着通道进一步附加，并被发送到两个卷积层和四个全连接层。所得到的物理矢量通过由一个全连接层和六个上采样卷积层组成的解码器以产生光流。卷积层和转置卷积层的数量代表相应层的内核大小。最后一个双线性网格采样层取光流和第4个输入帧以产生未来预测。4.2学习目标形式上，我们将编码器定义为函数f，将解码器定义为函数G. 给定图像序列x作为输入（4帧），我们的编码器将图像变换成物理上有意义的和解纠缠的表示z=f（x），然后解码器将该表示变换成未来帧y=g（z）。在z=（φm，φs，φf，φi）的情况下，可以将d_i角表示为m，而（·，·）d_i角不表示为m。第一部分（φm，φs，φf）定义不是对物理量（m，s，f分别代表质量、速度和摩擦力）进行编码的综合物理变量第二部分φi是内在变量，表示场景中的所有其他内在属性（例如，例如，在一个实施例中，颜色，形状和初始旋转）。在本文中，我们研究了在两个物体碰撞的情况下，不同的物理量的值的影响遵循[12]中的策略，我们将训练序列样本分组为小批次。在一个小批次内，所有样品和其他物理性质之间只有一个物理性质发生变化保持固定。我们记为Bp={（xk，yk）}5作为具有5个序列的一个小批量，其中唯一变化的属性是P（即，我们用p作为变量来表示质量、速度或摩擦）。对于训练期间的每个小批量Bp，我们仅鼓励与属性p对应的维度在z中改变。例如，当用一个只有质量变化的小批量训练时，我们强制网络在φm的维度上具有不同的值，而在z的其余维度上具有相同的值。为了简单起见，我们进一步将z中与p相关的维度表示为φp和尺寸信息的剩余部分作为φp进行检查。K K8Tian Ye，Xiaolong Wang，James Davidson，AbhinavGuptak=1K=K K5中文（简体）我们用这个约束来训练我们的预测模型假设我们在训练其中一个批次Bp={（xk，yk）}5.在最大似然估计（MLE）在框架中，这可以被公式化为最大化对数概率。期望的约束：最大Σ5k=1log（P（yk|x k））（一）受φ¯p=φ¯p，1≤i，j≤5I j如果从存储设备xk中提取的数据类型是可变的，则可以使用和推断的物理变量，除了变化的参数。在我们的自动编码器架构中，目标函数等效于通过预编码的图像yk和粗编码来最小化1维未来图像yk：Lmle= Σ||yk−yk||1 .一、（二）K在Eq中的C_on_tr_ts。1可以通过减少损耗来实现而在chφ¯p1Σφ¯p处的mwitini-b中的m的计算为，Σ平均值=||二、||2.K我们在用常数λ在它们之间保持平衡，L = L mle+ λL ave.（四）在实践中，我们动态地设置λ，以便两个梯度保持在相同的幅度。λ的值约为1e− 6。4.3交错训练虽然我们遵循[12]中提出的训练目标，但实际上直接用该目标进行优化我们的问题与[12]中的设置之间存在根本差异：物理动力学依赖于属性集，这使训练变得混乱。相同的输入和输出地面实况序列可以推断物理性质的不同组合例如，大的摩擦力和慢的速度都可能导致第二对象在碰撞之后的小的移动。因此，需要对训练方法进行修改以处理该多模态问题。我们提出了一个交错训练算法来缓解这个问题。我们首先将整个训练集D分成3个不同的集合{DP}，其中P指示物理属性（质量、速度或摩擦力）之一。每个Dp包含不同的小批量的Bp，其中唯一变化的属性由p表示。我们的想法是：在一开始，我们不是同时训练所有的物理属性，而是进行课程学习。我们首先训练网络，K可解释的直观物理模型9一个子集Dp，然后逐渐将具有不同属性的更多子集通过这种方式，我们的训练集随着时间的推移变得越来越大。通过以这种顺序方式学习物理属性，我们迫使网络逐个识别新的物理属性，同时保持学习的在实践中，我们观察到在第一次训练中，网络表现正常。对于接下来的训练课程，损失将在开始时增加，并将减少到与前一个课程大致相同的水平5实验我们现在证明了我们的模型的有效性和推广。我们将针对数据集中的两个不同测试集执行两组实验。一个测试看不见的物理属性组合，但看到的形状组合，和其他测试看不见的形状组合与看到的物理属性。在进一步分析之前，我们将首先描述我们的模型和基线方法的实现细节。我们总共训练了319个epoch。我们使用ADAM进行优化，初始学习率为10−6。在训练期间，上述每个在针对第一物理量的训练期间，每个批次包含3个小批次，这意味着总共15个数据。对于第二轮交错训练，每个批次包含2个小批次，每个物理量一个;类似的，在第三轮训练中，每个批包含3个小批，每个物理量一个。基线模型我们的基线模型以端到端的方式学习直观的物理学，并事后获得对应于不同物理属性的维度我们需要分解表示，因为我们想要在物理属性与输入视频不同时测试泛化：e. 例如，在一个实施例中，如果摩擦力加倍会发生什么如果速度是1/10会发生什么对于基线，我们使用相同的网络架构。与我们的方法不同，我们不添加任何约束的瓶颈表示层，如在方程。1在基准模型中。然而，我们仍然希望从该基线获得解纠缠表示以用于比较。回想一下，对于每个属性p（质量、摩擦力或速度），我们都有一个子集DpDp内的每个小批中的示例指定属性p的改变。我们计算每个Dp的瓶颈表示中每个神经元的方差，并选择方差最大的25个维度作为指示属性p的向量。5.1视觉预测看不见的参数：首先，我们评估当我们看到物理参数的新组合具体来说，我们的模型在训练中从未见过质量=3，摩擦=3和速度=3的组合图4显示了我们的可解释模型很好地泛化并产生高质量的预测。看不见的形状组合：接下来，我们想探索我们的视觉预测模型是否使用两个看不见的集合来推广到不同的形状组合：10Tian Ye，Xiaolong Wang，James Davidson，AbhinavGuptaf4预测f5Groundtruth f5f4预测f5Groundtruthf5图4.未知参数但可见形状的预测结果和长方体;（b）长方体和球体。为了证明我们的模型理解这些物理特性中的每一个，我们展示了两个不同值的对比预测结果。例如，我们将使用不同的摩擦值（1， 5），但质量和速度相同。比较这两个输出应该突出我们的方法如何理解潜在的摩擦值。如图所示5、与地面实况相比，我们预测的未来帧具有高质量我们证明了我们的模型可以将物理推理推广例如，在第二种情况下，当球体的质量很高（5）时，我们的方法可以预测它不会移动，而是立方体会反弹。我们还将我们的方法与基线进行了定量比较：我们的方法的像素误差为87.3，而基线的像素误差为95.6。结果清楚地表明，当测试条件非常不同时，我们的可解释模型倾向于比端到端模型更好地推广。除了基线，我们还比较了我们的模型与其他两种基于光流的方法。首先，我们使用第4帧和第5帧之间计算的光流作为直接监督来训练另一个预测网络，而不是使用第5帧的像素。为了测试，我们在第4帧上应用预测的光流以生成未来帧。未来帧与地面实况第5帧之间的损失为118.8。其次，我们计算了前4帧的3个光流，使用其找到线性模型以生成未来光流。我们将该光流应用于第4帧，并将结果与地面真实的第5帧进行比较。误差达到292.5。实验结果表明，该方法比直接使用光流法具有更高的精度。5.2物理插值为了显示我们的模型实际上已经学习了物理特性，我们对瓶颈表示进行了一系列在小批量内插物理表示。我们首先表明，学习的瓶颈层是有意义的和顺利的。为了证明这一点，我们在不同的物理性质之间进行插值，并将我们的结果与图进行比较。以下内容将对本实验进行详细说明。Let可解释的直观物理模型115555f1 f2 f3 f4预测f5 Groundtruthf5图5. 4个输入帧、预测的第5帧和具有看不见的形状组合的碰撞的地面实况。对比物理性质变化的预测例如，为了展示我们的方法理解这些形状，我们在第一种情况下预测两个第二种情况下的较少运动表明我们的方法理解摩擦的概念以质量为例：给定一个只有质量变化的小批量，我们使用编码器从a和d处的质量s 1 d中获得physicsvect或z1=（φm，φs，φf，φi）。1 1 1 1z5=（φm，φs，φf，φi）frommass5data. 为了使物理服务器为用户提供更好的服务，w e int e rpolat e a new massvariable e φm=（1 −0. 25i）·φm+0。25i·φm和usei1 5这是一个新的physic向量或zi=（φm，φs，φf，φi）。我们作为新的载体我1 1 1到解码器以预测光流，光流被扭曲到图1中的第4个图像。序列i，并且生成未来帧。我们对基线模型进行了相同的实验定量地，我们使用每个像素的均方误差的总和来评估预测，如表2所示，这表明我们的方法明显优于基线。我们还将结果可视化在图6中。有趣的是，我们的插值结果也非常接近地面实况。另一方面，基线模型很容易失败时，有一个戏剧性的变化，在插值。我们还训练了另一个模型，该模型将前4帧的物理参数和光流作为输入，并预测未来帧。该模型执行相同质量，摩擦速度=5速度=1相同的摩擦力，速相同质量，速度摩擦=5摩擦=1质量=5质量=112Tian Ye，Xiaolong Wang，James Davidson，AbhinavGupta地面实况质量= 1质量= 2质量= 3质量= 4基线质量= 4地面实况质量=5速度= 2速度= 3速度= 4基线速度= 4Groundtruth速度= 1地面实况速度= 5Groundtruth摩擦= 1摩擦= 2摩擦= 3摩擦= 4基线摩擦= 4Groundtruth摩擦= 5图6. 不同物理量值的插值结果。我们的插值结果用蓝色框显示。最后一列中带有红色框的图像表示当物理量等于4时基线的插值结果表2. 插值结果。这些数字是像素预测误差方法形状2 形状3形状4 形状5参数3基线117.76130.41154.78173.80299.88流+物理272.02317.79328.06336.54671.51我们110.93 119.73 131.70 138.04154.09比我们的模型在插值测试中差得多，如图6所示。我们相信基于地面实况物理参数的方法专注于分类，而不是学习直观的物理模型。在插值实验中，该模型不能将光流特征与物理信息分离。从这些比较中，我们可以看到，只有通过学习可解释的表示，我们才能产生合理的预测结果后插值。改变物理性质。在这个实验中，我们表明，通过我们的模型学习的物理变量是可解释的，通过找到同一物理属性的不同尺度具体来说，我们想看到：我们能不能地面实况插值地面实况插值地面实况插值可解释的直观物理模型133摩擦= 2摩擦= 3质量= 2质量= 3速度= 2速度= 3摩擦= 3质量= 3速度= 3图7. 通过学习不同物理实体的双、三重比率关系进行预测。顶部：具有不可见形状的结果。底部：具有未知参数的结果。表3.比率结果。当基础物理参数因某个因素而改变时，比较视觉预测方法形状比2（↓）形状比3（↓）参数比率3（↓）基线345.60310.37490.92我们110.79124.00157.10在其他物理条件保持不变的情况下，预测质量加倍的未来？对于每个物理量p，我们训练两个网络Fp和Fp，它们2 3学习将物理性质的规模扩大两倍或三倍。比如我们可以利用网络Fp将质量1的物理表示投影到质量3。Fp和Fp的网络架构都是简单的2层全连接2 3每层有256个隐藏神经元。这两个网络可以训练使用由我们的编码器利用训练数据推断的物理表示在测试阶段，我们采用了与上一个实验类似的插值方法。唯一的区别是，我们使用完全连接的网络来生成新的表示，而不是使用两个相关表示之间的插值我们再次通过计算像素的均方误差来评估定量结果如表3所示，与基线相比，我们在此设置中获得了更大的图7示出了当物理性质从尺度1放大到2和3时，我们的模型的预测结果，它们都非常接近地面实况。这是另一个证据，表明我们的物理表示是可解释的，并且概括得更好。在对象形状之间切换。在上面的实验中，我们对物理表示进行插值，并将它们应用于相同的对象形状组合。在这个实验中，对于一个物理性质p，我们把一次碰撞的相应变量φp替换为来自另一次与不同物体碰撞的变量不可见参数地面实况预测Unseen Shape地面实况预测14Tian Ye，Xiaolong Wang，James Davidson，AbhinavGupta摩擦= 1摩擦= 2摩擦= 3摩擦= 4摩擦= 5图8. 当来自一个形状组合的物理属性向量被应用于不同的形状组合时的预测。第一行显示切换结果;第二行示出了没有切换的预测;第三行示出了地面实况。但P值相同。我们将结果可视化在图8中，其中第一个线示出了当我们用来自另一形状组合的一个替换当前φp时的预测。结果与原始预测和地面实况几乎相同，这意味着相同值的物理变量可以在不同的形状组合之间传递。同时也说明了物理学的维度与其他维度是独立的，并且可以很容易地附加。6结论我们展示了一个可解释的直观的物理模型，概括了不同的底层属性和对象形状的场景最重要的是，我们的模型能够预测物理环境变化的未来。为了实现这一目标，我们提出了一个模型，其中瓶颈层中的特定尺寸对应于不同的然而，物理特性往往是相互依赖和相互交织的，因此我们引入了一个训练课程和广义损失函数，其表现优于基线方法。鸣谢：研究由陆军研究办公室赞助，并在拨款号W 911 NF-18-1-0019下完成。本文件中包含的观点和结论是作者的观点和结论，不应被解释为代表陆军研究办公室或美国陆军研究所的官方政策，无论是明示的还是暗示的。政府的美国政府有权为政府目的复制和分发重印本，尽管此处有任何版权标记。我们要感谢Yin Li和Siyuan Qi进行了有益的讨论。Groudtruth原始输出切换结果可解释的直观物理模型15引用1. 阿格拉瓦尔，P.，Nair，A.，Abbeel，P.，Malik，J. Levine，S.：学习戳戳：直观物理学的经验学习在：神经信息处理系统（NIPS）（2016）32. Battaglia，P.帕斯卡努河赖先生，Rezende，D.J.，等：交互网络，用于学习物体，关系和物理。在：神经信息处理系统（NIPS）（2016）23. Battaglia，P.帕斯卡努河赖先生，Rezende，D.J.，等：交互网络，用于学习物体，关系和物理。在：神经信息处理系统（NIPS）（2016）44. Chang，M.B.，Ullman，T.，Torralba，A.，Tenenbaum，J.B.：一种基于组合国际学习表征会议（ International Conference on LearningRepresentations，ICLR）（2017）5. 埃德蒙兹，M.，高氏，Xie，X.，刘洪，Qi，S.，Zhu，Y.，Rothrock，B.Zhu，S.C.：感受力量：通过模仿学习打开药瓶，整合力量和姿势，流畅地发现智能机器人和系统（IROS）（2017）6. Finn，C.，古德费洛岛Levine，S.：通过视频预测进行物理交互的无监督学习。在：神经信息处理系统（NIPS）（2016）37. Fragkiadaki，K.，阿格拉瓦尔，P.，Levine，S.，Malik，J.：学习物理学的视觉预测模型打台球。国际学习表征会议（International Conferenceon8. Grzeszczuk河Terzopoulos，D.，Hinton，G.：神经动画师：基于物理模型的快速神经网络仿真和控制。 In ： Proceedings of the 25th annualconnferenceonComputergraphicsandintreractivetechniquues. pp.九比二十 ACM（1998）39. Hamrick，J.，Battaglia，P. Tenenbaum，J.B.：内部物理模型指导关于物体动力学的概率判断。在：第33届认知科学学会年会论文集（2011）210. Hamrick，J.B.，Battaglia，P.W. Griffiths，T.L. Tenenbaum，J.B.：通过心理模拟推断复杂场景中的质量。认知（2016）211. Kitani，K.M.，Ziebart，B.D.，Bagnell，J.A.，Hebert，M.：活动预测。在：欧洲计算机视觉会议（ECCV）（2012）412. Kulkarni，T. D.，Whitney，W.F.，Kohli，P.，Tenenbaum，J.：深度卷积逆图形网络。在：神经信息处理系统（NIPS）（2015）4，7，813. Lerer，A.，格罗斯，S.，Fergus，R.：通过实例学习积木塔的物理直观。在：国际机器学习会议（ICML）（2016）2，314. 李伟，Azimi，S.，Leonardis，A.，Fritz，M.：跌倒或不跌倒：物理稳定性预测的可视化方法。arXiv：1604.00066（2016）315. Mathieu，M.，库普利角LeCun，Y.：超越均方误差的深度多尺度视频预测。国际学习表征会议（ICLR）（2016）3，416. Mottaghi河Bagherinezhad，H.，Rastegari，M.，、Farhadi，A.：Newtonianscene understanding：Unfolding the dynamics of objects in static image.计算机视觉与模式识别（CVPR）（2016）17. Mottaghi河Rastegari，M.，Gupta，A.，Farhadi，A.：如果...学习预测力对图像的影响。在：欧洲计算机视觉会议（ECCV）（2016）2，316Tian Ye，Xiaolong Wang，James Davidson，AbhinavGupta18. 平托湖Gandhi，D.Han，Y.，Park，Y.L.，，Gupta，A.：好奇的机器人：通过物理交互学习视觉表示。在：欧洲计算机视觉会议（ECCV）（2016）319. Qi，S.，Jia，B.，Zhu，S.C.：广义Earley解析器：桥接符号文法和序列数据以进行未来预测。在：国际机器学习会议（ICML）（2018）420. Srivastava，N.，Mansimov，E.，Salakhutdinov，R.：使用lstms的视频表示的无监督学习在：国际机器学习会议（ICML）（2015）421. 冯德里克角Pirsiavash，H.，Torralba，A.：生成具有场景动态的视频。在：神经信息处理系统（NIPS）（2016）322. Walker，J.，Doersch，C. Gupta，A.，Hebert，M.：不确定的未来：从变分自动编码器预测。在：欧洲计算机视觉会议（ECCV）（2016）3，4，623. Watters，N.Tacchetti，A.Weber，T.，帕斯卡努河Battaglia，P.Zoran，D.：视觉交互网络。在：神经信息处理系统（NIPS）（2017）424. 吴，J.，Lim，J.J.，张洪，Tenenbaum，J.B.，弗里曼，W.T.：第一百零一章：从未标记的视频中学习物理对象属性。在：BMVC（2016）325. 吴，J.，Lu，E.，Kohli，P.，弗里曼，W. T.，Tenenbaum，J.B.：学习通过视觉去动画来观察物理。在：神经信息处理系统（NIPS）（2017）2，426. 吴，J.，耶尔德勒姆岛Lim，J.J.，弗里曼，W. T.，Tenenbaum，J.B.：Galileo：通过将物理引擎与深度学习集成来感知物理对象属性。在：神经信息处理系统（NIPS）（2015）327. Xue，T.，吴，J.，Bouman，K.L.，弗里曼，W.T.：视觉动态：通过交叉卷积网络的概率未来帧合成。在：神经信息处理系统（NIPS）（2016）428. 张，R.吴，J.，张，C.，弗里曼，W. T.，Tenenbaum，J.B.：近似概率模拟和深度神经网络作为人类物理场景理解的比较评估。在：第38届认知科学学会年会论文集（2016）329. 郑，B.，赵玉，余，J.，Ikeuchi，K.，Zhu，S.C.：场景理解推理稳定安全。International Journal of Computer Vision（IJCV）（2015）30. 周，T.，Tulsiani，S.，孙，W.，Malik，J.Efros，A.A.：按外观流查看合成在：欧洲计算机视觉会议（ECCV）（2016）4，631. Zhu，Y.，江，C.赵玉，Terzopoulos，D.，Zhu，S.C.：从视频中推断力和学习人类效用。计算机视觉与模式识别（CVPR）（2016）

下载后可阅读完整内容，剩余1页未读，立即下载