没有合适的资源?快使用搜索试试~ 我知道了~
物理基元分解刘志坚1,William T. Freeman12 Joshua B.Tenenbaum1和Jiajun Wu11麻省理工2谷歌研究抽象。对象是由部件组成的,每个部件都有不同的几何形状、物理特性、功能和启示。开发这样一个分布式的,物理的,可解释的对象表示将有助于智能代理更好地探索和与世界互动。在本文中,我们研究物理图元分解-理解一个对象,通过其组件,每个物理和几何属性。由于物体部件和物理学的注释数据很少,我们提出了一种新的形式,通过对物体的外观及其在物理事件中的行为的分析,来描述物体的物理学特性我们的模型在合成场景和真实场景中的积木塔和工具上表现良好;我们还证明了视觉和物理观察经常提供补充信号。我们进一步提出了消融和行为研究,以更好地理解我们的模型,并将其与人类的表现进行对比。1介绍人类使用锤子的方式是握着锤子的柄并击打锤子的头部,而不是用虎钳亦然在这个简单的动作中,人们展示了他们对功能部件的理解[33,39]:工具或任何对象都可以分解为基于原始的组件,每个组件都具有不同的物理,功能和启示[17]。如何建造一台具有这种能力的机器?在本文中,我们解决的问题,物理图元分解(PPD)-解释的形状和物理的一个对象与一些形状图元的物理参数。给定图1中的锤子,我们的目标是构建一个恢复其两个主要组件的模型:一个高大的木质圆柱体作为它的把手,一个较小的金属圆柱体作为它的头部。对于这项任务,我们需要一个物理的,基于部件的对象形状表示,模型对象的几何形状和物理。然而,这种表示的地面实况注释很难获得:像ShapeNet [8]这样的大规模形状存储库通常对对象部分的注释有限,更不用说物理了。这主要是由于两个原因。首先,注释对象部件和物理是劳动密集型的,需要强大的领域专业知识,这两者都不能由当前的众包平台提供。其次,在地面实况中存在固有的模糊性:不可能仅从图像或视频精确地标记底层物理这是一个更大的问题,因为它是为一个更大的问题而准备的。 我们使用我们的对象表示来忠实地编码其几何形状;因此,它应该能够对对象的应用的真实对象进行扩展。因为,2作者:William T.作者声明:Joshua B.特南鲍姆和吴嘉俊铁木材Fig. 1.锤子(左)及其物理基元分解(右)。该表示模型的对象物理,它应该是有效的,在解释对象的行为或在不同的物理空间的evens。受此启发,我们提出了一种新的配方,学习基于部分的对象表示从视觉观察和物理交互。该模型从单个图像和体素化形状开始,恢复几何图元并从纹理推断其物理属性。当然,以这种方式推断出的物理表示是相当不确定的;因此,它只能作为模型的物理表示。 由于具有不同物理属性的对象在物理事件中的行为不同,因此在物理事件中对对象的引用提供了重要的附加信息。这是由模型与先验结合使用,以产生其最终预测。我们评估我们的系统在三种情况下的物理原始分解首先,我们生成一个合成块塔的数据集,其中每个块都具有不同的几何形状和物理特性。我们的模型是能够成功地重建的物理基元,利用外观和运动线索。其次,我们评估系统的一组合成工具,展示其适用性日常生活的形状。第三,我们建立了一个新的数据集的真实块塔在动态的场景,并评估了模型的一般性的i on pow er r e r e al i d eos。我们进一步介绍消融研究,以了解每个信息源如何对最终性能做出贡献。我们还与人类一起进行人类行为实验,以了解模型的性能。在这个充满挑战的时代,我们的现代化产品满足了人类的需求。我们在本文中的贡献是三方面的。首先,我们提出了物理原语分解的问题,学习一个紧凑的,解开对象表示的物理原语。第二,我们提出了一种新的学习范式,学习物理原语的形状特征,以解释他们的几何和物理。第三,我们证明了我们的系统可以实现良好的性能,合成和真实的数据。2相关工作基于图元的3D表示..使用图元建模3D形状的早期尝试包括将其分解为块[34],广义圆柱体[6]和geons [5]。在计算机视觉的整个发展过程中,这个想法不断被重新审视[11,13,2]。仅举几例,Guptaet al.[11]建模场景定性块,和范登亨格尔等。[13]乐高积木一样。最近,Tulsainiet al.[40]新旧结合物理基元分解3几何=目的几何+=目的物理(a) 原始分解(b)物理原始分解图二.基元分解(a)和物理基元分解(b)。这两个任务都试图将一个对象转换成一组图元,但具有不同的目的:前者的问题目标在形状重建,而后者的目的是恢复几何和物理属性。深度卷积网络,以生成给定3D形状的图元;后来,Zou et al. 提出了3D-PRNN [53],通过利用递归生成模型的现代进步来增强系统的灵活性[41]。基于基元的表示具有深远的影响,远远超出了计算机视觉领域。科学家们已经将这种表示用于用户交互设计[16]和教机器人抓取物体[29]。在计算机图形学领域,将形状建模为图元或部件的想法也得到了广泛的探索[50,47,27,19,21,2]。研究人员已经将基于部分的表示用于单图像形状重建[15],形状完成[37]和概率形状合成[14,25]。物理形状和场景建模。除了对象几何之外,对物理对象属性和场景动态建模的兴趣也越来越大计算机视觉社区已经投入了大量的精力来构建丰富而庞大的数据库。ShapeNet-Sem [36]是网络规模形状存储库ShapeNet [8]中具有材料和物理注释的对象形状的集合背景材料数据库(MINC)[4]是一个巨大的野外材料数据集,将真实世界图像中的补丁与23种材料相关联。Rearc h onphysicalo becto d e led eta 在过去的几年里,学习物理和计算机的领域蓬勃发展[23,1,18,3,48,30,32,7,38,20,26]。其中,有几篇论文明确构建了物理对象表示[30,43,45,44,49]。虽然他们也专注于理解物体物理学[43,45],功能[51,46]和启示[22,10,52],这些方法通常假设具有简单几何形状的同质对象。在我们的论文中,我们模型的对象使用物理原语更丰富的表现力和更高的精度。3物理基元分解3.1问题陈述基元分解和物理基元分解都试图用基元来近似对象我们在图2中强调了它们的差异原始分解。如Tulsainiet al. [40]和Zouetal. [53],基元分解旨在将对象0分解成一组简单的变换基元x={xk},使得这些基元可以准确地4作者:William T.作者声明:Joshua B.特南鲍姆和吴嘉俊K(a) 上图:铝和木材;下一篇:铁与木(b) 上:木和铁;下一篇:两个铜图3.第三章。从视觉和物理观察推断物理参数的挑战:具有不同物理参数的对象可能具有(a)相似的视觉外观或(b)相似的物理轨迹。近似其几何形状。这项任务可以看作是最小化. .LG(x)=DSS ∪xkKΣ Σ、S(O)、(1)当S(·)不具有几何意义时(即,e. pointclooud),并且DS(·,·)确 定 了 不 存 在 与 hapes ( 即 , e.EARTH-MOVER' S DIST ANCE[ 35 ])。物理原始分解。为了理解对象部分的功能,我们要求分解的原语x={xk}也近似对象O的物理行为。为此,我们用一个额外的物理项扩展了前面的LP(x)= Σp∈P..DT Tp ∪xkKΣ Σ,Tp(O),(2)当Tp(·)不确定轨迹p之后的轨迹时,DT(·,·)不确定轨迹之间的距离度量(即,均方误差),并且P表示预定义的一组物理相互作用。因此,物理基元分解的任务是最小化约束几何和物理的总体目标函数:L(x)=LG(x)+w·LP(x),其中w是加权因子。3.2基于图元的表示我们设计了一个结构化的基于原语的对象表示,它描述了一个对象,列出所有的原语与不同的属性。对于每个基元xk,我们记录其大小xS=(sx,sy,sz),在3D空间中的位置xT=(px,py,pz),kRk四元数形式的旋转 =(qw,qx,qy,qz)。除了这些几何形状信息,我们还跟踪其物理属性:密度×D。SK在我们的对象表示中,形状参数x,xT和xR是向量k k k的连续实值,而密度参数xD是离散值。我们将密度值离散成ND= 100个槽,使得估计密度变成ND-路分类。离散化有助于处理多模态密度值。图3a示出了具有相似视觉外观的两个部件可能具有非常不同的物理参数。在这种情况下,具有L2损失的回归将鼓励模型预测可能密度的平均值;相反,离散化允许它为每个可能密度提供高概率然后,我们从轨迹中找出哪个候选值是最佳的。物理基元分解5CNNCNNRNN体素体素编码器基元产生器RNNRNN…RNN结束令牌图像图像编码器采样物理参数样品1样品2样品N…轨迹轨迹编码器通过物理引擎进行模拟…轨迹之间的差异4方法见图4。我们的PPD模型概述。在本节中,我们讨论我们的方法来解决物理基元分解(PPD)的问题。我们在图4中展示了我们的框架的概述。4.1概述仅从视觉或物理观察推断物理参数是非常具有挑战性的。这是因为具有不同物理参数的两个对象可能具有相似的视觉外观(图3a)或具有相似的物理轨迹(图3b)。因此,我们的模型将两种类型的观测值作为输入:1. 目视观察。我们采用体素化形状和图像作为输入,因为它们可以为我们提供有价值的视觉信息。体素帮助我们恢复物体的几何形状,图像包含物体材质的纹理信息。请注意,即使使用体素作为输入,推断几何参数仍然是非常重要的:模型需要学习分割对象内的3D部分-这本身是一个未解决的问题[40]。2. 物理观察为了解释一个物体的物理行为,我们还需要观察它在一些物理相互作用后的反应在这项工作中,我们选择使用3D对象轨迹,而不是RGB(或RGB-D)视频。 它的抽象性使模型能够更好地从合成数据转换到真实数据,因为合成视频和真实视频可能完全不同;在这种情况下,这就像是3D视频中的一般数据一样,也就是说,它是一个很好的真实数据。具体地,我们的网络将体素V、图像I和NT 个对象轨迹T={Tk}作为输入。V是3D二进制体素化网格,I是单个RGB图像,T由若干对象轨迹Tk组成,每个轨迹记录对一个特定物理交互的响应。轨迹Tk是3D对象姿态的序列6作者:William T.作者声明:Joshua B.特南鲍姆和吴嘉俊KKKKK(Px,py,pz,qw,qx,qy,qz),其中(Px,py,pz)表示物体的中心位置,而四元数(qw,qx,qy,qz)表示其在每个时间步长的旋转。在接收到输入后,我们的网络使用单独的编码器对体素、图像和轨迹进行编码,并使用递归基元生成器依次预测基元。对于每个基元,网络预测其几何形状(即比例、平移和旋转)和物理性质(即,密度)。我们的模型的更多细节可以在补充材料中找到。体素编码器。对于输入体素V,我们采用3D体积卷积网络将3D形状信息编码为体素特征fV。图像编码器。 对于输入图像I,我们将其传递到ResNet-18 [12]编码器以获得图像特征fI。 我们建议读者参考He et al. [12]详情。轨迹编码器对于输入轨迹T,我们用一个单独的双向递归神经网络将每个轨迹Tk编码成一个低维特征向量hk。具体地,我们将轨迹序列Tk以及相反顺序的相同轨迹序列Treverse馈送到两个编码RNN中,以得到两个最终隐藏状态:h→= encode→(Tk)和h←= encode←(Treverse)。kkkkk我们取[h→;h←]作为特征向量hk。最后,我们将这些特征K K对于每个轨迹,{h,k|k = 1,2,. . . ,NT},并将其投影到低维具有全连接层的轨迹特征fT原始生成器。我们将体素特征fV、图像特征fI和轨迹特征fT连接在一起作为f =[fV; fI; fT],并使用全连接层将其映射到低维特征f。我们预测的一组物理原语{xk}顺序的递归生成器。在每个时间步k,我们将之前生成的基元xk−1和特征向量fin作为输入,并接收一个隐藏向量hk作为输出。然后,我们计算新的本原xk=(xD,xS,xT,xR)为k k k kxD= softmax(WD×h +bD),xS= sigmoid(WS×h +bS)×CS,T RWR×hk+bR(三)xk= tanh(WT×hk+bT)×CT,xk=max(WR×h、+bR2,)其中,CS和CT是比例因子,并且对于数值稳定性等式3保证xS在[0,CS]的范围内,xT在[0,C S ]的范围内。RK K在[−CT,CT]的范围内,并且xk2为1(如果忽略),这确保了xk将始终是有效的原语。在我们的实验中,我们设置CS= CT= 0。5,因为我们规范化所有对象,以便它们可以适合单位立方体。还应注意,xD是(NND+2)维向量,其中前NND个维度指示不同的维度值,并且两个维度指示“start_tok_en”和“end_tok_en”。使用物理引擎进行采样和模拟。在测试期间,我们将预测的xD视为多项分布,并从中抽取多个可能的预测对于每个样本,我们使用其物理参数来模拟物理引擎的轨迹最后,我们选择一个模拟轨迹最接近的观察轨迹。结合物理引擎的另一种方法是直接优化我们的模型。由于大多数物理引擎是不可微的,我们采用REIN- FORCE [42]进行优化。根据经验,我们观察到这种强化KKK物理基元分解7基于学习的方法比基于采样的方法执行得更差,这可能是由于近似梯度信号的大方差。使用物理引擎进行模拟需要我们知道测试期间的力这样的假设对于确保问题是适定的是必不可少的:在不知道力的情况下,我们只能推断相对部分密度,而不是实际值。请注意,在许多现实世界的应用中,如机器人操作,外力确实是可用的。4.2损失函数Le tx=(x1,x2,. . . ,xn)和x=(x1,x2,. . . ,x(m)分别是预表示的和真实的物理基元。我们的损失函数由两项组成geometryl ossΣLGanddpysi csl ossLD:.SS TRR ΣLG(x,x)=KωS·xk−xk1+ωT·xk−xk1+ωR·xk−xk1、 (四)Σ ΣD DLP(x,x)=−xk(i)·logxk(i),(5)K i当ωS、ωT和ωR是一个常数时,在我们的数据集中,每个1的becausexxS、xT和xR的大小相同(10−1)。 对等式4和等式5中的Equ进行积分,将上一个函数定义为L(x,x())=LG(x,x())+w·LP(x,x()),其中w被设置为确保LG和LP具有相同的幅度。部件关联。在我们的公式中,对象部分(物理基元)遵循预定义的顺序(例如从下到上),并且我们的模型被鼓励学习以相同的顺序预测基元。5实验我们在三种不同的环境中评估我们的PPD模型:合成块塔,其中块具有各种材料和形状;具有更复杂几何形状的合成工具;和真实的视频块塔,以证明我们的可移植性,以现实世界的情况。5.1分解积木塔我们从分解积木塔(积木堆)开始积木塔。 我们通过将可变数量的块(在我们的实验中为2-5个)堆叠在一起来构建块塔。我们首先对每个块的大小进行采样,然后从下到上计算块的中心位置。对于第k个块,我们将其大小表示为(wk,hk,dk),其中心(xk,yk,zk)通过xkN(xk−1,wk−1/4),ykN(yk−1,hk−1/4)和zk=zk−1+(dk−1+dk)/2进行采样和计算,其中N(µ,σ)是均值为µ、标准差为σ的正态分布。我们在图5中示出了一些构造的块塔。我们使用32×32×32的网格大小通过binvox(一种3D网格体素化器)执行精确的体素化[31]。材料.在我们的实验中,我们使用了五种不同的材料,并遵循其真实世界的密度进行微小的修改。材料及其密度范围列于表1中。对于积木塔中的每个积木,我们首先将其分配给五种材料中的一种,然后从其材料的可能值中均匀地采样其密度我们为每个块塔生成8个配置8作者:William T.作者声明:Joshua B.特南鲍姆和吴嘉俊样品块塔(a)输入(b)纹理(c)物理(d)两者(e)答案更低密度更高密度图五、我们的block towers数据集中的样本对象(左)和我们的模型的定性结果,其中不同的观察组合作为输入(右)。材料木材砖石陶瓷金属密度[1、10][11、20][21、30][31,60][21,35]∪[71,100]表1.材质及其实际密度值(单位:×102·kg/m3)。由类似材料(不同类型的金属)制成的物体可能具有不同的物理特性,而不同的材料(即,石头和金属)可以具有相同的物理性质。纹理。我们通过从MINC数据集[4]中裁剪图像的中心部分来获得材料的纹理我们在图5中展示了使用材质纹理渲染的示例图像由于我们只渲染材质的纹理,因此渲染的图像不提供任何有关密度的信息物理互动我们把块塔在原点和执行四个物理相互作用,以获得对象的轨迹( NT= 4)。详细地说,我们从四个预定义的 位 置{(±1,−1,±1)}在块塔上施加大小为10 5的力。 我们使用BulletPhysics Engine [9]模拟了256个时间步长的每个物理交互。为了保证模拟精度,我们将模拟的时间步长设置为1/ 300 s。指标.我们通过预测和地面实况之间的F1得分来评估形状重建的性能:如果预测中的每个图元与地面实况图元的交集(IoU)大于0.5,则将其标记为真阳性对于物理估计,我们采用两种类型的度量,i)密度度量:前k精度(k∈ {1, 5, 10})和均方根误差(RMSE),以及ii)轨迹测量:模拟轨迹(使用预测的物理参数)和地面实况轨迹之间的平均绝对误差(MAE)方法.我们使用不同的观测组合作为输入来评估我们的模型:i)仅纹理(即,无轨迹,通过设置fT=0),ii)仅物理(即,没有图像,通过设置fI=0),iii)纹理和物理两者,但没有体素化形状,iv)纹理和物理两者,但用原始深度视频替换3D我们还将我们的模型与几个基线进行了比较:i)预测训练集中的最频繁密度(频繁),ii)从训练集中检索最近邻(最近),以及iii)知道地面实况材料,以及物理基元分解9观测密度轨迹方法纹理物理前1阿库拉克前5y前10RMSEMae频繁––2.09.713.425.474.4最近–+1.97.912.441.191.0Oracle+–6.935.772.018.551.3PPD(无轨迹)+–7.235.269.519.051.7PPD(无图像)–+7.131.050.816.736.4PPD(无体素)++15.956.382.410.329.9PPD(RGB-D)++11.650.579.512.830.2PPD(完整)++16.156.482.59.921.0PPD(完整)+样品++18.259.784.08.813.9表2.方块塔物理参数估算的定量结果。将外观与物理相结合确实有助于我们的模型实现对物理参数的更好估计,并且我们的模型的性能明显优于所有其他基线。在其密度值范围内猜测(Oracle)。虽然所有这些基线都假设完美的形状重建,但我们的模型学会了分解形状。结果对于形状重建,我们的模型在F1得分方面达到97.5。对于物理估计,我们在表2中呈现了我们的模型的定量结果,其中不同的观测值作为输入。我们比较了我们的模型与神谕,推断材料属性的外观,同时假设地面真相重建。 它给出了仅依赖于外观线索的方法的上限性能。实验表明,单独的外观是不够的密度估计。从表2中,我们观察到,将外观与物理学相结合在物理参数估计上表现良好,这是因为对象轨迹可以提供关于密度分布的关键附加信息(即:惯性矩)。此外,所有输入模态和采样控制都取决于该模态的最终性能。我们有还实施1×8×64×512×基于物理基线:对每个primitive的形状和物理参数进行样品物理+形状142.2 87.170.8五十八点七样品物理89.760.138.7二十二点七PPD(我们的)21.0 15.1 13.9 13.2表3.我们的模型和基于物理引擎的采样基线观察.我们还比较了一个更强的基线,在那里我们只采样物理,假设地面真实形状是已知的。 表3显示了我们的模型工作得更好,效率更高:神经网络已经学习了信息先验,其极大地减少了在测试时采样的需要。5.2分解工具然后,我们通过分解合成现实世界的工具来证明我们的模型的实际适用性。10作者:William T.作者声明:Joshua B.特南鲍姆和吴嘉俊观测密度轨迹方法纹理物理前1阿库拉克前5y前10RMSEMae频繁––2.510.213.625.9348.2最近–+2.98.312.425.8329.7Oracle+–7.435.272.019.1185.8PPD(无轨迹)+–7.736.471.116.8206.8PPD(无图像)–+15.056.380.25.9143.6PPD(完整)++35.785.295.82.6103.6PPD(完整)+样品++38.385.096.12.574.4表4.工具物理参数估计的定量结果。将视觉外观与物理观测相结合有助于我们的模型在物理参数估计上表现得更好,与所有其他基线相比,我们的模型在此数据集上的表现明显更好。工具.由于ShapeNet Core [8]数据集中没有工具数据,我们从3D Warehouse下载工具,并手动删除所有不相关的模型。总共有204个有效的工具,我们使用Blender重新网格化和清理这些工具,以解决缺少面和法线的问题。继Changet al. [8],我们对点云进行PCA,并通过PCA轴对齐模型。我们数据集中的示例工具如图6所示原始人。类似于Zouet al.[53],我们首先使用基于能量的优化来拟合来自点云的图元,然后,我们将每个顶点分配给其最近的图元,并使用分配给它的顶点的最小定向边界框来细化每个图元其他设置。我们使用与表1中相同的材料和密度集,以及与第5.1节中描述的材料相同的纹理使用纹理渲染的示例图像如图6所示至于物理相互作用,我们遵循与5.1节相同的场景配置培训详情。由于合成工具数据集的大小相当有限,我们首先在块塔上预训练我们的PPD模型,然后在合成工具上对其进行微调对于用于预训练的块塔,我们将块的数量固定为2,并向每个块引入小的随机噪声和旋转,以填补块塔和合成工具之间的空白。结果对于形状重建,我们的模型在F1得分方面达到85.9。对于物理学估计,我们在表4中呈现定量结果形状重建不如块塔数据集好,因为合成工具更复杂,并且方向可能会引入一些模糊性(对于对象的同一部分,可能存在具有不同旋转的多个边界框物理估计性能更好,因为我们的合成工具数据集中的基元数量非常小(一般≤2)。我们还在图6中显示了一些定性结果。⋆⋆⋆https://3dwarehouse.sketchup.com物理基元分解11样品手工工具(a)输入(b)纹理(c)物理(d)两者(e)答案更低密度更高密度见图6。合成工具数据集中的样本对象(左)和我们模型的定性结果,其中不同的观察组合作为输入(右)。5.3分解真实对象我们研究真实的对象来评估我们模型的泛化能力。真实世界的积木塔。我们共购买了十套不同材料的积木(即:松木、钢、铝和铜),并构建真实世界的积木塔数据集。我们的数据集包含16个不同配置的积木塔:8个有两块,4个有三块,另外4个有四块。物理相互作用场景设置如下:将积木塔放置在桌子上的特定位置,我们使用铜球(由钟摆悬挂)击中它。在图7中,我们显示了数据集中的一些对象及其轨迹视频到3D轨迹。在真实世界的数据上,RGB视频中的每一帧的外观用于提取3D轨迹。一个主要的挑战是如何将RGB视频转换为3D轨迹。我们采用以下方法:1. 跟踪2D关键点。对于每一帧,我们首先检测对象角点的2D位置。为了简单起见,我们使用红色贴纸标记对象角,并使用简单的颜色过滤器来确定角的位置。然后,我们找到的角点之间的对应关系,从连续的帧,通过解决两组点之间的最小距离匹配。在对齐不同帧中的角点之后,我们获得这些关键点的2D轨迹。2. 重建3D姿势。我们为每个角点标注3D位置。然后,对于每一帧,我们有关键点的2D位置和它们对应的3D位置。最后,我们通过使用 Levenberg-Marquardt 算 法 [24 , 28] 求 解 2D 和 3D 位 置 之 间 的Perspective-n-Point来重建每个帧培训详情。我们在Bullet Physics Engine [9]中构建了一个虚拟物理环境,类似于我们的现实世界设置。我们用它来模拟物理相互作用,并生成一个合成块塔的数据集来训练我们的模型。结果我们在图8中显示了我们的模型的一些定性结果,其中不同的观测值作为输入。在现实世界的设置中,只有纹理或物理信息,我们的模型不能有效地预测物理参数,因为12作者:William T.作者声明:Joshua B.特南鲍姆和吴嘉俊(a) 帧i1(b)帧i2(c)帧i3(d)帧i4(e)帧i5(f)帧i67.第一次会议。物体及其物理轨迹在六个采样帧从我们的现实世界块塔数据集。与最后两行一样,具有相似视觉外观的对象可能具有独特的物理特性,我们只能从它们在物理事件中的行为中区分出来。(a)输入(物理轨迹)(b)纹理(c)物理(d)两者 (e)答案更低密度更高密度见图8。我们的模型的定性结果(在现实世界中的块塔)与不同的组合的观察作为输入。图像和物体轨迹比合成数据集中的噪声要大得多,而将它们结合在一起确实有助于预测更准确的结果。在定量评估方面,我们的模型(以两个观测值作为输入)在整个数据集上实现了18.7的RMSE值,在具有两个区块的区块塔上实现了10.1的RMSE值(随机猜测的RMSE值为40.8)。6分析为了更好地理解我们的模型,我们提出了几个分析。前三个在合成块塔上进行,最后一个在我们的真实数据集上进行。不同监督下的学习速度。我们在图9中显示了具有不同监督的PPD模型的 学习曲 线。通 过物理 观察监 督的模 型使用 更少的 训练步骤(500Kvs.2M)。由双方监督物理基元分解1340302010电话:+86-0512 - 88888888传真:+86-0512 - 88888888训练步数(单位:1M步)见图9。以不同的观察值作为输入的学习曲线。当纹理和物理监督都可用时,我们的模型学习得更好,更快。01020 3040506070 8090100(a) 仅纹理01020 3040506070 8090100(b) 仅物理01020 3040506070 8090 100(c) 纹理+物理较低的值较高的值图10个。物理参数估计的混淆矩阵两种类型的观测提供的信息是不同的:(a)在纹理作为输入的情况下,我们的模型倾向于在纹理的概率分布值(参见表1)中保持不变;(b)在纹理作为输入的情况下,我们的模型仅在接近的值之间产生误差。观察,我们的PPD模型保留了模型的学习速度,只有物理监督,并进一步提高其性能。对可能值的偏好。我们在图10中说明了物理参数估计的混淆矩阵。尽管我们的PPD模型在仅使用纹理作为输入或使用物理作为输入的情况下表现相似,但其对所有可能值的偏好却大不相同。以纹理作为输入(在图10a中),它倾向于在相应材料的可能值内猜测(参见表1),而以物理作为输入(在图10b中),它只在非常接近的值之间产生误差。因此,由两种类型的输入提供的信息彼此正交(在图10c中)。原始数的影响。 如表5所示,块的数量对以纹理作为输入的模型几乎没有影响。以物理相互作用作为输入,模型在较少的块上表现得更好,并且当块的数量开始增加时,其性能会下降。退化可能是因为任何刚体的物理响应完全由少数对象属性(即,总质量、质心和物理解译物理学exture+不PT木材砖石金属陶瓷金属金属RMSE木材砖石陶瓷金属10090807060504030201001009080706040503020100901008070605040302010014作者:William T.作者声明:Joshua B.特南鲍姆和吴嘉俊1010.11 2 3 4 5 6 7 8了图 11个国家。人力、物力和财力都很有限,因此“如果有机会的话”。我们的模型表现与人类相当,其响应与人类相关。观察2个街区3个街区4个街区5个街区整体纹理18.218.518.819.719.1物理3.67.915.820.014.7纹理+物理2.34.97.810.98.05.我爱你以下数据块的量化结果(RMSE)(具有不同的块数(a) 模型以纹理为输入,对不同块数的纹理进行纹理映射(b) 以物理学作为输入,我们的模型在更少的块上表现得更好惯性矩),当图元的数量相对较大时,这为我们提供了对对象的密度分布的有限约束。人类研究。本文从实际数据中选取了具有两个块体的块体塔楼,并在此 基 础 上 提 出 了 “whichblockisheavier” 的 问 题 。 人 类 研 究 在 AmazonMechanical Turk上进行。对于每一个积木塔,我们提供25个注释者一个图像和一个视频的物理相互作用,并要求他们估计的质量比之间的上部和下部块。我们不直接预测一个真实的值,而是要求注释器在对数尺度上做出选择,即从{2 k|k=0,±1,. . .,±4}。图11中示出了一位兽医的预测、模型的预测和结果。我们的模型表现得与人类相当,并且其响应也与人类高度相关:“人类对人类的影响。“我的天”,“我的天”。我的意思是,我的意思是,我的意思是。 我是0。69,0。71和0。90,相对精确。7结论在本文中,我们制定和研究的问题,物理图元分解(PPD),这是近似的一组图元的对象,解释其几何和物理。为此,我们提出了一种新的配方,同时采用视觉和物理观测作为输入。我们在几种不同的设置上评估了我们的模型:合成块塔,合成工具和现实世界的对象。我们的模型在合成和真实数据上都取得了良好的性能鸣 谢 : 这 项 工 作 得 到 了 NSF #1231216 、 ONR MURI N 00014 -16-1-2007、丰田研究所和Facebook的支持。人类模型真相质量比物理基元分解15引用1. 阿格拉瓦尔,P.,Nair,A.,Abbeel,P.,Malik,J. Levine,S.:学习戳戳:直观物理学的经验学习。在:NIPS(2016)2. Attene,M.,Falcidieno,B.,Spagnuolo,M.:基于拟合预处理的分层网格分割。TheVisualC〇mputerr22(3),1813. Battaglia,P.W. Hamrick,J.B.,Tenenbaum,J.B.:仿真作为物理学研究的引擎。PNAS110(45),183274. Bell,S.,Upchurch,P. Snavely,N. Bala,K.:野外材料识别与上下文数据库中的材料。参见:CVPR(2015)5. Biederman,I.:组件识别:人类图像理解理论心理学修订版94(2)、115(1987)6. Binford,T.O.:计算机视觉。在:IEEE Conf.《系统与控制》(1971)7. Brubaker,硕士,弗利特DJHertzmann,A.:使用拟人步行器的基于物理的人跟踪IJCV 87(1-2),140(2010)8. Chang,A.X.,Funkhouser,T.,吉巴斯湖Hanrahan,P.黄,Q,Li,Z.,Savarese,S.,Savva,M.,Song,S.,Su,H.,等:Shapenet:一个信息丰富的3D模型存储库。arXiv:1512.03012(2015)9. Coumans,E.:子弹物理引擎。开源软件:http://bulletphysics. 组织(2010年)10. Grabner,H.,Gall,J.,Van Gool,L.:是什么让椅子成为椅子?在:CVPR(2011)11. Gupta,A.,埃夫罗斯,匿名戒酒会Hebert,M.:重新审视块世界:使用定性几何和力学的图像In:ECCV(2010)12. 他,K.,张,X.,Ren,S.,孙杰:用于图像识别的深度残差学习参见:CVPR(2015)13. van den Hengel,A.,拉塞尔角迪克,A. Bastian,J.,Pooley,D.弗莱明湖阿加皮托,L.:从图像中对复合场景进行基于零件的建模。参见:CVPR(2015)14. 黄,H.,Kalogerakis,E.,马林,B.: 分析和合成3D形状族,这取决于对三维空间的建模。CGF34(5),2515. 黄,Q,王,H.,Koltun,V.:通过图像和形状集合的联合分析的单视图重建ACM TOG 34(4),87(2015)16. Igarashi,T.,Matsuoka,S.,田中,H.:三维自由设计的草图绘制界面。02 The Dark(1999)17. J. Gibson,J.:启示理论。视觉感知的生态学方法8. (一九七七年)18. Jia,Z. Gallagher,A. Saxena,A.,陈T:从积木到稳定性的三维推理。IEEETPAMI37(5),90519. Kalogerakis,E.,Chaudhuri,S.,科勒D. Koltun,V.:基于构件的形状合成的概率模型。ACM TOG 31(4),55(2012)20. Kim,M.,Pons-Moll,G.,Pujades,S.,邦,S.,金,J.,布莱克,MJLee , S.H. : 人 体 软 组 织 动 画 的 数 据 驱 动 物 理 学 在 : SIGGRAPH(2017)21. Kim,V.G.,李伟,美国新泽西州米特拉市Chaudhuri,S.,DiVerdi,S.,Funkhouser,T.:从大量的3d形状中学习基于零件的模板。ACM TOG 32(4),70(2013)22. Koppula , H.S. , Saxena , A. : 物 理 接 地 的 时 空 对 象 启 示 。 In : ECCV(2014)23. Lerer,A.,格罗斯,S.,Fergus,R.:通过实例学习积木塔的物理直观。In:ICML(2016)16作者:William T.作者声明:Joshua B.特南鲍姆和吴嘉俊24. Levenberg,K.:用最小二乘法求解某些非线性问题的一种方法。Quarterylyofappliedmathemati cs2(2),16425. 李杰,徐,K.,Chaudhuri,S.,Yumer,E.,张洪,Guibas,L.:Grass:用于形状结构的生成递归自动编码器。在:SIGGRAPH(2017)26. 李伟,Leonardis,A.,Fritz,M.:机器人操作的视觉稳定性预测。In:ICRA(2017)27. 李,Y.,Wu,X.,中国农业科学院,Chrysathou,Y.,Sharf,A.,Cohen-Or,D.,新泽西州米特拉:Globfit:通过发现全局关系来一致地拟合基元。ACM TOG 30(4),52(2011)28. Marquardt , D.W. : 非 线 性 参 数 的 最 小 二 乘 估 计 算 法 JournalofthesocietyforrIndusrialandAppliedMathematics11(2),43129. Miller,A.T.,Knoop,S.,克里斯滕森H. I艾伦,P.K.:使用形状基元的自动抓取In:ICRA(2003)30. 我是R, Rastegari,M., 去吧,A., Farhadi,A. :“如果有一个p p e ns。.. 可以预测力在图像中的作用。In:ECCV(2016)31. Nooruddin,F.S.,特克,G.:多边形模型的简化和修复。IEEETVCG9(2),19132. 范T. H Kheddar,A.,Qammaz,A.,Argyros,A.A.:从视觉感知力:观察手-物体交互以推断操纵力。参见:CVPR(2015)33. Rivlin,E.,Dickinson,S.J.Rosenfeld,A.:按功能部件识别CVIU62(2)、16434. 罗伯茨,L.G.:三维立体的机器感知。博士麻省理工学院硕士论文(1963)35. Rubner,Y.,Tomasi,C.古伊巴湖J. :该移动设备的设计是一种针对移动设备的简单方法。IJCV40(2),9936. Savva,M.,Chang,A.X.,Hanrahan,P.:常识
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 十种常见电感线圈电感量计算公式详解
- 军用车辆:CAN总线的集成与优势
- CAN总线在汽车智能换档系统中的作用与实现
- CAN总线数据超载问题及解决策略
- 汽车车身系统CAN总线设计与应用
- SAP企业需求深度剖析:财务会计与供应链的关键流程与改进策略
- CAN总线在发动机电控系统中的通信设计实践
- Spring与iBATIS整合:快速开发与比较分析
- CAN总线驱动的整车管理系统硬件设计详解
- CAN总线通讯智能节点设计与实现
- DSP实现电动汽车CAN总线通讯技术
- CAN协议网关设计:自动位速率检测与互连
- Xcode免证书调试iPad程序开发指南
- 分布式数据库查询优化算法探讨
- Win7安装VC++6.0完全指南:解决兼容性与Office冲突
- MFC实现学生信息管理系统:登录与数据库操作
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功