没有合适的资源?快使用搜索试试~ 我知道了~
3D物体修复的物理模拟与功能预测
1413修复故障对象学习物理模拟与功能预测YiningHongUCLA开春莫斯坦福大学清华大学Leonidas J. Guibas斯坦福大学AntonioTorralba麻省理工学院约书亚湾MIT BCS,CBMM,CSAIL庄干MIT-IBM Watson AI实验室故障形状视频可能的修复物理模拟图1. 我们介绍FIX IT,这是一个需要机器根据功能修复故障对象的数据集。每个故障对象都与一个视频配对,展示对象如何交互。固定物体的功能可以通过物理模拟进行评估摘要本文研究了故障三维物体的修复问题。虽然以前的作品侧重于建立被动感知模型,从静态的3D对象学习的功能,我们认为,功能是考虑到对象和用户之间的物理交互给定一个功能故障的对象,人类可以执行心理模拟来推理其功能并找出如何修复它。受此启发,我们提出了F IX I T,这是一个包含约5k个设计不良的3D物理对象的数据集,并提供了修复它们的选择。为了模拟人类云,物理动力学预测模块,用于模拟3D对象上的交互结果,以及功能预测模块,用于评估功能并选择正确的修复。实验结果表明,我们的框架性能优于基线模型的大幅度,并可以推广到具有类似的交互类型的对象代码和数据集是公开的1.1. 介绍如何定义一个好的3D物体形状?在造型设计中,美学、舒适性、趣味性等方面然而,这些观点都是没有意义的,没有最大限度地考虑一个对象,力学具体来说,FixNet由感知模块组成从3D点提取结构化表示1http://fixing-malfunctional.csail.mit.edu1414日常使用-其功能。功能性是用户交互的目标和对象行为之间的关系对象的每个部分都将其行为与整个对象形状的功能相关联。例如,图1中的第三列显示了法国艺术家Jacques Carelman的臭名昭著的最近已经在学习3D对象形状的功能方面做出了努力[33这些工作通常将功能视为3D对象的属性,并使用感知系统来预测属性。这种做法与早期的“感知的生态理论”相一致然而,一个更广泛接受的概念是,为了评估功能,我们需要涉及有时无法感知的物理学[25,58]。事实上,功能是根据对象和用户之间的物理交互来计算的,而不是仅仅与形状相例如,在图1中,一个人必须与USB进行交互,才能发现外壳无法保护芯片。基于功能的固定设计被称为具体来说,要固定一个对象,必须修改一个部件并与对象交互,以验证固定的对象是否表现出所需的功能[66]。然而,在现实生活中,尝试所有可能的修复并与所有固定的对象形状进行交互是不现实的。因此,人类倾向于进行心理模拟来模拟交互的效果[9]。例如,一旦我们看到了USB是如何交互的,我们就会想出一些固定的想法,并在脑海中模拟固定USB的交互。通过动力学模型[2,5,45,46],已实现了机器的类似机制这些模型能够模拟给定对象和交互的未来状态。使机器具备基于物理动力学和功能性来修复对象的能力,可使许多实际应用受益。例如,它可以帮助预测对象上的交互结果,并建议对故障对象进行修复。当3D模型设计用于虚拟现实(VR)时,它有助于确保这些3D模型功能良好。受上述想法的启发,我们提出了一个新的任务,需要机器来修复故障对象。为了研究这个问题,我们创建了一个新的3D合成数据集FIX IT,其中包含大约5k个3D对象的合成点云视频。点云视频展示了3D对象如何交互的模拟。大多数交互都不成功,表明对象功能不佳,而一小部分视频展示了成功的交互。我们将每个视频与五个选项配对,指示如何修复3D对象。五个选项中只有一个是正确的。作为这个具有挑战性的任务的第一次尝试,我们提出了FixNet,这是一个可以从3D点云视频中学习物理动力学和功能预测的框架由于以前的物理动力学模型需要完全访问粒子状态和分组[43],因此将它们应用于这项新任务的主要挑战是如何从原始点云视频预测物理动力学。我们的想法是,3D对象中的点云在经过提供结构化表示和点对应的感知系统之后,可以与粒子(即,可以归因于物理性质的小的局部化对象)。具体地说,FixNet由三个模块组成:感知模块、物理动力学预测模块和功能预测模块。感知模块具有两个部分:a)流预测网络,其将点云视频作为输入,并且提出点的流,这些点的流被用作用于训练动态模块的伪标签;以及b)分割网络,其将点云和预测的流作为输入,并且提出对象的部分,这些部分被用于固定。零件的点云根据固定选择进行修改。然后,动态预测模块获取固定点云,执行物理仿真并输出交互式视频。最后,将模拟视频的最后一步输入功能预测模块,以评估固定对象是否功能良好。FIX IT数据集上的实验表明,我们的FixNet优于几个基线模型的一个大的Margin。此外,它可以很好地推广到新的类别具有相同的相互作用类型。模型诊断和定性算例表明,FIX IT的挑战在于为动力学预测提供准确的分段。我们的贡献可归纳如下:• 我们提出了一个新的任务,固定3D对象形状的基础上,涉及3D感知,物理和功能推理的功能。• 我们提出了一个新的数据集,FIX IT,其中包含大约5k个对象形状,分为七个类别进行修复。• 我们提出了一个模块化的框架,FixNet,它将感知,物理动力学和功能预测固定。• 实验结果表明,我们的FixNet优于基线模型的大幅度。2. 相关工作功能建模。3D物体形状的丰富空间,特别是我们日常生活中的人造物体形状,来自于它们需要提供用于完成各种下游任务的各种功能。因此,研究形状功能[32]和启示[20,26]作为一个高度相关的概念是一个重要但具有挑战性的研究课题。以前的作品探讨了学习1415PP {}PPR {}IP {}{P P P}{IPIP}P通过观看视频或真人演示[16,39,55,57,76],以及通过人类[21,33许多作品[22,31,51,72]也证明了部件和结构对于功能良好的形状的然而,这些工作大多集中在感知,建模,并生成具有功能的形状。相反,我们的工作提出了一个新的问题公式诊断和修复故障对象。物理场景理解物理推理是认知推理的一个重要方面[8,27最近,研究人员专注于使用神经网络来预测物理动力学[2,5基于粒子的动态系统已被应用于模拟各种材料的物体[36,37,43,50,54,69]。然而,这些工作通常假设他们可以访问物理系统的所有状态、集群和物理特性,这在感知和物理之间存在差距。更多的时候,我们看到的是原始的、不规则的采样和变化的点云。也有潜在表示的动态模型[1,18,23,24,73]。然而,这些隐式模型无法捕捉复杂的物理性质,因此在预测未来状态方面表现不佳。[44]建议从图像中学习视觉先验。相比之下,我们建议从3D点云中学习投影,并使用物理动力学来修复故障的3D对象形状。3. FIX IT数据集目录形状函数成功定义冰箱1290关闭无碰撞;无内部暴露桶624提升高度变化;无水流出USB1096屏蔽芯片未暴露水壶213水可以倒出来推车654移动向前移动而不旋转锅751提升高度变化;无水流出框327关闭无内部外露表1.FIX IT数据集涵盖的对象类别的统计和特征我们创建了一个新的数据集,其中包含4,955个表示为点云的3D对象实例,称为FIX IT。每个对象都由可以修改的各个部分组成。对象与点云视频配对,显示对象如何交互和动态结果。指示对对象的部分的可能修复的选项被表示为域特定语言(DSL)。3.1. 数据集设计对象类别。我们的数据集包含7个对象类别:冰箱,水桶,USB,水壶,推车,它们或者具有丰富的铰接部分来相互作用(例如,、冰箱、盒子、USB)或物理交互是复杂的(例如,Bucket、Kettle、kitchenPot)。我们故意通过缩放、平移或旋转部分来破坏一些对象,使它们无法正常工作。在表1中,我们定义了每个对象类别的功能。在图1中,我们展示了数据集中的一些示例对象。有关每个类别的更多示例和详细信息,请参阅补充材料。点云视频生成。 我们使用PyBullet 2来模拟视频数据集的物理交互,并验证对象的功能。对于每个对象,我们使用一个末端效应器与对象交互(对于厨房锅,我们使用两个,因为有两个手柄)。我们对末端执行器的预定义轨迹进行硬编码。我们用小球来代替水桶、水壶和厨房锅里的水。仿真完成后,我们检查每个对象的位置和旋转变化,以评估对象是否正常工作。我们最终从所有模拟步骤中提取10帧来构建视频。我们使用最远点采样来采样每帧大小为2048的点云。我们提取了末端执行器和物体之间的16个交互点,作为额外的输入,告诉机器我们如何与物体交互。特定领域语言。每个固定选项都表示为4元组特定于域的语言(类型,部件,轴,值)。有“刻度”、“平移”、“旋转”三种固定方式,“+x”、“-x”、“+y”、“-y”、“+z”、“-z”六个坐标轴。该值在给定对象形状的范围内均匀采样。对于对象的每一部分,我们使用一个根点来表示这一部分,并给它一个索引。选择通过指定索引来引用要修复的部分一个选项也可以是“功能性的”,表示对象已经是功能性的,不需要修复。图2显示了数据集中的选择示例。3.2. 问题公式化对于 要固定的3D对象的原始点云1,我们的框架将模拟点云视频P =1,2,...,T,其中T表示视频中的帧的数量,对于我们的数据集为10。第t帧i中的点云可以表示为点i=pt1,pt2,.,其中N等于2048。我们还考虑了一组额外的相互作用点t=ipt1,ipt2,.,iptK(K = 16),指示末端效应器在初始点云上操作的位置,并且IP =1,.,T.对于L个部分的原始点云1我们定义一组根点索引=r1,r2,.,rL,其中每个根是1中的索引,表示对象的一部分的指示符。我们的框架还将一组五个选择C={c1,c2,...,c5}修复原件厨房锅,盒子。3D模型来自PartNet-移动性[74]数据集。 我们选择这些类别,因为2https://pybullet.org/1416P−{P P P}Pi=1不PPM{→ M|···CC||P − D||P × ×Di=1-累积流量:联系我们×PS{∈|}PP不 j,k=1联系我们②1①A.平移①+z 0.25B.比例尺②+z 0.5C.平移①+z 0.43D.比例尺①-y 1.5E.平移①+z 0.623$5&7()10*图2.我们的FIX IT数据集的一个例子。它有几个组成部分:1)要固定的形状的3D点云; 2)显示该对象交互的点云视频;3)表示零件和零件索引的根点; 4)交互点(红色点); 5)一组五个选项来固定它。每个选项通过零件索引引用其中一个零件。对象P1.每个选项都是指要使用4.1. 3D视觉感知感知模块旨在提供对于训练物理动力学预测模块至关重要的感知线索。它包含两个网络:流建议网络和实例分割网络。Flow Proposal Network. 由于每帧中的点是不规则采样的,因此我们不知道两帧之间的点对应关系,从而限制了我们训练物理模拟模块和改进分割网络。因此,我们建议从头开始学习点的流动。我们利用场景流量估计方法[3,11,64,70]来恢复流量。具体来说,我们的流建议网络基于FlowNet 3D[48],它由一个用于学习嵌入的Point-Net ++、一个用于点混合的嵌入层和一个用于预测场景流的setupconv层组成。我们重新组织输入点云视频P=1,二、…T分成成对的源点t和目标点t+1,其中t= 1,2,.,T1. 流量建议网络fT输出源点的估计流量云:Pt={(xti,yti,zti)}N=fT(Pt,Pt+1).根点之一注意,这里的估计流量不是实际流量,因为(Pt+<$P<$t) Pt+1. 为了纠正流动,我们计算4. FixNet受人类心理模拟过程的启发,我们的目标是设计能够对对象进行物理模拟的AI模型,并评估固定对象的功能。已经有作品可以准确地预测物理对象的动态[2,5,45,46]。然而,它们需要完全访问粒子表示、点对应和分组,这在现实世界的场景中是无法获得的。主要的挑战在于从原始点云视频中学习基于粒子的动力学模型。我们解决这一挑战的想法是使用感知模块为物理动力学预测模块提供结构化表示和点对应。因此,我们提出了FixNet,这是一个无缝弥合3D点云视频和物理动力学之间差距的框架。如图3所示,我们提出的FixNet由三个模块组成:感知模块,物理动力学预测模块和功能预测模块。感知模块由两个网络组成:流建议网络,用于从对象的点云视频中提取流;实例分割网络,用于基于流估计对象物理动力学预测模块将分割的对象作为输入,并学习近似其相互作用的物理模拟。最后,功能预测模块采用模拟的结果并测量修改后的对象是否功能良好。a N N3视差矩阵对于第t帧和第t+1帧之间的每对点,其中djk=p(t+1)k−pt j。 我们将具有相同dim值的{\displaystyle{\displaystyle{\frac{t}(N×1×3)}展开为{\displaystyle {\frac {t}(NN3)},并计算成本矩阵t=[编辑]t2. 我们在成本矩阵上应用匈牙利算法[41]以找到二分匹配p:ip(i)源点之间的i= 1,2,.,N测试点和目标点t+1。这最小化估计流量和实际流量之间的总误差。然后,我们从点对应关系计算整流后的流:Pt={p(t+1)M (i)-pti}N。实例分段网络。实例分割网络为后续模块提出部分实例分割。如[65,75]所建议的,利用关节化对象的运动流的联合分割方法实现了良好的性能。因此,我们设计了一个实例分割网络,以感知信息和运动信息为输入,输出零件实例。我们首先将所有帧的流总结为100万美元t=1原始对象的点云1、累计流来构造我们的实例分段网络fI的N6个输入。我们的实例分割网络应用具有多尺度分组的PointNet++[60]作为骨干网络,用于提取特征并预测大小为L的输入点云上的L个实例分割掩码:n= snl[0,1]Nl= 1,2,.,L=fI([1,n]).一个柔软的-施加最大作用层,使得s=1+s=2+. . +sL=1.一、我们用匈牙利算法找到一个二分匹配-1417联系我们{|···{|···M{→ M|···RIPSP123➚2➚ −1➚...➚...流实例分割网络流程建议网络累积流量监督物理动力学预测模块功能预测模块选择:规模感知模块+x 1.3评分:0.95图3.我们提议的FixNet。点云视频首先被馈送到流建议网络,该网络输出点的流。故障对象(也是视频的第一帧)的流和点云被输入到分割网络以产生零件实例。给定一个表示为域特定语言(DSL)的选项,通过根点检索选项中引用的部分然后,将固定对象的点云与零件实例一起馈送到物理动态预测模块中,以预测对象的未来状态。物理动力学模块在由流提供的伪标签上进行训练。最后一个状态被输入到功能预测模块,功能预测模块输出功能分数。ings:ls(l)l= 1,2,.,L和地面实况掩码sll= 1,2,.,L。对于匈牙利算法的度量,我们使用宽松的IOU [40]。4.2. 物理和功能预测物理动力学预测模块。下面我们介绍如何在模拟物理之前利用感知。感知模块提供与基于粒子的动力学模型[45,62,63]兼容的点流和分割,以及要固定的选择中提到的部分的点云。最近提出了许多动态预测模型[2,5,46]。我们选择DPI-Net [45],因为基于粒子的物理动力学系统可以自然地利用感知系统中的点,并且分层建模范式适合多个部分的3D对象。物理模型内的相互作用可以表示为有向图,G=((E),其中是点的集合,在物理世界中称为粒子,E是点之间的关系集合。粒子之间的边E随时间动态生成。在DPI-Net中定义了三种类型的边。首先是在预定距离内建立邻居之间的关系。第二种类型被称为分层建模,其中粒子被聚类成不重叠的簇,并且簇中的随机粒子被选择为根,并且其他粒子是叶节点。有向边包括ELeaf ToRoot、ERootToLeaf和ERootToLeaf。DPI-Net采用多阶段传播范例:在叶节点之间传播,从叶节点到根与叶之间;根与叶之间。我们使用分割结果S*作为我们的簇并使用我们的根点作为根粒子。第三种类型的边是为控制而设计的。我们遵循[45]的实现,其中控制输入也是交互图的顶点,并且具有指向控制点的有向边相互作用点的动力学是预定义的,并且仅预测粒子P我们输入点云1,以及用于控制的交互点和用于分层建模的分割点。DPI-Net fP预测物理相互作用的未来轨迹,P={P2,...,一步一步来giv en a initial object:P=fP(P1,S,IP).功能预测模块。功能性预测模块最终接收由物理动态预测模块输出的最后一帧,并通过检查是否已经实现交互的目标来预测其功能性得分。4.3. 训练和推理训练流建议网络在Flyingthings3D数据集上进行预训练(如[48]所建议的),并在训练集中对10%的视频流进行微调。实例分割网络使用IoU损失和l2,1-范数正则化损失在训练集的20%的地面实况分割上进行训练物理动力学预测模块用来自由流建议网络预测的视频流功能预测模块在每个选择的模拟视频的最后一帧上进行训练,并监督五个选择的正确性。推理。给定一个故障对象及其相互作用1418冰箱桶USB水壶推车KitchenPot框所有仅DSL24.122.516.718.821.418.720.420.6PointNet++21.323.520.126.624.024.420.422.3MeteorNet33.137.425.535.927.033.830.330.6PST-Net20.821.936.828.131.126.223.527.1P4-Transformer29.241.241.031.331.634.229.634.5Fix+PointNet++54.652.440.151.649.540.046.947.6FixNet67.461.056.256.369.452.471.462.3表2.不同模型在FIX IT上的精度。我们的FixNet远远优于所有基准。视频,我们先把视频喂到流量提案网,得到流量。然后将点云和预测流输入实例分割网络,实例分割。然后,我们尝试修复对象。我们的选择集中的每个选择都指定了一个部件索引,指示要修改的部件。从根点检索得到根点索引,并从分割中找到其实例。然后,我们可以通过选择与选择中的根点分配相同实例的点来重建整个点云。每个选择中的DSL可以被转换成变换矩阵并应用于零件点云,零件点云与其他零件一起构成固定点云。修改对象后,交互点也需要修改。然而,要控制的点的集合保持不变。我们得到一个位置偏移量作为控制点的平均位置变化,并将相同的偏移量应用于我们的相互作用点,以获得修正的相互作用点。修改后的点云、分割和修改后的相互作用点被馈送到物理动力学预测模块中以输出模拟视频。我们获取最后一帧的点云并将其输入到功能性预测模块以获得功能性得分。选择具有最大分数的选项5. 实验5.1. 实验装置Setup. 序列/验证/测试的比例约为6:1:3。所有的模型都会根据分数从五个候选人中选出一个评估度量是计算通过选择正确的选择而正确固定的对象实例的百分比。基线。我们为此任务实现了几个基线。• 仅限DSL基线只接受用特定领域语言(DSL)编写的选项,指示修复后的对象是否可用。并基于DSL特征预测功能性得分。• PointNet++[60]适用于单帧点云,用于检查视频中的动态数据是否有助于找到正确的修复。• MeteorNet[49]为Point- Net++添加了一个时间维度来处理4D点并使用链流分组。• PSTNet[15]使用点时空(PST)卷积,表3. 流程提案网络的验证EPE和IOU实例分段网络的丢失。解决方案来表示点云序列。• 点4D Transformer(P4-Transformer)[14]使用点4D卷积来嵌入时空局部结构以及Transformer来捕获外观和运动信息。• Fix+PointNet++直接将固定对象输入PointNet++以预测功能。对 于 采 用 3D 点 云 输 入 的 基 线 ( Fix+PointNet++ 除外),我们将点云和DSL的功能连接起来,以输出每个修复的功能评分。实施详情。为了进行公平的比较,所有点云基线都使用第4节中的感知模块中的分割。除了表示点位置的3个维度之外,我们还添加了一个指定要固定的点和其他点的掩码维度,以及用于指定相互作用点的另一个所有基线都使用原始论文中描述的相同参数,并训练了100个epoch。FixNet各个模块中的训练参数列于补充资料中。5.2. 结果和分析主要结果。我们在表2中显示了多项选择的准确性。正如我们所看到的,我们的模型在点云视频处理上的性能大大优于所有基线。它擅长涉及多个铰接部件的类别,如冰箱和盒子。 我们还注意到,对于在物理和相互作用方面更复杂的对象(例如,水桶、水壶和厨房锅),结果比一般物理学更简单的物体要然而,神经网络,如P4-Transformer和Me-perceptions Net似乎在这些对象中取得了更好的结果。其原因可能是这些类型的结构比其他类型更固定(例如,盒子可以有任意的盖子,但是水桶只有一个把手),因此神经模型更容易记忆。FixNet优于Fix+PointNet++,这表明物理动力学是必不可少的。为了更深入地了解我们的模型,我们在流亲网络和实例分割网络的验证集上给出了一些中间结果,如冰箱桶水壶USB推车KitchenPot框EPE0.010.090.130.060.030.110.02LIOU(-)92.143.747.973.253.556.579.81419故障形状视频实例分割修复选择1物理动力学预测修复选择2物理动力学预测图4. FixNet的定性示例。红色十字表示未选择的修复,绿色标记表示已选择的修复。可以看出,我们的FixNet实现了令人满意的分割和模拟性能。表3.我们可以看到,具有更复杂的物理相互作用的对象对于流建议网络具有更大的误差由于实例分割网络是基于流建议网络的,因此流中较大的错误感知模块的不准确导致后续模块的性能不佳。如何从复杂物理对象中提取精确的结构化表示仍然是一个亟待解决的问题。定性示例。图4显示了FixNet的每个模块的可视化结果。我们可以看到,感知模块在对刚体部位的分割上取 得 了 令 人 满 意 的 效 果 然 而 , 对 于 装 满 水 的kichenpot, FixNet很难将水颗粒和kichenpot分开对于物理动力学预测模块,FixNet可以模拟各种修复的不同动力学,从而区分功能固定对象和故障对象。虽然模拟的动态并不完美(例如,一些水从锅中漏出来,推车的轮子旋转得太多),它并不妨碍功能预测模块预测正确的选择。5.3. 讨论失败案例与挑战在图5中,我们展示了两种故障情况。我们讨论了我们的FixNet的局限性,并指出未来的改进方向。第一个弱点在于感知模块的不准确性。具体来说,DPI-Net要求不同簇的粒子然而,当涉及到神经网络提供的分割时,情况并非总是如此。当两个部分足够接近时,不可避免地会发生重叠.此外,在连接的对象中,某些部分固有地嵌入到其他部分中,使得不重叠的要求无法实现。考试-图5. FixNet的故障案例对于存储桶,实例分割网络不能将水从桶中分割出来,并且动态预测模块将这些部分分开。对于USB,部分重叠导致物理仿真不准确。ple,图5中的USB外壳嵌入其体内,使得分割非常困难.由于DPI-Net中的分层建模迫使实例中的粒子具有相似的动力学,因此由于中间重叠的粒子,一个部分可能会被另一个静态部分因此,嵌入机身的USB外壳无法旋转,而一些外壳和机身分离的USB则能够正常工作在另一种情况下,我们展示装满水的水桶很我们发现,大量的水parti- cles分割到身体的一部分。由于DPI-Net倾向于统一实例中的转换,因此桶体在展开时可能会被水拖走,从而使功能预测不正确。正如我们所看到的,固定铲斗应该垂直提升,但它倾斜了。第二个弱点是物理动力学预测器不能很好地模拟铰接部件。比如,水桶的把手是脱节的。定性例子中的车轮也是如此。如何对铰接物体和多部件物体的动力学模型进行调整是一个值得深入研究的问题。模型诊断得益于模块化设计,故障实例数据库分割地面实况物理修复动力学预测142080706050403020100冰箱桶USB水壶推车KitchenPot框表4.泛化结果。训练类别表示模型训练的类别。我们的FixNet显示令人满意的准确性。FixNet FixNet+F FixNet+I FixNet+F+I图6.模型诊断Y轴表示测试精度。添加地面实况感知可以在一定程度上提高FixNet的准确性,特别是对于低准确性的类别。可以通过用来自模拟的真实数据替换单个组件来容易地诊断模型在图6中,我们示出了结果,其中我们使用地面实况流(+F)而不是由流预测网络预测的流,或者地面实况实例(+I)而不是由实例分割网络提供的分割。我们可以看到,对于FixNet准确度较低的类别,添加地面实况流或分割显着改善了结果。然而,对于具有高准确度的类别,添加额外的地面实况并不会带来太大的改进。这表明,某些类别的表现不佳可能是由于感知模块。我们注意到,添加地面实况实例比添加地面实况流导致更好的性能。因此,该数据集的主要挑战可能是基于不准确的分割来预测动态。这为未来的探索提供了见解:提高分割性能或设计一个可以接受噪声感知输入的动态模型对于对象固定任务至关重要。5.4. 泛化为了评估我们的模型推广到新类别的能力,我们使用在具有类似功能的类别上训练的模型对三个看不见的类别进行实验。表4显示了泛化结果。图7显示了一些不可见对象的示例。总体而言,我们的模型取得了令人满意的结果,性能超过P4-Transformer的大幅度。这可能归功于基于粒子的动力学模型的泛化能力。与人类的心理模拟一样,物理动力学预测器不是简单地记住粒子,而是考虑粒子之间的物理相互作用因此,当看到一个新的物体时,它能够想象它的物理状态,而不管物体看起来是什么样子。然而,感知模块没有表现出相同的泛化能力。在图7中,所有三个对象的分割都不正确对于第一个门,不正确的看法构成了巨大的负面影响-图7.泛化的例子。对于第一扇门,分割和模拟都不正确。对于第二个门,分割是不正确的,但模拟是正确的。对于USB,分段是错误的,模拟是半正确的。物理模块的协议对于第二个门,虽然分割也是不正确的,物理动力学预测器设法模拟完美的结果。对于USB,模型准确地模拟了轨迹的前半部分,但随后停止。这可能是由于USB和刀具的交互方式略有不同。6. 结论我们研究了一个新的学习问题,以修复故障的3D对象,并创建一个大规模的数据集FIX IT基准测试七种类型的对象功能。我们设计了一个新颖的框架FixNet,它结合了感知和物理动力学来解决这个任务。实验表明,我们的方法优于几个基线方法。限制和未来的工作。我们观察到一些失败的情况下,关节部分没有很好地分割或关节部分和关节的动态模拟是不准确的。未来的工作将提出更好的部分分割和动态模型。谢谢。 这项工作得到了MIT-IBM Watson AI Lab及其成 员 公 司 Nexplore , ONR MURI ( N 00014 -13-1-0333),DARPA Machine Common的支持。感计划,ONR(N 00014 -18-1-2847),NSF赠款BCS1921501,Vannevar布什教师奖学金,ARL赠款W 911NF 2120104,以及来自MERL,Autodesk和Snap公司的礼物。故障实例数据库分割地面实况物理修复动力学预测门水壶(旋转手柄)刀列车类别冰箱桶USBP4-Transformer21.324.523.0FixNet60.448.936.51421引用[1] MohammadBabaeizadeh 、 Chelsea Finn 、 DumitruErhan、Roy H Campbell和Sergey Levine。随机变分视频预测。arXiv预印本arXiv:1710.11252,2017。3[2] Peter W Battaglia , Razvan Pascanu , Matthew Lai ,Danilo Rezavillo,and Koray Kavukcuoglu.交互网络,用于 学 习 物 体 , 关 系 和 物 理 。 arXiv 预 印 本 arXiv :1612.00222,2016。二三四五[3] AseemBehl,DespoinaPaschalidou,SimonDonne',andAn-dreas Geiger.Pointflownet:从点云学习刚性运动估计的表示。在IEEE/CVF计算机视觉和模式识别会议论文集,第7962-7971页,2019年。4[4] Carelman 目录d'objets介绍,etcependantin-dispensablesauxpersonnestellesque:acrobates,ajuspants,amateursd'art. 瑜 伽 士 , 青 少 年 和bricoleurs en tous genres.A. Balland,1969年。2[5] Michael B Chang、Tomer Ullman、Antonio Torralba和Joshua B Tenenbaum。一个基于组合对象的方法来学习物理动力学。arXiv预印本arXiv:1612.00341,2016年。二三四五[6] Sheng Chen,Stephen A Billings,and PM Grant.利用神经网络辨识非线性系统。国际控制杂志,51(6):1191-1214,1990。3[7] 陈 振 芳 , 毛 嘉 源 , 吴 嘉 俊 , 王 冠 义 , Joshua B.Tenenbaum和Chuang Gan。通过动态的视觉推理,建立物体和事件的物理概念2021年,在国际学术会议上发表。3[8] Zhenfang Chen , Peng Wang , Lin Ma , Kwan-Yee KWong,and Qi Wu. Cops-ref:一个关于组合指称表达理解的新数据集和任务。在CVPR,2020年。3[9] Bo T Christensen和Christian D Schunn。心理模拟在设计中的作用和影响。应用认知心理学:记忆和认知应用研究,23(3):3272[10] 邓 胜 恒 、 徐 迅 、 吴 朝 正 、 陈 可 、 贾 奎 。 3Daffordancenet:视觉对象理解的基准。在IEEE/CVF计算机视觉和模式识别会议论文集,第1778-1787页,2021年。3[11] Ayush Dewan,Tim Caselitz,Gian Diego Tipaldi,andWol-fram Burgard.三维激光雷达扫描的刚性场景流。2016 年 IEEE/RSJ 智 能 机 器 人 和 系 统 国 际 会 议(IROS),第1765-1770页。IEEE,2016. 4[12] Mingyu Ding , Zhenfang Chen , Tao Du , Ping Luo ,Joshua B Tenenbaum,and Chuang Gan.通过学习视频和语言中的可微物理模型进行动态视觉推理在神经信息处理系统的进展,2021年。3[13] Thanh-ToanDo 、 AnhNguyen 和 IanReid 。Affordancenet:一种用于对象启示检测的端到端深度学习 方 法 。 2018 年 IEEE 机 器 人 与 自 动 化 国 际 会 议(ICRA),第5882-5889页IEEE,2018年。3[14] 范和合、杨毅、莫汗·坎坎哈利。用于点时空建模的点4D Transformer网络云视频在IEEE/CVF计算机视觉和模式识别会议论文集,第142046[15] 范和合,于欣,丁宇航,杨毅,莫寒。Pstnet:点云序列上的点时空卷积。在2020年国际学习代表会议上。6[16] Kuan Fang , Te-Lin Wu , Daniel Yang , SilvioSavarese,and Joseph J Lim. Demo2vec:从在线视频中推理对象启示。在IEEE计算机视觉和模式识别会议论文集,第2139- 2147页3[17] Kuan Fang , Yuke Zhu , Animesh Garg , AndreyKurenkov,Viraj Mehta,Li Fei-Fei,and Silvio Savarese.从模拟的自我监督学习任务导向的工具操作抓握。国际机器人研究杂志,39(2-3):202-216,2020。3[18] 切尔西·芬恩和谢尔盖·莱文。规划机器人运动的深度视觉 预 见 。 在 2017 年 IEEE国 际 机 器 人 与 自 动 化 会 议(ICRA)上,第2786IEEE,2017年。3[19] 詹姆斯·吉布森启示理论。Hilldale,USA,1(2):67-82,1977. 2[20] 詹姆斯·吉布森生态学的方法来视觉捕捉:经典版。Psychology Press,2014. 2[21] Helmut Grabner,Juergen Gall,Luc Van Gool.是什么让椅子成为椅子?参见CVPR 2011,第1529IEEE,2011年。3[22] 管嫣然、刘汉、刘昆、尹康雪、胡瑞真、奥利弗·范·凯克、张燕、埃尔辛·尤默、内森·卡尔、拉多米尔·机甲和张昊。FAME:通过功能感知模型进化生成3D形状IEEE Trans. 关于可视化和计算机图形学,2020年。3[23] D a vidHa和JürgenSchmidhube r. 反复出现的世界模式促进了政策的演变。arXiv预印本arXiv:1809.01999,2018. 3[24] Danijar Hafner、Timothy Lillicrap、Ian Fischer、RubenVille- gas、David Ha、Honglak Lee和James Davidson。从像素中学习潜在的动态规划。国际机器学习,第2555PMLR,2019年。3[25] 雷克斯·哈特森交互设计中的认知、物理、感官和功能启示。行为信息技术,22(5):315-338,2003年。2[26] Mohammed Hassanin,Salman Khan,and Murat Tahtali.视觉示能与功能理解:一项调查.arXiv预印本arXiv:1807.06775,2018。2[27] Yining Hong,Qing Li,Daniel Ciao,Siyuan Huang,and Song-Chun.竹通过修正学习:在监督不力的情况下解决数学应用题。在2021年第35届AAAI人工智能会议上。3[28] Yining Hong,Qing Li,Ran Gong,Daniel Ciao,SiyuanHuang,and Song-Chun.竹 Smart:A situation model foralgebra story problems via attributed grammar. 在第35届AAAI人工智能会议上,AAAI-21,2021。31422[29] Yining Hong , Qing Li , Song-Chun Zhu , and SiyuanHuang. Vlgrammar:视觉和语言的基础语法归纳,2021年。3[30] 洪一宁,李逸,乔舒亚·B·特南鲍姆,安东尼奥·托拉尔巴,庄乾。Ptr:基于部件的概念、关系和物理推理的基准。在神经信息处理系统的进展,2021年。3[31] Ruizhen Hu , Wenchao Li , Oliver Van Kaick , ArielShamir,Hao Zhang,and Hui Huang.学习从单个静态快照 预 测 零 件 移 动 性 。 ACM Transactions on Graphics(TOG),36(6):1-13,2017。3[32] Ruizhen Hu,Manolis Savva,and Oliver van Kaick.形状分析的功能表示和应用。在Computer Graphics Forum,第37卷,第603
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功