多感官对象数据集：OBJECTIVEOLDER2.0-提供新的测试平台和途径

75 浏览量更新于2023-10-26 收藏 2.23MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

10598对象内部函数真实对象质地：外激素音频材质：陶瓷外形：对象文件O BADIFOLDER 2.0：一个用于Sim2Real传输的多传感器对象数据集高若涵1*斯子琳2* 张燕宇1*塞缪尔·克拉克1Jeannette Bohg1李飞飞1袁文珍2吴嘉俊11斯坦福大学2卡内基梅隆大学摘要物体在我们的日常活动中起着至关重要的作用。虽然多感官对象为中心的学习最近显示出巨大的潜力，在以前的工作对象的建模是相当不现实的。OBJECTIVEOLDER1.0是一个最新的数据集，它引入了100个具有视觉，听觉和触觉感知数据的虚拟对象。然而，数据集的规模很小，多传感器数据的质量有限，阻碍了对真实世界场景的推广。我们提出了OBJECTIVEOLDER2.0，这是一个以隐式神经表征形式存在的常见家用物品的大规模多感官数据集，比例估算联系人本地化形状重建0.278mOBASHIONFOLDER1.0在三个方面。首先，我们的数据集在对象数量上大10倍，在渲染时间上快几个数量级。其次，我们显着提高了所有三种方式的多感官渲染质量。第三，我们证明了从数据集中的虚拟对象学习的模型在三个具有挑战性的任务中成功地转移到了现实世界中的对应对象：对象规模估计，接触定位和形状重建。OBENEFOLDER2.0为计算机视觉和机器人技术中的多感官学习提供了新的途径和测试平台。数据集可以在https：//github上找到。com/rhgao/ObjectFolder。1. 介绍我们的日常活动涉及对各种各样的物体的感知和操纵。例如，我们在早晨首先关掉床头柜上的闹钟然后我们可以把一些面包放在盘子里，用刀叉享用早餐，开始新的一天。这些物体中的每一个都具有非常不同的物理属性-3D形状，外观和材料类型，导致其独特的感官模式：闹钟看起来圆圆的，有光泽的，盘子在用叉子敲击时发出叮当声，刀在刀片上触摸时感觉锋利。然而，对真实世界对象建模的先前工作是*表示同等贡献。图1. OBAUFFOLDER 2.0包含1，000个隐式表示，每个物体都包含一个真实物体的完整的多感官轮廓。我们通过使用对象文件隐式神经表示对其本质（纹理，材质类型和3D形状）进行编码来虚拟化每个对象然后，我们可以根据任何外部参数呈现其视觉外观、冲击声和触觉读数。我们成功地将从虚拟对象中学习到的模型转移到了现实世界中的三个具有挑战性的任务中。这为计算机视觉和机器人技术中的多感官学习开辟了一条新的道路，其中OBJECTIVEOLDER 2.0作为一个丰富而逼真的对象存储库，用于训练真实世界的模型。相当有限和不切实际。在计算机视觉中，对象通常在2D中建模，重点是在静态图像中识别和定位它们[15，24，39]。先前的形状建模工作建立了物体的3D CAD模型[11，72]，但它们往往纯粹关注几何形状，物体的视觉纹理质量较低。此外，大多数作品缺乏物理对象属性的完整谱，并专注于单一的模态，主要是视觉。我们的目标是建立一个真实和多感官的3D对象模型的大型数据集，以便使用这些虚拟对象进行学习可以推广到现实世界的对象。如图1所示，我们利用现实世界物体的现有高质量扫描并提取其物理属性，包括视觉纹理，材料类型和3D形状。然后，我们根据每个对象的对象内在特性模拟每个对象的视觉、听觉和触觉数据，并使用隐式神经表示网络-对象文件-使用虚拟化对象进行Sim2Real…ObjectFolder 2.010599对模拟的多传感器数据进行编码。如果感知数据足够真实，那么使用这些虚拟化对象学习的模型可以转移到涉及这些对象的真实任务为此，我们介绍了OBJECTIFOLDER2.0，一个大型数据集的隐式表示的多感官副本的现实世界的对象。它包含从在线存储库收集的1，000个高质量3D对象[1，2，10，14]。针对OBJECTIFOLDER1.01在多感官模拟中渲染速度慢、质量有限的问题，改进了声学和触觉模拟流水线，使多感官数据的渲染更加真实。此外，我们提出了一个新的隐式神经表示网络，使视觉，听觉和触觉感官数据都在实时与国家的最先进的渲染质量。我们成功地将在虚拟对象上学习的模型转移到三个复杂的现实任务中，包括对象尺度估计、接触定位和形状重建。OBJECTIVEOLDER 2.0使许多应用成为可能，包括1）具有视觉、听觉和触觉的多感官学习;2)机器人在各种机器人平台上抓取不同的真实物体;以及3）需要动态多传感器数据的应用，例如策略强化学习。综上所述，我们的主要贡献如下：首先，我们以隐式神经表征的形式引入了一个新的3D物体的大型多感官数据集，与现有工作相比，其规模大10倍。我们显着提高了视觉，音频和触摸的多感官渲染质量，同时在渲染时间上快了几个数量级。其次，我们证明了使用虚拟化对象进行学习可以成功地转移到一系列现实世界的任务中，为计算机视觉和机器人技术的多感官学习提供了新的路径和测试平台2. 相关工作对象数据集。对象在不同的数据集中以不同的方式建模。图像数据集，如Ima-geNet [15]和MS COCO [39]，在2D中建模对象。合成3D CAD模型的数据集，例如Model-Net [72]和ShapeNet [11]专注于对象的几何形状，而不对它们的真实视觉纹理建模。Pix 3D [66]、IKEA Objects [38]和Object 3D [73]将3D CAD模型与真实图像中的对象对齐，但它们要么在尺寸上受到限制，要么在 2D-3D 对齐中进行不可分割的近似。BigBIRD [62]和YCB [10]直接对真实世界的对象建模，但仅针对少量对象实例。ABO [14]是最近引入的，包含超过8K个真实家居对象的3D模型，但它只关注视觉模态，与上述其他数据集类似。1为了方便起见，我们将O BENEFOLDER 1.0 [18]数据集称为1.0，将我们的数据集称为2.0。或者，OBJECTIVEFOLDER2.0包含1，000个隐式神经表示形式的3D对象，每个对象都编码相应对象的真实视觉，听觉和触觉数据。与OB-OLDER1.0 [18]相比，我们的数据集不仅在对象数量上大10倍，而且我们还显着提高了多传感器数据的质量，同时渲染时间快100倍。此外，虽然O BASH-FOLDER 1.0只在模拟中执行任务，但我们表明，使用虚拟对象进行学习可以推广到对象内隐神经表征。基于坐标的多层感知器（MLP）作为一种新的自然信号参数化方法，近年来引起了人们的广泛关注。它们用于学习形状的先验知识[12，44，54];表示静态场景的外观[45，64]，动态场景[49，55]或单个物体[25，48];甚至编码其他非视觉模态，如波场，声音和触觉信号[18，63]。我们还使用MLP来编码类似于[18]的以对象为中心的视觉，声学和触觉数据，但我们新的以对象为中心的隐式神经表示更真实和灵活地编码对象的本质。此外，受最近加速神经体积渲染[32]的技术[23，28，40，42，47，57，74]的启发，我们大大减少了视觉外观的渲染时间，使所有感觉模态的推断实时。多感官学习。除了视觉之外，越来越多的工作杠杆将其他感官形式作为学习信号，其中听觉和触觉是最受欢迎的。对于视听学习，鼓舞人心的近期工作将声音和视觉整合为一系列有趣的任务，包括自我监督的表征学习[33，50，51]，视听源分离[17，19，21，77]，视频帧中的声音本地化[60，68]，视觉引导的音频生成[20，46]和动作识别[22，71]。对于视觉-触觉学习，两种感觉模态用于跨模态预测[37]和表征学习[36，56]。触摸还用于增强3D形状重建[65，67]、机器人抓取[8，9]和物体接触定位[43]的视觉。早期对3D对象的多感官物理行为建模的工作[53]提出了一种直接测量接触纹理和声音的系统，但主要是为了更好地建模虚拟对象交互和创建动画。OBJECTIVEOLDER 2.0是一个潜在的测试平台，用于涉及所有三种模式的各种多感觉学习任务。与上述工作不同的是，我们的目标不是为特定任务学习某些感官模态，而是引入一个具有真实视觉，听觉和触觉感官数据的隐式表示对象的数据集，使计算机视觉和机器人社区可以轻松访问多感官学习。10600Σ其中T=exp（−σδ）表示累积dijj∫ǁ −ǁObjectFolder1.0ObjectFolder 2.0克里特岛我们可以将每个感觉模态参数化为从一些外部参数（例如，用于视觉的摄像机视点和照明条件、用于音频的冲击强度、用于触摸的凝胶变形）与特定位置或条件下的相应感觉信号相对应。隐式神经表示通过神经网络作为对该连续函数的这图2. OBASYFFOLDER2.0中的示例对象。左边的每个点代表我们数据集中的一个对象，红点代表来自OBJECTIVEOLDER 1.0的对象。3. 各种对象OBJECTIVEOLDER 2.0包含1，000个隐式神经表征形式的3D对象。在1,000个物体中，我们使用所有100个对象， O BAUFFOLDER1.0[18]，其中包括来自3D Model Haven [1]，YCB [10]和Google Scanned Ob-10 [2]的高质量3D对象。最近推出的ABO数据集[14]是另一个真实世界3D对象的丰富存储库，包含约8K具有高质量3D网格的对象模型，这些模型来自Amazon.com产品列表。对于每个对象，我们在真实产品的公开网页上获得元数据，如类别，材料，我们按材料类型过滤数据集，只保留以下材料的对象：陶瓷、玻璃、木材、塑料、铁、聚碳酸酯和钢。我们对每个对象这些步骤可确保所选对象在声学上可模拟，如第2.2节所述。四点二。最后，我们从ABO数据集中获得了855个对象。此外，我们从GoogleScanned Objects中获得了45个聚碳酸酯材料类型图2显示了我们数据集中的一些示例对象。2OB-BNFOLDER2.0比OB-BNFOLDER 1.0大一个数量级，包含不同类别的常见家居用品，包括木书桌，陶瓷碗，塑料玩具、钢叉、玻璃镜子等。4. 改进的多感觉模拟和隐式表示我们提出了一种新的仿真流水线来获得基于对象的物理特性的每个对象都由对象文件表示，对象文件是一个隐式神经表示网络，它对对象的完整多感官配置文件进行编码。见图1。隐式表示与传统的信号表示相比具有许多优点，传统的信号表示通常是显式的。2请注意，我们在数据集中使用的原始对象网格都来自以前的数据集[2，10，14]，我们的贡献是基于这些网格模型创建多感官对象资产的管道。使得存储原始传感数据所需的存储器独立于那些外部参数，允许隐式表示容易地流传输给用户。此外，由于隐式神经表示的连续性，传感器数据可以以任意分辨率进行采样每个对象文件都有三个子网： VisionNet 、 Au-dioNet和TouchNet（见图3）。在下文中，我们将详细介绍如何模拟这三种模态以及如何使用多层感知器（MLP）对数据进行编码。4.1. 愿景背景最近的工作[25]提出通过神经网络Fv来表示每个对象的外观，该神经网络F v对以对象为中心的神经散射函数（OSF）进行建模。Fv将物体坐标系中的3D位置x=（x，y，z）和该位置处的照明条件（ωi，ωo）作为输入，其中ωi=（φi，θi）和ωo=（φo，θo）分别表示入射光和出射光方向。输出是体积密度σ和入射光在出射方向上散射的分数ρ=（ρr，ρg，ρb）。在点x处散射的光量可以如下获得：Ls（x，ωo）=L（x，ωi）fρ（x，ωi，ωo）dωi，（1）S其中，S是单位球，L（x，ωi）表示沿方向ωi在点x处散射的光量，fρ表示从方向ωi入射的光在该点处沿方向ωo散射出去的部分。然后使用经典的体积渲染[32]来渲染穿过对象的任何光线的为了渲染单个图像像素，从相机的眼睛投射光线我们将摄像机光线的方向表示为r（t）=x0+tω0。多个点x1，x2，. - 是的- 是的，xK沿射线采样。通过对K个颜色值（Ls（x1，ωo），Ls（x2，ωo），.）的列表进行α混合，可以获得相机光线r（t）的最终期望颜色C（r）。. .，Ls（xK，ωo）），具有以下等式：KC（r）= Ti（1−exp（−σi δi））Ls（xi，ωo），（2）i=1I1j=1δ i=xi+1xi表示两个相邻采样点之间的距离。10601KiloOSF。必须对每个像素重复上述过程以渲染图像。由于需要通过Fv进行大量的正向传递，这使得即使在高端消费者GPU上也非常耗时。受到最近许多加速神经渲染的工作的启发[23，28，47，57，74]，我们建立在KiloNeRF [57]的基础上，并引入KiloOSF作为我们的VisionNet。KiloNeRF不是使用单个MLP来表示整个场景，而是用大量独立的小MLP来表示静态场景。每个单独的MLP被分配到场景的一小部分，使每个小网络足以进行照片级真实感渲染。类似地，我们将每个对象细分为分辨率为s=（sx，sy，sz）的均匀网格，每个网格单元的3D索引为i=（ix，iy，iz）。然后，我们通过以下空间合并定义从位置x到索引i的映射mm（x）=[（x-bmin）/（（bmax-bmin）/s），（3）其中 bmin 和 bmax 分别是包围对象的轴对齐边界框（AABB）的最小和最大边界对于每个网格单元，使用具有参数v（i）的微小MLP网络来表示对象的相应部分。然后，可以通过首先确定负责包含该点的网格单元的索引m（x），然后查询相应的微小MLP来获得点x和方向r处的颜色和密度值（c，σ）= Fv（m（x））（x，r）.（四）遵循KiloNeRF [57]，我们使用“蒸馏训练”策略来避免渲染中的伪影。我们首先为每个对象训练一个普通的OSF模型，然后将教师模型的知识提取到KiloOSF模型中。我们还使用空空间跳跃和早期光线终止来提高渲染效率。[ 57 ]第57话：一个人的秘密与OBJECTIVEFOLDER 1.0相比，我们新的Vision- Net设计在推理时间上显著加快了渲染过程60倍（见表1），同时实现了更好的视觉渲染质量。4.2. 音频背景线性模态分析是执行基于物理的3D模态声音合成的标准方法[31，58，69]。3D线性弹性动态系统可以用以下线性变形方程建模：Mx-+Cxstec+Kx=f，（5）式中，x表示节点位移，M，C=αM+βK，K表示质量、瑞利阻尼，刚度矩阵。3f表示外-施加到物体上的最终节点力，刺激振动。通过广义特征值分解3这些矩阵的值取决于对象参见补充用于从材料类型到材料参数的映射。10602ΣKU=ΛMU，上述等式可以重新表述为以下形式：q′+ （ αI+βΛ ）qstec+Λq =UTf ，（6）其中Λ是对角矩阵，q满足x=Uq. 上述方程的解是N个阻尼正弦波，每个代表一个模式信号。第i个模式是qi=gie−ditsin（2πωit），i={1，2，. -是的-是的，N}其中ω i、di和gi分别表示模态信号的阻尼固有频率、阻尼系数和增益。注意，各模态的增益gi与物体上的接触力和接触位置有关，而各模态的频率ωi和阻尼系数di是物体的固有参数AudioNet. 我们将每个物体的表面网格转换为使用为来自野外的对象网格设计的顺序方法[29]将其注入体积二次四面体网格中，然后在Abaqus [5]中使用有限元方法（FEM）[30]对所得四面体网格和二阶元素执行上述模态分析过程。我们模拟了四面体网格上的每个顶点在每个轴向的单位力作用下的振动模式。然后，我们训练了一个MLP，该MLP将四面体网格的顶点坐标作为输入，并预测在每个轴方向上被单位力接触时该顶点的每个模式的增益向量。在推理时，可以通过首先使用网络来预测每个模式的增益gi，然后通过对由参数化的指数衰减正弦曲线求和来构造响应，来预测对象从网络预测的增益gi，以及从模态分析获得的频率ωi和阻尼di我们将顶点处的外力f分解为沿三个正交轴方向的单位力的线性组合方程：f=kxfx+kyfy+kzfz 。由 f 激发的预测增益g_（max）可以如下获得：g_（max）=kxg_（max）x+ky g_（ ma x ） y+kzg_（max）z，其中g_（max）x、g_（max）y 、g_（max）z表示从AudioNet的三个分支获得的相应增益。最后，结合频率ω和阻尼系数d，我们合成音频波形：NS（t）= gie−ditsin（2πωit），（8）i=1其中gi、di和ωi分别表示g、d和ω的元素与使用体积六面体网格进行模态分析（如在OBJECTIFOLDER 1.0中）不同，我们用于模态分析的高阶四面体网格在相同的表示尺寸下捕获更精细的特征和表面曲率以及更精确的弹性变形。因此，它可以更准确地模拟物体的声学特性[7，27，59]。此外，1.0中的AudioNet可以直接预测复杂的音频频谱图，10603−→±（，，）��（，，）（，，）（，，）（198年，（⨂拉斯⨂198年，变形图触觉图像(a) VisionNet(b) 音频网(c) TouchNet图3.每个Object File隐式神经表示网络包含三个子网络：VisionNet、AudioNet和TouchNet。与OBJECTIVEOLDER 1.0相比，我们通过用数千个单独的MLP表示每个对象，大大加快了VisionNet的推理;对于AudioNet，我们只预测信号中与位置相关的部分，而不是直接预测音频频谱图，这显著提高了渲染质量，也加快了推理;我们的新TouchNet可以渲染不同旋转角度和凝胶变形的触觉读数，而在1.0中，每个顶点只能渲染单个触觉图像。视觉音频触摸总计[18]第十八话3.6990.4200.010 4.129O BENEFOLDER 2.0（Ours）0.0620.0350.014 0.111表1.为每种模态呈现一个观察样本的时间比较，以秒为单位。尺寸，并限于固定的分辨率和时间长度。相反，我们仅预测信号的位置相关部分，然后分析获得模式信号的剩余部分。这显著提高了我们新的隐式表示网络的音频渲染质量。参见表2和图2。四是比较。4.3. 触摸背景我们使用来自GelSight触觉传感器的几何测量[16，75]作为触觉读数。Gel-Sight是一种基于视觉的触觉传感器，可与弹性体相互作用它具有高达25微米的非常高的空间分辨率，并且可以潜在地用于合成来自其他触觉传感器的读数[35，52]。为了使用GelSight模拟触觉传感，我们需要模拟接触的变形和对变形的光学响应。对于我们的触觉模拟，我们的目标是实现以下三个目标：1）灵活地呈现不同位置、方向和按压深度的触摸的触觉读数; 2）快速有效地呈现用于训练TouchNet的数据;3）现实地推广到现实世界的触摸传感器。TouchNet。为了实现上述三个目标，我们采用了两个阶段的方法来渲染逼真的触觉信号。首先，我们模拟了接触变形图，它是由物体在接触区域的形状和凝胶垫在非接触区域的形状构造的我们使用Pyrender [4]模拟传感器-对象交互，使用OpenGL [3]和GPU加速渲染变形贴图，数据生成达到700ObjectFolder 1.0ObjectFolder 2.0（我们的）地面实况图4.比较从O BADOFFOLDER 1.0、O BADOFFOLDER 2.0（我们的）和YCB马克杯的真实模拟参见补充更多的例子。我们设计TouchNet来编码接触对象上每个顶点的变形贴图。我们将每个物体的触觉读数表示为8D函数，其输入是物体坐标系中的3D位置x=（x，y，z）、参数化为（θT，φT）的3D单位接触方向、凝胶渗透深度p和变形图中的空间位置（w，h）。输出是接触的变形贴图的每像素值。Touch- Net将此连续函数建模为MLP网络FT：（x，y，z，θT，φT，p，w，h）d，该网络将每个输入8D坐标映射到变形图中的相应值。渲染变形图后，我们使用最先进的GelSight模拟框架-Taxim [61]，这是一种基于示例的触觉模拟模型，使用真实的GelSight传感器进行校准，以从变形图中渲染触觉RGB图像。与OBJECTIVEOLDER 1.0中只能沿顶点法线方向呈现单个触觉图像的TouchNet相比，我们的新设计的TouchNet可以在15°以内的旋转角度和0.5-2 mm范围内的按压深度下生成触觉输出。此外，在Taxim的帮助下，从变形映射到触觉光学输出的映射可以很容易地校准到不同的基于真实视觉的触觉传感器，产生现实主义的触觉光学输出，从而实现Sim 2 Real传输。（，，）（，）（，，）��体绘制KiloOSF模态声音合成埃什基��⨂10604×视觉音频触摸PSNR↑SSIM↑STFT距离（×10−5）↓ENV距离（×10−4）↓PSNR↑SSIM↑O BAUFF OLDER 1.0 [18]35.7 0.974.947.6527.9 0.64O BAUFF OLDER 2.0（我们的）36.3 0.980.191.2931.6 0.78表2.在多传感器数据绘制质量上与OBJECTIFOLDER1.0进行了比较↓越低越好，↑越高越好。5. Sim2Real对象传输构建OBJECTIVEOLDER 2.0的目标是通过从我们的数据集中学习虚拟对象来实现对真实世界对象的我们通过对包括对象在内真实世界的对象影响声音收集触觉数据采集图5.实验中使用的真实物体的插图以及我们用于收集真实世界碰撞声音和触觉数据的硬件设置。4.4. OBADEFOLDER1.0 vs. OBADEFOLDER2.0OBJECTIVE-FOLDER2.0在多感觉模拟和内隐神经表征设计方面显著推进了OBJECTIVE-FOLDER1.0。表1显示了渲染时间比较。我们的新网络设计比O BAPORFOLDER1.0快了几个数量级，使所有三种感觉形态的渲染都是实时的。渲染质量也大大提高，特别是对于如图4的示例中所示的音频和触摸。我们的KiloOSF VisionNet渲染的图像与地面实况匹配良好，同时比 OBASOFFOLDER 1.0快60虽然直接预测音频频谱图无法捕捉模式信号的细节，并导致背景中的伪影，但我们的对于触摸，为了进行公平的比较，我们使用 OBADIFOLDER 1.0中使用的TACTO [70我们的TouchNet输出与真实的触觉读数匹配良好。表2显示了定量比较。对于视觉和触觉渲染，我们使用标准度量：峰值信噪比（PSNR）和结构指数相似性（SSIM）之间的渲染图像和地面实况图像进行比较。对于音频渲染，我们报告了STFT距离和包络（ENV）距离，STFT距离是地面实况和预测模式信号的频谱图之间的欧几里德距离，包络（ENV）距离测量地面实况和预测模式信号的包络之间的欧几里德距离。对于触摸，因为O BADEFOLDER 1.0使用DIGIT[35]触觉传感器，我们将从DIGIT传感器和GelSight传感器收集的真实触觉图像与1.0和我们的进行比较，重新验证。我们基于GelSight传感器的TouchNet具有更小的Sim2Real间隙。尺度估计、接触定位和形状恢复。在每个任务中，我们将在OB-OLDER2.0上学习的模型转移到现实世界的对象中。图5展示了我们实验中使用的13个物体，以及用于收集真实撞击声和GelSight触觉读数的硬件设置。5.1. 目标尺度估计物体的所有感觉形式都与它们的尺度密切相关。我们希望证明，使用虚拟对象的学习可以成功地转移到基于其视觉外观、撞击声或触觉读数序列的真实对象的尺度我们对来自数据集的渲染多感官数据进行训练，并对8个真实对象进行测试，我们从这些对象中收集了所有三种模式的真实感官数据。对于视觉和音频，我们训练ResNet-18 [26]，它将物体的RGB图像或撞击声的幅度谱图作为输入来预测物体尺度4。从单一的局部触觉读数，几乎不可能预测物体的规模因此，我们使用递归神经网络来组合来自10个连续触摸读数的特征以进行基于触摸的尺度预测。参见补充有关详细信息表3显示了结果。“随机”表示在与我们的模型相同的范围内随机预测尺度值的基线。我们比较了在OBJECTIVEOLDER 1.0的感官数据上训练的模型。OBASH-FOLDER 1.0和我们的数据集都实现了对虚拟对象的高尺度预测精度。然而，在我们的多感官数据上训练的模型更好地推广到现实世界的对象，证明了我们模拟的真实性和隐式表征网络的准确编码。在这三种模式中，触觉数据与视觉和音频相比具有最小的Sim2Real差距。5.2. 触觉-音频接触定位当与已知形状的对象交互时，准确识别交互发生的位置4我们将对象的比例定义为包围对象的轴对齐边界框（AABB）的最长边的长度10605虚拟对象真实对象随机14.5 14.5视力0.80 7.41音频0.57 6.85触摸屏0.19 4.92视力0.79 5.08音频0.20 4.68触摸0.45 3.51表3.物体尺度预测的结果。我们以厘米为单位报告预测的物体尺度和地面真实尺度之间的平均差异具有很大的实际意义。触摸给出了关于接触位置的局部信息，并且在不同的表面位置处的冲击产生了激励声音的不同模态增益。我们调查的潜力，使用冲击的声音和/或触觉读数与接触定位的相互作用。我们应用粒子滤波[41]来定位接触位置的序列，从接触位置收集触觉读数或撞击声。粒子滤波器用于估计给定观测的潜在变量的后验密度这里，观察是触摸物体时的触觉传感器读数或在接触位置处激发的撞击声。潜变量是物体表面上的当前接触位置。对于触摸，我们从FCRN网络中提取特征[34]，该网络预先训练用于触觉图像的深度预测。对于音频，我们从每个3s冲击声中提取MFCC特征。我们将这些特征与从代表候选接触位置的对象表面采样的粒子进行比较。与实际触觉传感器读数或撞击声的特征具有高相似性分数的颗粒被认为更可能是真实接触位置。在每次迭代中，我们基于相似性分数对粒子进行加权和重新采样，然后基于从机器人末端执行器获得的两个连续接触之间的相对平移来更新粒子我们选择具有最高相似性分数的10个粒子对于每个对象，我们重复上述过程5-7次，直到预测的当前接触位置收敛到对象表面上的单个位置我们在模拟和现实世界中进行表4显示了六个复杂形状物体的结果。我们使用相对于地面实况接触位置的平均欧几里德距离作为类似于[6]的评估度量。我们比较了仅使用触摸读数、撞击声或其组合的定位精度，以及随机预测表面位置作为接触位置的基线。我们可以看到，基于触摸的接触位置比使用音频要准确得多联系地点候选人对象模型迭代1迭代2迭代3迭代4图6.通过触摸读数和撞击声进行接触定位的定性结果。上图：模拟实验，下图：真实实验.候选接触位置在粒子滤波器中显示为绿色粒子。在每行中从左到右显示的几次迭代之后，绿色粒子收敛到显示为红色粒子的地面实况接触位置。将这两种模式相结合可以获得最佳的Sim2Real性能。图6示出了与投手对象的触觉-音频接触位置的定性示例5.3. 视觉-触觉形状重建单图像形状重建已经在视觉界得到了广泛的研究[11，13，44，54]。然而，在存在遮挡的情况下，例如在灵巧操作期间，触觉信号对于感知物体的形状视觉提供粗略的全球背景，而触摸提供精确的局部几何。在这里，我们训练模型来从包含对象和/或对象表面上的触觉读数序列的单个RGB图像重建3D对象的形状我们使用点完成网络（PCN）[76]，一种基于学习的形状完成方法，作为这项任务的测试平台。对于触摸，我们使用32个触觉读数，并将相关的变形图映射到给定相应触摸姿势的稀疏点云。稀疏点云用作PCN网络的输入，用于生成密集且完整的点云。对于视觉，不是使用一系列局部接触图作为对象的部分观察，而是使用从包含对象的单个图像的ResNet-18网络中提取的全局特征来监督形状完成过程。对于具有视觉和触觉的形状重建，我们使用双流网络，该双流网络将来自两种模态的预测点云与完全连接的层合并，以预测最终的密集点云。参见补充有关详细信息表5显示了六个不同形状物体的结果。与使用6个对象的平均地面实况网格作为预测的“平均”基线相比，来自单个图像和一系列触摸读数的形状重建执行得更好。结合两种模态的几何线索通常会导致最佳的Sim2Real传输性能。图7显示一些2.0（我1.0 [18]房SIM10606方式SIM房SIM房SIM房SIM房SIM房SIM房随机6.746.7412.9612.964.284.289.399.3914.5314.5314.2114.21音频1.881.790.261.160.654.670.231.040.14-0.74-触摸0.041.260.030.780.181.300.040.440.040.910.043.82音频+触摸0.020.590.040.360.090.510.040.630.23-0.30-表4.听觉触觉接触定位的结果我们报告平均距离w.r.t.以厘米为单位的地面实况接触位置方式SIM房SIM房SIM房SIM房SIM房SIM房平均2.122.012.971.914.803.264.534.492.442.532.523.29愿景0.250.320.300.720.510.740.380.660.320.400.490.99触摸0.240.560.290.800.350.610.380.430.300.410.361.11视觉+触摸0.090.250.180.460.260.430.240.320.180.240.231.20表5.视觉-触觉形状重建的结果我们报告倒角-L1距离w.r.t.地面实况以厘米为单位输入地面实况形状重建触觉图像视觉图像对象网格模拟真实图7.方形托盘和咖啡杯在模拟（Sim）和真实世界（Real）中的视觉-触觉形状重建的定性结果用视觉和触觉重建形状的定性结果。我们可以看到，模拟和真实世界实验中的预测点云准确地捕捉到了两个对象的形状，并且与地面真实对象网格匹配良好。6. 更广泛的影响和限制我们将在论文发表后发布我们的数据集和代码，以便它可以作为多感官学习的标准基准很容易地被社区访问。这避免了为这样的任务购买真实世界对象的需要，并且可以特别有益于在特定真实世界对象的国际运输和购买具有挑战性的区域中的此外，我们的隐式表示是计算更便宜的渲染多感官数据相比，初始的多感官模拟，这是潜在的更环保。弥合SIM和Real之间的鸿沟，以对象为中心的学习本质上是困难的。虽然我们已经展示了一系列对象的Sim2Real传输，但我们数据集中的对象都是刚体对象，并且我们假设整个对象都是单一均匀材料。然而，现实世界的对象是复杂的，通常包含多个部分，这些部分可以是非刚性的，并且具有不同的材质类型。此外，这些对象所在的3D空间具有不同的照明/噪声条件，混响效果等。Sim 2 Real对象传输在没有建模所有这些因素的情况下具有挑战性，我们将其作为未来的工作。7. 结论ObjectifOLDER 2.0是一个包含1,000个对象的数据集，以隐式神经表示的形式，旨在增强计算机视觉和机器人技术中的多感官学习。与现有的工作相比，我们的数据集在规模上大了10倍，在渲染时间上快了几个数量级。我们还显着提高多传感器数据的质量和真实性我们表明，模型学习与我们的虚拟化对象成功地转移到他们的现实世界中的同行在三个具有挑战性的任务。我们的数据集为计算机视觉和机器人技术中的多感官以对象为中心的学习提供了一条有前途的道路，我们期待着OBADEFOLDER 2.0将实现的研究。鸣谢。我们感谢Sudharshan Suresh、Mark Rau、Doug James和Stephen Tian进行了有益的讨论。这项工作得到了斯坦福大学以人为中心的人工智能研究所（HAI），斯坦福大学综合设施工程中心， NSFCCRI #2120095 ，丰田研究所（ TRI ），三星， Autodesk ，亚马逊， Adobe ，谷歌和Facebook的部分支持。10607引用[1] 3D模型天堂https://3dmodelhaven.com/网站。二、三[2] 谷歌扫描对象https：//app.点火机器人。org/GoogleResearch/fuel/collections/Google%20Scanned%20Objects. 二、三[3] OpenGL。https://www.opengl.org网站。5[4] 派伦德https ： //GitHub.com/mmatl/pyrender. 5[5] FEA Abaqus等人，Dassault systems simulia公司。2021.4[6] Maria Bauza，Eric Valls，Bryan Lim，Theo Sechopoulos和Alberto Rodriguez。基于几何接触渲染的第一次触摸的触觉对象姿态估计。 arXiv 预印本 arXiv ：2012.05205，2020。7[7] Gaurav Bharaj，David IW Levin，James Tompkin，YunFei，Hanspeter Pfister，Wojciech Matusik，and ChangxiZheng.金属振子接触音的计算设计ToG，2015年。4[8] Roberto Calandra，Andrew Owens，Dinesh Jayaraman，Justin Lin，Wenzhen Yuan，Jitendra Malik，Edward HAdel-son，and Sergey Levine.不仅仅是一种感觉：学习用视觉和触觉抓住和重新抓住。RA-L，2018年。2[9] 罗伯特·卡兰德拉，安德鲁·欧文斯，马努·乌帕迪亚亚，袁文珍，贾斯汀·林，爱德华·H·阿德尔森和谢尔盖·莱文。成功的感觉：触摸感应是否有助于预测抓握结果？在CoRL，2017年。2[10] Berk Calli、Arjun Singh、Aaron Walsman、SiddharthaSrini-vasa、Pieter Abbeel和Aaron M Dollar。YCB对象和模型集：面向操作研究的公共基准。InICRA，2015.二、三[11] AngelXChang ， ThomasFunkhouser ， LeonidasGuibas，Pat Hanrahan，Qixing Huang，Zimo Li，SilvioSavarese，Manolis Savva，Shuran Song，Hao Su，et al.Shapenet：An information-rich 3d model repository. arXiv预印本arXiv：1512.03012，2015。一、二、七[12] 陈志勤和张浩。学习生成式形状建模的隐式字段。在CVPR，2019年。2[13] Christopher B Choy ， Danfei Xu ， JunYoung Gwak ，Kevin Chen，and Silvio Savarese. 3d-r2 n2：用于单视图和多视图3D对象重建的统一方法。在ECCV，2016年。7[14] Jasmine Collins，Shubham Goel，Achleshwar Luthra，Leon Xu ， Kenan Deng ， Xi Zhang ， Tomas F YagoVicente ， Himan-shu Arora ， Thomas Dideriksen ，Matthieu Guillaumin，and Jitendra Malik.Abo：真实世界3D 对象理解的数据集和基准 arXiv 预印本 arXiv ：2110.06199，2021。二、三[15] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。CVPR，2009。一、二[16] Siyuan Dong，Wenz

下载后可阅读完整内容，剩余1页未读，立即下载