跨模态预测：从视觉到触觉的显著规模差异的挑战及其解决方法

2 浏览量更新于2023-10-19 1 收藏 1.21MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1通过跨模式预测朱云珠李俊燕Russ Tedrake Antonio Torralba MIT CSAIL摘要人类感知世界使用多模态感官输入，如视觉，听觉和触觉。在这项工作中，我们研究视觉和触觉之间的跨模态连接。这个跨领域建模任务的主要挑战在于两者之间的显著规模差异：当我们的眼睛同时感知整个视觉场景时，(a) 设置(b) 样品触摸人类只能在任何给定的条件下感觉到物体的一小部分时刻. 为了连接视觉和触觉，我们引入了新的任务，即从视觉输入中合成看似合理的触觉信号，以及想象我们如何与给定触觉数据作为输入的物体进行交互为了实现我们的目标，我们首先为机器人配备视觉和触觉传感器，并收集相应的视觉和触觉图像序列的大规模数据集为了缩小规模差距，我们提出了一个新的条件对抗模型，该模型结合了规模和位置源引用(c) 视觉触觉触摸的信息。人类的知觉研究恶魔-论证了我们的模型可以从触觉数据产生逼真的视觉图像，反之亦然。最后，我们提出了关于不同系统设计的定性和定量实验结果，以及可视化我们模型的学习表示。1. 介绍人们以多模态的方式感知世界，其中视觉和触觉高度交织在一起[24，42]：当我们闭上眼睛，只用指尖感知面前的物体时，我们可以猜测它的纹理和几何形状。例如，在图1d中，人们可以基于其触觉“感觉”来大概地辨别她/他正在触摸一块精致的织物;同样地，我们可以通过看到物体来想象触摸的感觉。在图1c中，在不直接接触杯子边缘的情况下，我们可以仅通过我们的视觉感知来容易地想象触摸的锐度和硬度。这种跨模态连接的根本原因是影响两种模态的共享物理特性，因此，将期望构建可以从一种模态提取这种共享表示并将它们转移到另一种模态的计算模型在这项工作中，我们提出了一个跨模态预测系统源触摸参考(d) 触摸到视觉图1. 数据收集设置：（a）我们使用配备GelSight传感器的机器人手臂[15]来收集触觉数据，并使用网络摄像头来捕获物体交互场景的视频。(b)GelSight接触物体的插图。跨模态预测：给定所收集的视觉-触觉对，我们训练跨模态预测网络用于以下几个任务：（c）通过观看学习感觉（视觉→触摸）：从其对应的视觉输入和参考图像预测触摸信号，以及（d）通过触摸学习观看（触摸→视觉）：从触摸预测视觉。预测的触摸位置和地面实况位置（在（d）中用黄色箭头标记）共享类似的感觉。请查看我们的网站获取代码和更多结果。在视觉和触觉之间，我们的目标是通过触摸来学习看，通过看来学习感受。与其他跨模态预测问题不同，在其他跨模态预测问题中，不同域中的感觉数据在空间上大致对齐[13，1]，10609GelSight触摸图像触摸对象预测的触摸地面实况预测视力地面实况10610视觉和触摸信号之间的尺度差距是巨大的。虽然我们的视觉感知系统将整个场景作为一个整体来处理，但我们的手指在任何给定时刻都只能感知到物体的一小部分。为了研究视觉和触觉之间的联系，我们引入了两个跨模态预测任务：（1）从视觉输入合成可信的时间触觉信号，以及（2）从触觉输入预测哪个对象和哪个对象部分正被直接触摸。图1c和d显示了一些代表性结果。为了完成这些任务，我们构建了一个机器人系统来自动化收集大规模视觉触摸对的过程。如图1a所示，机器人手臂配备有称为GelSight的触觉传感器[15]。我们还建立了一个独立的网络摄像头来记录物体和手臂的视觉信息。总共，我们记录了12000次触摸195个物体，这些物体来自广泛的类别。每个触摸动作包含250帧的视频序列，产生300万个视觉和触觉配对图像。数据集的使用不限于上述两种应用。我们的模型建立在条件对抗网络上[11，13]。由于以下两个挑战，标准方法[13]在我们的任务中产生不太令人满意的结果。首先，视觉和触摸之间的尺度差距使得以前的方法[13，39]不太适合，因为它们是针对空间对齐的图像对定制的为了解决这个尺度差距，我们将触摸的尺度和位置信息纳入我们的模型，这显着改善了结果。其次，我们在GAN训练过程中遇到了严重的模式崩溃，因为无论输入如何，模型都会生成相同的输出。这是因为我们的大多数触觉数据只包含平坦区域，因为机器人手臂通常在空中或触摸无纹理表面，为了防止模式崩溃，我们采用数据重新平衡策略来帮助生成器产生不同的模式。我们提出了定性结果和定量分析来评估我们的模型。评估包括关于结果的照相现实主义的人类感知研究，以及诸如触摸位置的准确性和GelSight图像中的变形量我们还进行消融研究的替代模型的选择和目标函数。最后，我们将模型的学习表示可视化，以帮助理解它捕获了什么。2. 相关工作跨模态学习和预测人们通过许多不同的方式来理解我们的视觉世界。受此启发，许多研究人员提出从多个领域学习共享嵌入，例如单词和图像[9]，音频和视频[32，2，36]以及文本和视觉数据[33，34，1]。我们的工作主要与跨模态预测有关，其目的是预测一个领域中的数据。最近的工作已经解决了不同的预测任务例如使用视觉来预测声音[35]和为图像生成字幕[20，17，41，6]，这要归功于大规模配对的跨域数据集，这些数据集目前还不能用于视觉和触摸。我们通过机器人自动化数据收集过程来规避这一困难。视觉和触觉为了使智能机器人具有相同的触觉感知能力，不同类型的力、触觉和触觉传感器[22，23，5，16]已经在过去的几年中得到了发展几十年其中，GelSight [14，15，43]被认为是最好的高分辨率触觉传感器之一。最近，研究人员已将GelSight和其他类型的力和触觉传感器用于许多视觉和机器人应用[45，47，44，26，27，25]。Yuan等人。[46]通过融合视觉，深度和触觉传感器来研究织物的物理和材料特性。Calandra等人[3]提出了一种用于预测抓握结果的视觉-触觉模型。与之前使用视觉和触觉来改善单个任务的工作不同，在这项工作中，我们专注于几个跨模态预测任务，研究我们是否可以从另一个信号中预测一个信号。图像到图像的转换我们的模型是建立在重新在图像到图像转换[13，28，50]方面的工作，其目的是将来自一个域的输入图像转换为目标域中的其成功的关键取决于对抗训练[11，30]，其中训练器以区分生成的结果和来自目标域的真实图像。这种方法支持许多应用程序，例如从用户草图合成照片[13，38]，将夜晚更改为白天[13，51]，以及将语义布局转换为自然场景[13，39]。先前的工作通常假设输入和输出图像是几何对齐的，由于两种模态之间的巨大尺度差异，因此，我们设计目标函数和架构来避开这种规模不匹配。在第5节中，我们证明了与最近的方法相比，我们可以获得更具视觉吸引力的结果[13]。3. VisGel数据集在这里，我们描述了我们的数据收集过程，包括我们使用的触觉传感器，机器人手臂与物体交互的方式，以及包括来自广泛类别的195种数据收集设置图1a示出了我们实验中的设置。我们使用KUKA LBR iiwa工业机械臂来自动化数据收集过程。手臂配备了GelSight传感器[43]以收集原始触觉图像。我们在手臂后面的三脚架上安装了一个网络摄像头，以捕捉机器人手臂接触物体的场景视频。我们使用记录的时间戳来同步视觉和触觉图像。10611#触摸视觉-触摸帧火车10,0002,500,000测试2,000500,000(a) 训练对象和已知的测试对象(b) 看不见的测试对象表1. VisGel数据集的统计数据。我们使用一个摄像机和触觉传感器来收集一个大规模的同步视频的机器人手臂与家居物品的互动。其表面法线大多垂直于桌子。触摸方向很重要，因为它允许机器人手臂图2. 对象集。这里我们展示了训练中使用的对象集和测试。该数据集包括从食品、工具、厨房用品到织物和文具的各种对象。GelSight传感器GelSight传感器[14，15，43]是一种光学触觉传感器，其以非常高的空间分辨率测量接触表面的纹理和几何形状[15]。传感器的表面是涂有反射膜的柔软弹性体，在接触时会变形为物体的形状，传感面积约为1. 5 cm ×1。5厘米这个弹性体是一个普通的相机，变形的凝胶彩色LED从不同方向照亮凝胶，产生三通道表面正常图像（图1b）。GelSight还使用膜上的标记并记录标记移动的流场原始触觉数据的2D图像格式允许我们使用标准卷积神经网络（CNN）[21]来处理和提取触觉信息。图1c和d示出了收集的原始触觉数据的几个示例对象数据集图2显示了使用的所有195个对象在我们的研究中。为了收集这样一组不同的对象，我们从Yale-CMU-Berkeley（YCB）数据集开始[4]，这是一个广泛用于机器人操作研究的标准日常生活对象数据集我们使用了45个具有各种形状，纹理，重量，大小和刚度的对象。我们丢弃剩下的25个小对象（例如，塑料螺母），因为从摄像机的角度看它们被机器人臂遮挡。为了进一步增加对象的多样性，我们获得了另外150种新的消费产品，其中包括YCB数据集中的类别（即，食品项目、工具项目、形状项目、任务项目和厨房项目）以及新的类别，例如织物和文具。我们在训练中使用了165个物体30个已知物体和30个新物体。每个场景包含4×10个随机放置的对象，这些对象有时会相互重叠。由于两个原因，任意位置处的随机触摸可能是次优的。首先，机器人手臂通常只能接触桌子。第二，手臂可能会接触到不希望的方向或意外-在不移动物体的情况下牢牢地按压物体。数据集统计我们收集了195个物体的同步触觉图像和RGB图像表1显示了训练和测试数据集的基本统计数据。据我们所知，这是最大的视觉-触觉数据集。4. 跨模态预测我们提出了一种跨模态预测方法，用于从触摸预测视觉，反之亦然。首先，我们在第4.1节中描述了基于条件GAN的基本方法[13]。我们进一步提高了我们的预测结果的准确性和质量，在第4.2节中为我们的任务量身定制了三个修改。我们首先将触摸的规模和位置然后，我们使用数据重新平衡机制来增加结果的多样性。最后，我们进一步提高时间的连贯性和准确性在第4.3节中，我们描述了我们的训练过程以及网络设计的细节。4.1. 条件gan我们的方法建立在pix2pix方法[13]上，这是一种最近提出的用于图像到图像翻译的通用条件GANs框架。在视觉-触摸跨模态预测的上下文中，生成器G将视觉或触觉图像X作为输入，并在另一个域中产生输出图像，其中y=G（X）。鉴别器D观察输入图像x和输出结果y： D（x，y）→[0，1]。在训练中，D被训练来揭示合成的结果和真实图像，而生成器G的目标是产生能够欺骗CXD的真实感结果。我们用视觉-触觉图像对{（x，y）}训练模型。在触觉→视觉的任务中，x是触摸图像，y是对应的视觉图像。的同样的事情适用于视觉→触摸方向，即，（x，y）=（视觉图像，触摸图像）。条件GAN可以通过以下最小-最大目标进行优化：移动物体，使GelSight传感器无法G=arg min maxLGAN （G，D）+λL1（G）（1）G D捕捉任何触觉信号为解决上述问题，为了生成更好的触摸建议，我们首先使用名为ElasticFusion 的实时 SLAM 系统重建场景的 3D 点云[40]。然后，我们随机采样触摸区域，其中，对抗性损失LGAN（G，D）被导出为：E（x，y）[logD（x，y）]+Ex[log（1−D（x，G（x））]，（2）10612视觉触摸参考视觉触摸参考视觉触摸参考Visio nsequencetPred ictedtouchuytVisio nsequencet假真正的触摸ytVisio nsequencet真图3. 我们的跨模态预测模型概述。在这里，我们展示了我们的愿景→触摸模型。生成器G由两个ResNet编码器和一个解码器r组成。它将参考视觉和触摸图像r以及一系列帧xt作为输入，并预测触觉信号yt作为输出。参考图像和时间信息都有助于改善结果。我们的机器人学习区分生成的触觉信号yt和真实的触觉数据yt。对于uch→vision，我们切换输入和输出模态，并在相同的框架下训练模型。其中生成器G努力使上述目标最小化，而不是生成器G努力使其最大化，我们将E x，E x表示为p data（x）和E（x，y），E（x，y）表示为p data（x，y）。为了简洁。除了GAN损失之外，我们还添加了一个预测结果和地面实况图像之间的直接回归L1这种损失已被证明有助于稳定先前工作中的GAN训练[13]：L1（G）=E（x，y）||y − G（x）||第一章（三）4.2. 提高照片真实感和准确性我们首先尝试了上述条件GANs框架。不幸的是，如图4所示，合成的结果远远不能令人满意，往往看起来不切实际，并遭受严重的视觉伪影。此外，生成的结果与输入信号不匹配。针对上述问题，我们对基本算法进行了一些改进，显著提高了结果的质量以及输入输出对之间的匹配。我们首先将触觉和视觉参考图像同时提供给生成器和模拟器，这样模型只需要学习对跨模态变化而不是整个信号进行建模。其次，我们在训练中使用数据驱动的数据最后，我们从输入视频的多个相邻帧而不是单独的当前帧中提取信息，产生时间相干输出。使用参考触觉和视觉图像正如我们之前提到的，触摸信号和视觉图像之间的比例是巨大的，因为GelSight传感器只能接触w.r.t.视觉形象。这使得视觉和触觉之间的跨模态预测非常具有挑战性。关于触摸到视觉，我们需要解决一个几乎不可能的“外推”问题，从一个小补丁到整个图像。从视觉到触摸，模型必须首先定位触摸的位置，然后推断触摸区域的材料和几何形状。图4显示了第4.1节中描述的条件GANs模型产生的一些结果，其中没有使用参考由于自遮挡和大尺度差异，结果的低质量并不奇怪。我们通过为我们的系统提供参考触觉和视觉图像来回避这个困难，如图1c和d所示参考视觉图像捕获原始场景，而没有任何机器人-对象交互。对于视觉到触摸方向，当机器人手臂操作时，我们的模型可以简单地将当前帧与其参考图像进行比较，并轻松识别触摸的位置和规模。对于触摸到视觉的方向，参考视觉图像可以告诉我们的模型原始场景，我们的模型只需要预测触摸的位置并使机器人手臂产生幻觉，而无需从头开始渲染整个场景。参考触觉图像在传感器未接触任何物体时捕获触觉响应，这可以帮助系统校准触觉输入，因为不同的GelSight传感器具有不同的照明分布和黑点图案。特别地，我们将视觉和触觉参考图像r=（xref，yref）两者馈送到生成器G和判别器D。由于参考图像和输出通常具有共同的低级特征，因此我们在解码器中的编码器卷积层和转置卷积层之间引入跳过连接[37，12跳过链接ResNet编码器解码器ResNet编码器DD10613WW（一）输入视觉地面实况触摸无参考文献（b）第（1）款输入触摸地面实况视觉无参考文献图4. 使用参考图像。使用/不使用参考图像的定性结果我们用参考图像训练的模型会产生更具视觉吸引力的图像。数据再平衡在我们记录的数据中，大约60%的时间，机器人手臂在空中没有接触任何物体。这导致了一个巨大的数据不平衡问题，其中超过一半的触觉数据只有近乎平坦的响应，没有任何纹理或几何形状。这种高度不平衡的数据集在GAN训练期间导致严重的模型崩溃[10]。为了解决这个问题，我们应用了广泛用于分类任务的数据重新平衡技术[8，48]。特别是，在训练过程中，我们根据每个数据对（xt，r，yt）的稀有度得分wt重新加权每个数据对的损失。在实践中，我们计算基于ad-hoc度量的稀有度分数我们首先计算当前触觉数据xt与其参考触觉数据xref之间的残差图像xt-xref。然后我们模拟-求差分图像上拉普拉斯导数的方差。为了提高IO效率，我们不重新加权，而是用概率对训练数据对（xt，r，yt）进行采样LGAN（G，D）+λL1（G），其中LGAN（G，D）如下：E（x<$t，r，yt）[logD（x<$t，r，yt）]+ E（x<$t，r）[log（1−D（x<$t，r，yt）]，（四）其中，G和D都将时间数据x′t和参考图像r作为输入。类似地，回归损失L1（G）可以计算为：L1（G）=E（x<$t，r，yt）p ||yt−yt||1（5）图3显示了一个输入-输出组合示例，其中网络将一系列视觉图像和相应的参考作为输入，合成触觉预测作为输出。相同的框架可以应用于触觉→视觉方向也是如此。4.3. 实现细节网络架构我们使用编码器-解码器架构为我们的发电机。对于编码器，我们使用两个ResNet18模型[12]将输入图像x和参考触觉和视觉图像r分别编码为512维潜向量我们将来自两个编码器的两个向量连接成一个1024维向量，并将其馈送到包含5个标准步幅卷积层的解码器。由于输出结果看起来接近参考图像之一，我们在编码器中的参考分支的卷积层和解码器中的跨越卷积层之间添加了一些跳过连接。对于卷积层，我们使用具有多个卷积层的标准ConvNets请在我们的补充材料中找到更多的建筑细节。训练我们使用Adam solver [ 18 ]训练模型，学习率为0。0002.对于L1损失，我们设置λ=10不bility_bility_weight_t不. 我们将得到的数据分布表示为pW。我们使用LSGAN损失[29]而不是标准GAN [11]更稳定的训练，如在以前的工作[50，39]。图5显示了一些定性结果，证明了通过使用数据重新平衡进行改进。我们在第5节中的评估也显示了数据重新平衡的有效性。我们发现我们的初始结果看起来相当真实，但预测的输出序列和输入序列通常不同步（图7）。为了解决这个时间失配问题，除了其当前帧之外，我们还使用输入信号的多个实际上，我们每2帧采样5个连续帧在特定时刻t，x<$t={xt−4，xt−2，xt，xt+2，xt+4}。为了减少数据冗余，我们只使用灰度图像并将参考图像保留为RGB。我们的完整模型图3显示了我们最终的跨模态预测模型的概述。生成器G 采用输入数据x<$t={xt−4 ，xt−2，xt，xt+2，xt+4}以及参考视觉和触觉图像r=（xref，yref），并在target域中的时刻t产生输出图像y<$t=G（x<$t，r）我们扩展了minimax目标（等式1）我们应用标准的数据增强技术[19]，包括随机裁剪和稍微扰动输入图像的亮度，对比度，饱和度和色调。5. 实验我们使用VisGel数据集评估我们的方法在视觉和触觉之间的跨模态预测我们报告了多个评估预测不同方面的指标。当从视觉预测触摸时，我们使用AMT测量（1）感知现实主义：结果是否看起来真实，（2）接触时刻：我们的模型是否可以预测GelSight传感器是否与物体接触，以及（3）标记的变形：我们的模型能否追踪膜的变形关于触摸→视觉方向，我们使用（1）视觉现实主义来评估我们的模型通过AMT和（2）触觉：预测的触摸位置是否与地面实况位置共享类似的感觉。我们还在补充中包含了关于完整参考指标的评估。请在我们的网站上找到我们的代码、数据和更多结果。10614（一）（b）第（1）款视觉输入触摸参考pix2pixpix2pix w/我们的w/o我们的w/o我们地面实况时间时间再平衡（c）第（1）款（d）其他事项触摸输入视觉参考pix2pixpix2pix w/我们的w/o我们监督地面实况时间时间预测图5. 示例跨模态预测结果。（a）和（b）显示了我们的模型和基线的视觉→触摸预测的两个例子。(c)以及（d）示出触摸→视觉方向。在这两种情况下，我们的结果看起来既逼真又与地面真实目标图像在视觉上相似。在（c）和（d）中，我们的模型在没有地面真实位置注释的情况下训练，可以准确地预测触摸位置，与完全监督的预测方法相当。看不见的物体方法标记的Turkers %标记的Turkers %表2. Vision2Touch AMT“真实与虚假”测试。与pix2pix [13]和我们的基线相比，我们的方法可以合成更真实的触觉信号，无论是对于看到的还是新的物体。我们将参考图像提供给所有基线，因为它们对于处理尺度差异至关重要（图4）。5.1. 视觉→触觉在这个实验中，我们比较了我们的方法与各种基线。我们首先运行训练好的模型来逐帧生成Gel-Sight输出，然后将相邻的帧连接在一起形成视频。每个视频包含64个连续帧的一个动作。一个理想的模型应该产生一个感知现实的和时间相干输出。此外，当人类观察这种物理交互时，我们可以大致推断接触的瞬间以及施加在触摸上的力;因此，我们也想评估我们的模型对相互作用的理解。特别是，我们评估我们的模型是否可以预测接触的时刻以及标记网格的变形。感知现实主义（AMT）与RMS或SSIM等指标相比，人类主观评级已被证明是图像合成任务的更有意义的指标[48，13我们遵循与Zhang et al.[48]第48话真正的亚马逊机械土耳其人（AMT）上的假强迫选择测试。特别是，我们向参与者提供地面真实触觉视频和预测的触觉结果以及视觉输入。我们问哪种触觉视频更好地对应于输入的视觉信号。由于大多数人可能不熟悉触觉数据，我们首先用5个典型的地面真实视觉-触摸视频对和详细的说明来教育参与者。我们总共收集了1250个结果的8000个判断表2显示，我们的完整方法可以在可见对象（不同触摸）和不可见对象上优于pix2pix [13]以及其他设计选择接触时刻GelSight标记字段上的变形指示GelSight传感器是否以及何时接触表面。我们评估我们的系统通过测量它可以预测接触的时刻相对于地面真实数据从触觉传感器。我们跟踪GelSight标记并计算每个标记的平均L2距离对于每个触摸事件，我们将最大变形距离表示为dmax，将最小变形表示为dmin，然后我们将截止阈值设置为r· （ dmax-dmin ）+dmin，其中r设置为0。6在我们的案例中我们将最左边和最右边的截止时间点分别标记为tl和tr房房pix2pix [13]28.09%21.74%[13]第十三话35.02%27.70%我们的无颞叶41.44%31.60%我们的无再平衡39.95%34.86%我们46.63%38.22%10615LRLR（c）第（1）款帧索引让我们的真理扎根我们的w/o时间我们的不带再平衡（一）（一）（b）第（1）款图6. Vision 2 Touch-定量结果。顶部：检测接触时刻的错误。我们的方法通常表现最好。时间线索的使用可以显着提高我们的模型的性能底部：平均标记变形的错误我们的方法仍然是最有效的。类似地，我们将地面真实截止时间计算为tgt，tgt;则该事件的接触时刻（b）第（1）款图7. Vision 2 Touch-检测接触的时刻。我们显示了标记更高的变形意味着物体与更大的力接触上一篇：三个典型案例，其中(a)所有方法都可以推断接触时刻，（b）方法确定为e接触为|t l— t gt|+的|t r— tgt|.没有时间线索就无法捕捉到接触的瞬间，如图6a所示，没有时间限制的方法提示由于时间未对准而产生大的误差。与此同时，我们的模型对可见物体的效果要好于对不可见物体的效果，这与经验观察相吻合，即如果我们以前与物体进行过交互，人类可以更好地预测触摸结果。我们还展示了一些随时间变化的变形曲线。图7a示出了其中所有方法在检测接触的地面实况时刻中表现良好的情况。图7b示出了一个示例，其中没有时间线索的模型图7c显示了另一种常见的情况，其中通过没有时间线索的方法预测的接触时刻偏离了地面实况。图7显示了几个地面实况和预测帧。正如预期的那样，单帧方法无法准确预测接触力矩。跟踪标记在本节中，我们通过比较预测的变形与地面真实变形来评估模型的能力。我们计算在地面实况和生成的触摸图像中的每个对应标记之间的平均L2距离图6b显示了单帧模型的表现最差，因为它错过了重要的时间线索，这使得很难（c）没有时间线索的方法产生未对准的结果。下图：我们展示了案例（c）中的几个视觉和触摸帧。我们的模型与时间线索可以更准确地预测GelSight标记的运动以红色放大，以便更好地可视化。推断力和滑动等信息。可视化学习的表示我们使用最近的网络解释方法[49]可视化学习的表示，该方法可以突出显示重要的图像区域以进行最终决策（图8a和b）。许多有意义的轻拍出现，如手臂在空中盘旋或触摸平面和尖锐的边缘。这一结果意味着我们的代表在两种模式中学习共享信息。请查看我们的补充材料以获得更多的可视化。5.2. 触摸→视觉我们也可以从触摸到视觉-通过给模型一个参考视觉图像和触觉信号，模型能想象它在触摸什么吗？如果传感器不与任何东西接触，则不可能定位GelSight;因此，我们只包括传感器接触物体的视觉-触摸对模型应根据触摸图像的几何提示触觉不同的区域和物体可以刺激类似的触觉。例如，我们的手指我们的，不含时间地面实况变形比例我们愿景10616看不见的物体（一）方法标记的Turkers %感觉类似标记的Turkers %感觉类似（b）第（1）款（c）第（1）款pix2pix [13] 44.52% 25.21%pix2pix w/temporal 53.27% 35.45%我们的无颞叶81.31% 78.40%我们的89.20% 83.44%监督预测90.37% 85.29%表3. Touch2Vision我们的自我监督方法显著优于基线。准确性与使用地面实况注释训练的完全监督预测方法相当。看不见的物体方法标记的Turkers %标记的Turkers %图8. 使用Zhou et al.[49]（a）和（b）可视化我们视觉→触觉模型的两个内部单元。它们都突出显示了GelSight的位置，但分别侧重于锐利边缘和平坦表面（c）和（d）可视化我们的触觉→视觉模型的内部单元。他们专注于不同的几何图案。如果我们触摸平面上的不同区域或沿着同一锋利的边缘，可能会有相同的感觉。因此，给定触觉输入，要求模型预测与地面实况完全相同的触摸位置是不现实的只要模型可以预测与地面真实位置感觉相同的触摸位置，它仍然是有效的预测。为了量化这一点，我们显示了预测的视觉图像以及地面真实视觉图像。然后，我们询问人类参与者这两个触摸位置是否感觉相似。我们报告了每种方法超过400张图像的平均精度（200个已知对象，200个未知对象），表3显示了不同方法的性能。我们的完整方法可以产生更合理的触摸位置。我们还将我们的方法与由人类提供的外部监督训练的基线进行了具体来说，我们在1,000张图像上手工标记GelSight的位置，并训练堆叠沙漏网络[31]来预测可能的触摸位置。定性和定量比较见图5和表3。我们的自我监督方法与完全监督方法相当。感知现实主义（AMT）由于人类参与者很难想象一个机器人操作场景，只有一个单一的触觉数据，我们只评估结果的质量，而不显示触觉输入。特别是，我们将每张图像显示1秒钟，然后AMT参与者有无限的时间来决定哪一张是假的。每个HIT的前10张图像用于练习，我们给AMT参与者正确的答案。与会者自我监督房房pix2pix [13]25.80%百分之二十六点一三[13]第十三话23.61%百分之十九点六七10617表4. Touch2Vision AMT虽然pix2pix在看不见的物体上获得了最高分，但由于模式崩溃，它总是产生相同的图像。图5显示了一个典型的折叠模式，其中pix2pix总是将手臂放置在图像的右上角。更多的定性结果可以在我们的补充材料中找到。然后被要求完成接下来的40个试验。我们总共收集了1000个结果的8000个表4显示了每种方法的欺骗率我们注意到pix2pix [13]的结果遭受严重的模式崩溃并且总是产生相同的图像，尽管根据AMT参与者的说法，它们看起来很逼真。查看我们的网站以获得更详细的比较。我们还观察到，时间线索并不总是有助于提高质量的触摸→视觉方向的结果，因为我们只考虑触摸时刻的视觉-触摸对。可视化学习的表示的学习表征的可视化（图8c和d）显示了关注不同几何线索的两个单元。请参阅我们的补充材料了解更多示例。6. 讨论在这项工作中，我们提出用条件对抗网络来建立视觉和触觉之间的联系。人类在与世界互动时严重依赖这两种感觉方式。我们的模型可以为已知对象和未知对象产生有希望的跨模态预测结果。未来，视觉-触摸跨模态连接可能有助于下游视觉和机器人应用，例如低光环境中的物体识别和抓取以及物理场景理解。确认这项工作得到了以下方面的支持： DraperLaboratoryIncorporated ，申办者奖号 SC001-000001002;美国国家航空航天局-约翰逊航天中心，赞助商奖号。NNX16AC49A。10618引用[1] 尤瑟夫·艾塔尔，路易斯·卡斯特雷洪，卡尔·冯德里克，哈米德·皮尔西-阿瓦什，安东尼奥·托拉尔巴。跨模态场景网络。PAMI，2017年。一、二[2] 尤瑟夫 · 艾塔卡尔 · 冯德里克安东尼奥 · 托拉尔巴Soundnet：从未标记的视频中学习声音表示。在NIPS，2016年。2[3] 罗伯特·卡兰德拉，安德鲁·欧文斯，马努·乌帕迪亚亚，袁文珍，贾斯汀·林，爱德华·H·阿德尔森和谢尔盖·莱文。成功的感觉：触摸感应是否有助于预测抓握结果？在PMLR，2017年。2[4] Berk Calli ， Arjun Singh ， James Bruce ， AaronWalsman，Kurt Konolige，Siddhartha Srinivasa，PieterAbbeel和Aaron M Dollar。用于机器人操作研究的耶鲁-卡内基梅隆大学数据集。国际机器人研究杂志，2017年。3[5] Mark R Cutkosky ， Robert D Howe ， and William RProvancher. 力和触觉传感器。 Springer Handbook ofRobotics，2008。2[6] JeffreyDonahue 、 LisaAnneHendricks 、 SergioGuadarrama、MarcusRohrbach、SubhashiniVenugopalan、Kate Saenko和Trevor Darrell。用于视觉识别和描述的长期递归卷积网络CVPR，2015。2[7] Siyuan Dong，Wenzhen Yuan，Edward Adelson.改进的gelsight 触觉传感器用于测量几何形状和滑动。在IROS，2017年。7[8] Clement Farabet，Camille Couprie，Laurent Najman，andYann LeCun.学习用于场景标注的分层特征PAMI，2013年。5[9] Andrea Frome ， Greg S Corrado ， Jon Shlens ， SamyBengio，Jeff Dean，Tomas Mikolov，et al. Devise：一个深度视觉语义嵌入模型。在NIPS，2013年。2[10] 伊恩·古德费洛。Nips 2016教程：生成对抗网络。arXiv预印本arXiv：1701.00160，2016年。5[11] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成对抗网络。在NIPS，2014。二、五[12] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习在CVPR，2016年。四、五[13] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and Alexei AEfros.使用条件对抗网络的图像到图像翻译。在CVPR，2017年。一二三四六八[14] Micah K Johnson和Edward H Adelson。用于测量表面纹理和形状的逆行传感CVPR，2009。二、三[15] Micah K Johnson ， Forrester Cole ， Alvin Raj ， andEdward H Adelson. 使用弹性体传感器的微几何捕获InSIGGRAPH，2011. 一、二、三[16] ZhanatKappassov，Juan-AntonioCorrales，andVe'roniquePerdereau.机器人灵巧手的触觉感知机器人和自动化系统，2015年。2[17] Andrej Karpathy和李飞飞。用于生成图像描述的深度视觉语义 CVPR，2015。 210619[18] 迪德里克·金马和吉米·巴。Adam：随机最佳化的方法。见ICLR，2014年。5[19] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的Im-agenet分类NIPS，2012年。5[20] Girish Kulkarni、Visruth Premraj 、Vicente Ordonez、Sagnik Dhar 、 Siming Li 、 Yejin Choi 、 Alexander CBerg和Tamara L Berg。Babytalk：理解和生成简单的图像描述。PAMI，2013年。2[21] YannLeCun，Le'onBottou，YoshuaBengio和PatrickHaffner。基于梯度的学习应用于文档识别。IEEE会议录，1998。3[22] 苏珊·J·莱德曼和罗伯塔·L·克拉茨基。手部动作：触觉物体识别的窗口。认知心理学，1987年。2[23] 苏珊·J·莱德曼和罗伯塔·L·克拉茨基。触觉感知：一个教程。注意，知觉，心理物理学，2009年。2[24] 苏珊·J·莱德曼乔治·索恩和比尔·琼斯通过视觉和触觉感知纹理：多维度和感觉整合。实验心理学杂志《人类感知与表现》，1986年。1[25] Michelle A Lee，Yuke Zhu，Krishnan Srinivasan，ParthShah，Silvio Savarese，Li Fei-Fei，Animesh Garg，andJeannette Bohg.理解视觉和触觉：多模态表示的自监督学习，用于接触丰富的任务。在ICRA，2019年。2[26] Rui Li和Edward H Adelson。使用gelsight传感器感测和识别表面纹理。CVPR，2013。2[27] Rui Li ， Robert Platt ， Wenzhen Yuan ， Andreas tenPas ， Nathan Roscup ， Mandayam A Srinivasan ， andEdward Adelson.使用gelsight触觉传感器对小零件进行定位和操作InIROS，2014. 2[28] Ming-Yu Liu，Thomas Breuel，and Jan Kautz.无监督图像到图像翻译网络。在NIPS，2017年。2[29] Xudong Mao ， Qing Li ， Haoran Xie ， Raymond YKLau，Zhen Wang，and Stephen Paul Smolley.最小二乘生成对抗网络。InICCV，2017. 5[30] Mehdi Mirza和Simon Osindero条件生成对抗网。arXiv预印本arXiv：1411.1784，2014。2[31] Alejandro Newell，Kaiyu Yang，and Jia Deng. 用于人体姿态估计的堆叠沙漏网络。在ECCV，2016年。8[32] Jiquan Ngiam ， Aditya Khosla ， Mingyu Kim ， JuhanNam，Honglak Lee，and Andrew Y Ng.多模态深度学习。InICML，2011. 2[33] Mohammad Norouzi、Tomas Mikolov、Samy Bengio、Yoram Singer、Jonathon Shlens、Andrea Frome、GregS Corrado和Jeffrey Dean。基于语义嵌入凸组合的零次学习。见ICLR，2014年。2[34] MayuOtani，YutaNakashima，EsaRahtu ，JanneHeikaaa和Naokazu Yokoya。通过网络图像搜索学习视频和句子的联合表示

下载后可阅读完整内容，剩余1页未读，立即下载