织物的视觉和触觉特性:深度学习技术结合织物图像和触摸数据，预测织物的感觉

98 浏览量更新于2023-10-16 收藏 2.9MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1连接外观和感觉：将物理材料的视觉和触觉特性联系起来袁文珍1张，王少雄2张，董思远1张，Edward Adelson11麻省理工学院，2清华大学{袁文智，王世新，徐东，易德森}@ mit.edu摘要对于与物理世界交互的机器来说，它们必须理解它们遇到的物体和材料的物理特性。我们使用织物作为具有丰富机械特性的可变形材料的示例。薄的柔性织物在悬垂时往往看起来与重的硬织物不同。触摸时感觉也不一样。使用118个织物样品的集合，我们捕获了悬垂织物的颜色和深度图像以及来自高分辨率触摸传感器的触觉数据。然后，我们试图通过在三种模式中联合训练CNN来将来自视觉和触觉的信息通过CNN，每个输入，无论模态如何，都会生成记录织物物理属性的嵌入向量通过比较嵌入向量，我们的系统能够查看织物图像并预测它的感觉，反之亦然。我们还表明，在视觉和触摸数据上联合训练的系统可以优于仅在视觉数据上训练的类似系统时，纯粹与视觉输入进行测试。1. 介绍通过使用深度学习和卷积神经网络（CNN），计算机视觉的成功大大加速。然而，主要的成功是被动任务;例如，给计算机为了让机器更积极地与物理世界中的对象交互，它必须了解它们的物理属性。例如，视觉可以用来预测物体在被触摸时的感觉。图1（a）示出了类似构造的丝巾和羊毛围巾。丝巾更轻、更薄、更有弹性，而羊毛围巾更重、更厚、更硬。观看图像的人类观察者可以容易地看到差异。此外，人们可以想象触摸*同等贡献图1.人类可以从窗帘推断出织物的特性（a）一条形状相似的丝巾和一条羊毛围巾。(b)从圆柱体上悬垂的不同织物的图片;（c）当在自然状态下按压织物时，来自GelSight的触觉抓住两条围巾;它们在触摸时感觉不同，并且在抓握时变形不同。一块织物具有一定的机械参数。在宏观层面上，这些可以包括例如描述弯曲、拉伸、压缩、粗糙度等的Kawa- bata值。织物的机械参数使其响应于操纵而呈现某些形状。这些形状导致观察到的图像。同时，织物的力学参数产生一定范围的触觉交互。触摸时，丝巾会感觉光滑，容易变形;羊毛围巾的手感会很不一样。我们可以把织物的物理参数看作是影响视觉和触觉信号过程的潜在变量对于人类来说，这组量化的物理参数更好地代表了织物-人类同一块织物可能会有不同的外观或触摸感觉，但仍然被认为是同一块织物，因为它们共享相同的参数集。另一方面，一些织物可以被认为是相似的，因为它们的参数55805581图2. 左：GelSight传感器。中间：一个人按下凝胶-视线在织物的平折，并获得一系列触觉图像（如右图所示）。图3. 织物数据的三种模态。对于视觉信息，织物在自然状态下从圆柱体悬垂;对于触觉信息，人手持GelSight传感器并按压织物上的褶皱。具有接近的值，而其他织物是不同的，因为它们的参数是遥远的。这些基本参数从未被直接观察到。相反，它们通过产生一定范围的感官数据来间接地表现自己。最终的结果是，织物的外观与其感觉有关，尽管图像形成的过程与触觉交互的过程完全不同。在本文中，我们分别为给定的织物生成视觉和触觉数据，并尝试通过自动生成的嵌入向量来学习关联，该嵌入向量应该只与织物的物理参数相关首先，我们将织物覆盖在圆柱形柱子上，以观察它形成的形状每次我们重复悬垂我们得到一些-什么不同的形状。其次，我们用高分辨率的触摸传感器GelSight触摸织物，它可以捕捉织物表面的细节。我们按压织物的褶皱，以便收集有关其厚度和刚度以及质地的信息。对于一块织物，不管感觉形态和偶尔的外观如何，嵌入向量预计是相同的。图2（左）示出了GelSight传感器[12，13]。它采用一块透明的弹性体板，上面覆盖着反光的膜的该设备包含一个小型摄像机和照明系统，并使用光学方法来测量膜压在表面上时的变形。对于本实验，我们将传感器压在放在桌子上的一块织物上，如图2（中）所示。我们有意在织物中引入折叠，以便GelSight图像可以显示织物在按压时如何弯曲。输出图像序列如图2（右）所示。颜色对应于变化的表面法线。印在膜上的网格点会因接触力而变形。为了收集织物的图像，我们选择了一个标准的排列，可以显示一些机械特性。图3（a）示出了覆盖在圆柱体上的织物的RGB图像。图3（b）显示了同样的织物，第二次悬垂。图像是不同的，但都传达了这种织物的机械性能。图3（c）和（d）中示出了深度图像，其在没有光学复杂性的情况下分离形状。图3（e）和（f）示出了当GelSight传感器被（用手）压靠在相同织物的样品上时的GelSight传感器的输出。每个图像都是在织物及其折叠处于不同位置和取向的情况下捕获的。图3（g）-（l）示出了不同织物样品的相同图像。第二种织物比第一种织物更重更厚，这导致了视觉和触觉领域的不同外观。我们收集了100个织物样品用于训练，18个织物样品用于测试。对于每个织物样品，我们将其覆盖在圆柱形柱上10次，产生10个颜色和深度图像。对于每个样品，我们还使用GelSight传感器生成了10个触觉图像。我们的主要任务是：给定两个输入图像-触觉图像的颜色、深度，确定它们是否由相同的织物生成。我们设计了多个神经网络架构进行跨模态训练，并比较了它们的性能。我们还比较了在一个或两个模态上联合训练时在单个模态上的识别性能，发现来自另一个模态的额外信息会提高单模态匹配的性能。2. 相关工作织物的视觉感知研究[2，8]表明人类使用视觉线索来推断不同的材料特性。具体而言，Xiaoet al.[24]研究了人对织物的感知及其影响因素，采用触觉传感作为基础事实来测量视觉材料感知。他们表明，人类的匹配精度很高，而织物的颜色和3D褶皱对人类的视觉感知最重要。计算机视觉和图形学的研究人员一直在尝试跟踪或表示织物或衣服，但与此5582图4. 本文介绍了联合神经网络的结构。三种模式：深度图像、彩色图像和触摸图像（GelSight图像）相关联。(a)跨模态网络：来自三种模态的数据通过联合网络中的三个独立CNN（AlexNet [15]），并由嵌入E表示，这是网络的fc7层。然后我们比较距离D3 =在3个嵌入之间的E 1 − E2 + E 1 − E 3 + E 3 − E2。对于同一个织物，三个嵌入应该是接近和D 3应该很小。(b)具有织物分类子任务的辅助网络。织物的簇是根据人的标签制成的。(c)多输入网络，触摸嵌入来自3个独立的GelSight按压图像。刚性为了追踪衣服的确切形状，White等人。[23]在织物或衣服上制作密集的图案，并使用多个摄像机跟踪它们的运动，从而重建衣服的3D形状。Han等人[11]用2层模型表示布料形状：一个表示一般形状，另一个表示折叠形状，其通过阴影恢复形状方法测量。另一些研究试图用物理参数来表示织物，并从视觉上估计参数。Baht等人[4]采用由密度、弯曲刚度、拉伸刚度、阻尼阻力和摩擦力等物理特性组成的模型来描述和模拟服装。他们通过比较真实衣服的Bouman等人[5]当织物被悬挂并暴露于不同的风时，使用手工制作的特征直接从织物运动的视频测量织物特性（刚度和密度）使用GelSight进行触觉感知作为最好的高分辨率触觉传感器，GelSight擅长测量物体表面的精细结构。传感器输出的触觉信号是以图像的形式出现的，因此可以直接应用计算机视觉算法对触觉信号进行处理。Li和Adelson[16]表明，GelSight在根据纹理对材料进行分类方面效果很好。此外，GelSight显示出通过与物体的物理相互作用来获得物体的物理特性的潜力。Yuan等[26，27]按下传感器软物体，并从GelSight的图像序列中估计物体联合神经网络联合神经网络是将两个或多个独立的网络连接起来以获得不同输入的网络架构。Chopra等人[7]首先提出了一种暹罗神经网络（SNN），它从单模态输入中学习低维嵌入向量。SNN有两个相同的神经网络，具有共享的权重，并输出嵌入向量与两个输入的距离在训练中，网络使用基于能量的对比损失[10]来最小化嵌入与相似输入对的距离，同时使不相似输入对的嵌入距离大于裕度。SNN已应用于人脸验证[7]和句子嵌入[19]。近年来，人们一直在使用联合神经网络进行跨模态学习-主要是2种模态。传统的方法是从一种模态中提取特征，并将另一种模态投影到该特征空间。弗罗姆等人[9]提出了铰链秩损失将视觉数据转换为文本。Li等[18]通过将生成的图像与来自对象的形状图像的训练嵌入相关联来学习联合嵌入。Owens等人[21]结合CNN和LSTM来预测从视频中发出声音的物体。他们首先提取声音特征，然后通过神经网络从图像中回归特征。他们的其他工作[22]提出了一种CNN，它通过从环境声音中提取的特征来学习视觉表示。最近的一些其他工作一直试图将来自不同模式的输入投射到共享嵌入中5583图5.基于人类标签的织物聚类括号中的数字表示簇中的织物编号空间Otani等人[20]提出了一种网络，可以同时学习视频和句子的跨模态表示。除了这些双峰网络，Aytaretal.[3]提出了多模态神经网络，学习与场景相关的两种以上模态的跨模态表示将更多的模态投射到共享空间使学习过程更加困难，但可以带来更多的信息。3. 数据集我们收集了一个织物感知数据集，包括视觉图像（颜色和深度），GelSight视频和人类对属性的标记。该数据集包含118种面料，包括服装面料如阔幅布、涤纶、针织、缎纹;床上用品织物，如毛圈、羊毛;和功能性织物，如粗麻布、窗帘布、油布（如图3所示）。大约60%的fab-有的是单一而不同的颜色，有的是随意的颜色图案。每一件织物都是近似的，外形尺寸1m×1m。一些织物是由研究[24]和[5]的研究人员善意提供的。数据集可在http://people.csail.mit.edu/yuan_wz/fabricdata/GelFabric.tar.gz上查阅。视觉数据我们在自然状态下将织物从圆柱形柱（30.7cm高，6.3cm直径）悬垂，并拍摄它们的彩色图像和深度图像。彩色图像由佳能T2i单反相机拍摄，深度图像由Kinect One拍摄对于每种面料，我们拍摄10种不同的窗帘。触觉数据我们将触觉传感器GelSight按压在织物上，当织物放在坚硬的平面上时，从而获得用于按压过程的一系列GelSight触觉图像。我们使用的传感器是指尖GelSight设备[17]。该传感器有一个轻微的圆顶表面和18.4mm×13.8mm的视野范围。我们选择的图像分辨率为960×720。传感器上涂有黑色标记表面跟踪接触力[25]。我们收集了两种形式的触觉数据：一种是当GelSight压在单层平织物上时，另一个是“折叠数据”，当Gel-Sight被压在织物的折叠上时，如图2所示。对于每种织物，我们收集了10个熨烫样品的平面数据和15个样品的折叠数据。属性标签我们对每种织物都进行了标记，并对我们认为最重要的物理参数进行了估计，这些参数决定了织物的悬垂性和接触过程：厚度、硬度、拉伸性和密度。用直尺和刻度尺测量厚度和密度;拉伸性被粗略地估计为“不可拉伸”、“可拉伸”和“极其可拉伸”的水平;刚度由人估计：我们要求5名受试者在0到5的范围内对织物刚度进行评分（允许额外刚度的过量），并取平均值。请注意，标签不一定涵盖影响悬垂性的所有真实特性，并且值包含人为偏差，但它们可以提供方便且合理的参考。在这项工作中，我们通过对织物的物理参数使用k-均值将织物聚类为8个聚类，如图5所示。对于人类来说，同一簇中的织物将具有相对相似的属性。我们在图5中描述了每个集群的人类直观描述。4. 视觉与触觉的我们建立联合神经网络模型，将织物的视觉和触觉信息相关联。输入数据具有三种不同的模态：深度图像、彩色图像和来自GelSight的触觉图像。输入数据通过独立的CNN以形成嵌入向量E，作为织物的低维我们使用欧几里得距离D=E1−E2的和来测量两个E之间的差异，而不管输入的理想情况下，相同结构上的所有输入数据将通过网络产生相同的E，而当两个结构相似时，它们在嵌入向量E之间将具有小的距离D，并且5584两种非常不同的织物将具有大的D。我们训练了三种模式的联合CNN，并比较了不同架构的性能。图4显示了本文中的神经网络。4.1. 神经网络架构图4（a）显示了连接三种模态的基本网络。在这个网络中，建筑图像、彩色图像和GelSight图像在一个联合网络中通过三个独立的CNN。我们在这项工作中使用的CNN是AlexNet[15]，它在ImageNet上进行了预训练，我们将网络中的fc7作为em-bedding vectorE表示织物。我们使用对比损失[7]作为目标函数。用于以深度图像X1、彩色图像X2和Gel-Sight图像X3为输入组，来自三个神经网络GW1、GW2和GW3的嵌入向量可以表示为 E1=GW1 （ X1 ）、 E2=GW2 （ X2 ）和 E3=GW3（X3）。对于每个输入组，我们测量整体距离是-在嵌入向量之间，表示为D3：D3=E1−E2+E2−E3+E3−E1（1）如果X1、X2和X3来自同一织物，则Y=0;如果它们来自不同织物，则Y=1网络损耗是同样，我们设计了多输入架构，以利用来自多个印刷机的更多信息。4.2. 训练和测试我们的方法在Keras[6]中使用TensorFlow[1]后端实现。我们使用Adam[14]优化器，并在整个实验中将学习率固定为0.001。fc7之前的AlexNet参数将在训练期间固定。我们训练网络25，000次迭代，批量大小=128。在测试中，我们使用了经过训练的CNNGW1，GW2和GW3.每个输入图像，无论是深度图像、彩色图像还是GelSight图像，都经过相应的网络以产生嵌入E，作为制造的表示。对于来自相同或不同的不同输入，在模态中，我们从输入计算Es，并比较两个E之间的距离D，以决定两个输入来自相同织物的可能性。5. 实验我们将数据集中的118种织物分为训练集（100种织物）和测试集（18种织物）。从图5中的8个簇中均匀地选择18个测试织物。5.1. 从视觉推断触觉1 2 12第一个实验是挑选深度或颜色图像L（W1，W 2，Y，X，X）=（1−Y）×D3+2（二）与GelSight输入最匹配。换句话说，我们1Y×max（0，m−D3）22其中m >0是裕度（我们在实验中使用m=2）。只有当D3小于边缘半径m时，相异对才对损失函数有贡献。不同对的存在对于通过设置GWS为常数来防止D3和损耗L为零是有意义的辅助网络在辅助网络中，我们保留了基本交叉模态网络的架构，但同时使用嵌入向量E来训练织物集群的分类任务，如图4（b）所示。目的是使类似的结构通过添加超视而具有封闭的嵌入向量。聚类分类的三个交叉熵损失与对比损失（2）结合，以获得总损失。织物的集群是基于人类标签制作的，如图5所示。多输入网络在辅助网络的基础上，采用3种不同的GelSight图像作为触觉输入，构成多输入网络。3个Gel-Sight图像分别通过相同的网络GW3，生成3个fc7向量，我们进行最终的嵌入，将输入的E设为它们的元素最大值网络如图4（c）所示。的动机这种设计是，在获得对物体的确信感知之前，人类可能多次触摸物体。网络具有触摸图像和织物的一些可能的视觉外观，然后我们要求网络选择触摸织物的最可能的图像。比赛是根据来自给定Gel-Sight图像和候选图像的E之间的D。在实验中候选深度或彩色图像是来自9个随机选择的织物和来自测试集的地面实况织物的10个图像。选择过程如图6所示。我们通过比较前1个精度和前3个精度来评估模型性能：正确答案的概率在所有10个候选中排名第一，或者排名前3。对于每个网络，我们在每个织物上测试15个不同的GelSight输入图像10次，并计算平均精度。我们测试了4个网络的性能：1.交叉模态网络（图4（a）），当GelSight输入是没有褶皱的平面织物上的熨烫图像时; 2.交叉模态网络，当GelSight输入是折叠织物上的一个压榨图像时; 3.辅助网络（图4（b）），比较深度图像和GelSight的单倍，但与集群的嵌入辅助任务; 4。辅助网络将3张GelSight图像作为输入（图4（c））。测试集的前1精密度和前3精密度结果如图7所示。我们还测试了匹配其他模态的精度，5585图6.根据它们的嵌入之间的距离D，拾取GelSight输入的相应深度图像的示例在辅助网络上训练。绿色框标记地面实况。第一行显示了一个训练中的示例：一种柔软的薄缎子，其中最接近的3个例子都是缎子，最远的3个例子都是不同的面料。第二行显示了两个测试示例，在随机的10个图像集中有3个最接近的匹配和一个最远的匹配。右边的例子展示了一种柔软、轻便、灵活的羊毛，但该网络将该样本与另外两种厚而软的毯子混淆了。模型平坦交叉MDL辅助多输入Depth2Gel0.30630.42920.43180.4576Color2Gel0.26810.37420.40220.4124Depth2Color 0.41330.43290.41410.4417颜色2深度0.40500.42400.40700.4306表1. 测试集的结果：匹配其他模态的“10选1”实验的测试集上的平均前1精度。结果示于表1中。相比之下，匹配来自单一模态的数据的精度要高得多，如表2所示。从结果中可以看出，所有的网络都能比平均概率更好地预测匹配图像。从结构上看，三帧输入的辅助网络性能最好，单帧输入的辅助网络次之，普通Gel-Sight印刷机的基本模型最差。触摸图像与深度图像的匹配优于与彩色图像的匹配。匹配实验的结果表明，神经网络能够从织物的视觉或触觉信息中自动提取与织物内在特性相关的特征。三种模态的属性是相关的，因此网络可以通过比较嵌入向量来匹配一种模态输入与另一种模态输入但是在给定的数据集中，图7. 试验结果：将深度或彩色图像候选匹配到给定GelSight输入的前1和前3精度。我们比较了四种模型：交叉模态网络，其输入为在平坦织物（表示为“平坦”）上按压的GelSight图像，交叉模态网络，辅助网络和多输入网络。（最后三个结果组基于在折叠制造上按压时的GelSight图像模型平坦交叉MDL辅助多输入Dep2Dep0.60300.62650.62240.6459Color2Color 0.79410.78310.79680.8247Gel2Gel0.80250.76720.80900.9351表2. 测试集的结果：匹配单个模态的“从10中挑选1”实验的测试集上的平均前1精度。55862图8. 织物之间的混淆矩阵“挑选可能的深度图像到给定的GelSight输入”。织物根据人体受试者进行排名，以便将类似的织物放置在一起。(a)不同网络测试结果的混淆矩阵。(b)交叉模态网络和多输入网络的训练集上的混淆矩阵，无论是在集群之间，还是在单个结构上。(c)聚类2和聚类5内的训练集中的织物上的混淆矩阵。由于深度图像的信息量较少，而且织物的形状这位我P（Etar，Ei）= 1（4）与物理性质更直接相关。结果还表明，额外的信息有助于网络更好地识别材料：模型1和模型2的比较表明，织物上的褶皱揭示了更多的属性;模型2和模型3的比较表明，在这个小数据集上，人类标签有助于提高网络性能;模型3和模型4的比较表明，提供更多的触摸信息，网络将更好地提取相关信息，并使匹配更鲁棒。5.2. 用嵌入表示织物对于每个输入图像，我们通过训练的神经网络用嵌入向量E表示它预期两个E之间的距离D测量它们源自相同织物或两个相似工厂的可能性歌词在这个实验中，我们的目的是看看E如何代表织物;换句话说，来自相同或相似织物的E是否比不同织物的E更接近。在本节中，我们继续以“在给定GelSight图像的情况下挑选可能的深度图像”的实验为了表示两个E是从相同的结构中提取，我们构建一个函数P：在这里，我们从candidate织物集合中的所有深度图像生成{Ei}。对于每个测试织物，我们计算所有可用GelSight输入图像上的P，并取其平均值。年龄，这样我们就有可能我们在图8中绘制了织物之间的平均值P的混淆矩阵。在图中，我们重新排列织物编号，以便在人类受试者认为它们相似时将织物相邻放置，因此对角线附近的亮点意味着神经网络与可能混淆人类的织物混淆。图8（a）显示了测试数据集上的混淆矩阵，它表明大多数可能的混淆发生在相似的织物之间。例如，在图6所示的示例中，第一个测试用例，网络选择了正确的候选，但是D接近第二个候选，因为两种织物是相似的针织物;在第二个文本案例中，网络预测错误，因为输入模式像是“厚、软和模糊的材料”，而最佳匹配和第二匹配具有相似的属性。一般来说，多输入网络在混淆分布上表现最好，而只有普通输入的交叉模态网络表现最差。P（E1，E2）指数.Σ−c×D（E1，E2）（三）图8（b）示出了在训练集（100个织物）中匹配Gel-Sight数据和深度图像其中 c 是一个正系数（我们将其设置为 8 。5×10−2）。对于一个给定的具有嵌入Etar的输入，以及一组具有嵌入向量{Ei}的candidates，我们将P归一化为在这里，我们比较了所有独立结构的匹配概率，以及不同聚类之间的匹配概率.这些数字表明，对于这两个网络，它们很好地区分了5587在不同的集群中的织物。即使是跨模态网络也做得很好，但它不知道训练中的聚类。但在集群内，网络可能会在结构之间混淆。图8（c）示出了集群2和集群5内的结构的混淆矩阵。第2类表示“薄、轻、硬”的织物，包含许多宽幅织物。它们看起来与人类非常相似;类似地，交叉模态网络和辅助网络使它们的嵌入向量接近，并在矩阵的左下部分显示模糊区域。而对于多输入网络，由于输入信息较多，网络能够表现出更细微的结构差异，使得混淆矩阵集中。第5组包含厚而硬的织物。类似地，多输入网络最好地减少了不同织物之间的混淆（尽管不是全部），并且嵌入向量将更好地表示织物。本节中的结果证明，所有这些因素都将提高网络表示晶圆厂的能力：触摸褶皱而不是平纹织物;包含较少偏见信息的多次按压。根据人类标签生成的聚类信息也有助于网络缩小表示属性的结构范围。5.3. 数据增强我们通过在训练过程中改变图像的色调和曝光来增强彩色图像上的数据集：我们对每个图像执行Gamma校正（范围0.5-2.0），并更改RGB通道的顺序。与所涉及的彩色图像的匹配测试产生了更好的结果，如表3所示。但是GelSight图像和深度图像之间的其他匹配测试的结果没有改变。我们在GelSight图像和深度图像上尝试了其他数据增强，包括向输入中添加噪声，并随机裁剪图像，但结果几乎没有差别。5.4. 触摸有助于视力我们发现，多通道的联合学习提高了一个通道的性能。以视觉为例，我们致力于“挑选与给定深度图像最匹配的悬垂织物的深度图像”的任务我们比较了两种网络架构的性能：一种是仅在深度图像上训练的暹罗神经网络（SNN）[7]，另一种是类似于图4（a）的跨模态网络，但只接受深度图像和GelSight图像。这两种架构是相同的，除了它们采用不同的模态作为分支。在本实验中，我们选择了100个训练织物上80%的数据作为训练集，其余20%的数据以及18个测试织物的数据作为测试集。测试结果示于表4中。如结果所示，模型交叉MDL交叉MDL(with（8月）多输入多输入(with（8月）Gel2Color0.39540.43590.43030.4937Color2Gel0.37420.40880.41240.4264Depth2Color 0.43290.46740.44170.4924颜色2深度0.42400.46070.43060.4624表3. 彩色图像上数据增强前后前1位精度的比较。模型Seen Fabrics新型面料Top1Top3Top1Top3SNN（仅深度）Cross-mdl（深度凝胶）0.4820.6080.6600.7860.5540.6060.7290.786表4. 在两个网络上进行深度到深度匹配的测试结果：仅在深度图像上训练的暹罗神经网络（SNN）[7]，以及在深度和GelSight图像上训练的交叉模态网络在这种大小有限的数据集上，触摸和深度图像的联合模型比单模态SNN模型具有更好的性能。我们假设这意味着来自一种模态的额外信息将帮助另一种模态的训练减少过拟合并找到更好的局部最小值。6. 结论在这项工作中，我们使用深度学习将视觉和触觉信息与识别织物相关联使用了三种模式：深度图像、彩色图像和Gel-Sight图像。识别更多的是估计材料的物理参数，而不是离散的标签，并且参数由自动训练的嵌入表示两个嵌入向量之间的距离显示了数据源是相同结构的可能性，或者结构的相似程度。我们比较了利用不同输入信息量的不同神经网络架构的性能，结果表明，触摸过程中织物上的褶皱，基于人类标签的假定织物簇，以及多个触摸输入，将有助于网络学习更好的嵌入向量。对单模态和双模态训练的网络的比较也表明，视觉和触觉信息的联合训练将大大提高视觉信息匹配的性能。确认作者感谢Andrew Owens、Bei Xiao、Katie Bouman和Tianfan Xue的有益讨论和建议。这项工作得到了丰田，壳牌，NTT和NSF的支持5588引用[1] M. Abadi、A.Agarwal，P.Barham，E.Brevdo，Z.陈先生，C. 西特罗湾S. Corrado，A.Davis，J.Dean，M.Devin，S.盖-马瓦特岛。Goodfellow，A.Harp，G.Irving，M.Isard，Y.贾，R. 约瑟夫·奥维茨湖Kaiser，M.Kudlur，J.L evenber g，D.伙计，R. Monga、S.穆尔，D.默里角奥拉山舒斯特J. Shlens，B.施泰纳岛 Sutskever，K.塔尔瓦尔山口塔克V. Vanhouc k e，V. Vasud ev an，F. Vi eg as，O. Vi nyals，P. 等等，M。Wattenberg，M.Wicke，Y.Yu和X.郑张量-流量：异构系统上的大规模机器学习，2015年。软件可从tensorflow.org获得。[2] E. H.阿德尔森看东西：人类和机器对材料的感知。在Photonics West 2001-electronic imaging，第1-12页国际光学与光子学学会，2001年。[3] Y. 艾塔尔湖卡斯特雷洪角 Vondrick，H. Pirsiavash，以及A. 托拉尔巴跨模态场景网络。arXiv预印本arXiv：1610.09003，2016.[4] K. S. 巴特角 D. Twigg，J. K. Hodgins，P. K. 科斯拉，Z. Pop o vi c′和S. M. 塞茨从视频中估计织物模拟在2003年ACM SIGGRAPH/Eurographics计算机动画研讨会论文集，第37-51页。欧洲制图协会，2003年。[5] K. L.布曼湾Xiao，P. Battaglia，and W. T.弗里曼。从视频中估计织物的材料属性。在 IEEE InternationalConference on Computer Vision的会议记录中，第1984-1991页[6] F.胆Kerashttps://github.com/fchollet/keras，2015.[7] S.乔普拉河Hadsell和Y.乐存。学习相似性度量有区别地，与应用到人脸验证。在2005年IEEE计算机协会计算机视觉和模式识别会议（CVPRIEEE，2005年。[8] R. W. 弗莱明材料及其特性的视觉感知视觉研究，94：62[9] A. 弗罗姆，G。S. Corrado，J.Shlens，S.Bengio，J.迪恩T. Mikolov等人Devise：一个深度的视觉语义嵌入模型。神经信息处理系统的进展，第2121-2129页，2013年[10] R. Hadsell，S.Chopra和Y.乐存。通过学习不变映射来降低维数。在2006年IEEE计算机协会计算机视觉和模式识别会议（CVPRIEEE，2006年。[11] F. Han和S.-C. 竹一个两层的布料表示和明暗恢复形状的生成模型 IEEE Transactions on Pattern Analysis andMachine Intelligence，29（7）：1230[12] M. K. Johnson和E.阿德尔森用于测量表面纹理和形状的逆行传感。在Computer Vision and Pattern Recognition（CVPR），2009 IEEE Conference on，第1070-1077页中。IEEE，2009年。[13] M. K.约翰逊，F。Cole，A. Raj和E. H.阿德尔森自然光照下的形状估计。 ACMTransactions on Graphics（TOG），第30卷，第46页。ACM，2011年。[14] D. Kingma和J. BA. Adam：一种随机优化方法。arXiv预印本arXiv：1412.6980，2014。[15] A.克里热夫斯基岛Sutskever和G. E.辛顿Imagenet分类与深度卷积神经网络。在神经信息处理系统的进展，第1097[16] R. Li和E.阿德尔森使用gelsight传感器感测和识别表面纹理。IEEE计算机视觉和模式识别会议论文集，第1241-1247页，2013年[17] R.利河，巴西-地Platt，W. Yuan、云南A. ten Pas，N.Roscup，M. A. Srinivasan和E.阿德尔森使用gelsight触觉传感器的小零件定位和操作。在Intelligent Robots andSystems（IROS 2014），2014年IEEE/RSJ国际会议上，第3988-3993页。IEEE，2014。[18] Y. Li，H.苏C. R. Qi，N. Fish，D. Cohen-Or和L.吉巴斯联合嵌入的形状和图像通过cnn图像净化。ACM Trans.Graph，5，2015.[19] J. Mueller和A. Thyagarajan。用于学习句子相似性的Siamese循环架构在第三十届AAAI人工智能会议上，2016年。[20] M. 大谷 Y. 中岛 E. 拉图 J. Heikaaa，和N. 横谷学习联合表示的视频和sentences与网络图像搜索。欧洲计算机视觉会议，第651-667页。施普林格，2016年。[21] A. Owens，P. Isola，J. McDermott，A. Torralba，E. H.Adel-son和W. T.弗里曼。视觉指示的声音。2016年6[22] A. Owens，J. Wu，J. H.麦克德莫特W. T. 弗里曼和A.托拉尔巴环境声音为视觉学习提供监督。欧洲计算机视觉，第801-816页。施普林格，2016年。[23] R. White，K. Crane和D. A.福赛斯捕获和模拟遮挡布。ACMTransactions on Graphics（TOG），第26卷，第34页。ACM，2007年。[24] B.肖，W. Bi、X. Jia，H. Wei和E. H.阿德尔森你能看到你的感觉吗？颜色和折叠性能影响织物的视觉视觉杂志，16（3）：34[25] W.元河，巴西-地Li，M. A. Srinivasan和E. H.阿德尔森用gelsight触觉传感器测量剪切和滑动。在机器人与自动化（ICRA），2015年IEEE国际会议上，第304-311页。IEEE，2015年。[26] W. Yuan，M. A. Srinivasan和E.阿德尔森用gelsight触摸传感器估计物体硬度2016年IEEE，2016.[27] W. 袁角，澳 - 地 Zhu ，中国茶青冈 A.Owens ， M.A.Srinivasan和E.阿德尔-儿子。用gelsight触摸传感器估计物体硬度。在机器人与自动化（ICRA），2017年IEEE国际会议上。IEEE，2017年。

下载后可阅读完整内容，剩余1页未读，立即下载