ShapeCodes：基于3D形状信息的无监督特征学习

4 浏览量更新于2023-10-14 收藏 1.19MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

ShapeCodes：通过提升视图到Viewgrids的Dinesh Jayaraman1，2，Ruohan Gao2，Kristen Grauman3，21加州大学伯克利分校2UT奥斯汀3Facebook AI研究抽象。我们引入了一种无监督的特征学习方法，将3D形状信息嵌入到单视图图像表示中。其主要思想是一个自我监督的训练目标，只给单个2D图像要求对象的所有不可见视图可从学习的特征预测。我们将这个想法实现为编码器-解码器卷积神经网络。该网络将未知类别和未知视点的输入图像映射到潜在空间，从该潜在空间中，该网络可以“提升”该图像到包含从所有视角示出对象的视图网格。我们的类不可知的训练过程鼓励表示捕捉基本形状原语和语义规律的数据驱动的方式-没有手动语义标签。我们对两个广泛使用的形状数据集的结果显示：1）我们的一个proror1介绍该领域通过从由对象类别标记的监督图像数据集学习图像特征，在对象识别方面取得了巨大进展[20，23，37]。Metodstat a kl e n k lengday的chall e ngi ng i n g i n i n e n k然而，这个公式也有局限性：人工监督是出了名的昂贵，不是所有的对象都是由它们的纹理很好地定义的，并且（隐式地）学习视点特定的类别模型是麻烦的，如果不是不可扩展的。将学习到的表示限制在2D域是一个基本的障碍。虽然视觉感知在很大程度上依赖于2D观察，但世界上的物体本质上是三维实体。事实上，认知心理学家发现了强有力的证据，证明从2D视图推断3D几何形状是人类实践中的一种实用技能。例如，Shepard和同事们观察到，在他们的小型“人工智能”工作中，如果两个视图描绘相同的抽象3D形状花费的时间是线性的2D.贾亚拉曼河Gao和K. 格劳曼训练任务：栅格重建“形状代码”测试任务：类别识别Fig. 1.通过将视图提升到 “ 视图网格 ” 来学习ShapeCodes。鉴于未看到的对象（可能来自未看到的类别）的2D视图，我们的深度网络学习产生视图网格中的剩余视图。这种自监督学习产生了用于识别的特征空间。它嵌入了关于超越对象类别边界的3D形状规则的有价值的线索。与这些视图之间的3D角旋转成比例[55]。这样的发现表明，人类可以从个体2D视图明确地构建3D形状的心理表征，并且进一步地，心理旋转这样的表征的动作对于配准对象视图是不可或缺的，并且通过扩展，对于对象识别是不可或缺的。受此前提的启发，我们提出了一种无监督的图像特征提取方法，该方法可以将2D视图“平移”到3D图像中。具体地说，我们将特征学习任务看作是一次性的视图网格预测从单个输入视图。一个视图网格-一个由视点索引的视图数组-作为一个隐式的基于图像的3D形状模型。我们实现我们的想法作为编码器-解码器深度卷积神经网络（CNN）。给定从任意视点的任何对象的一个2D视图，所提出的训练目标学习潜在空间，从该潜在空间中，对象的图像在任意旋转之后是可再现的。参见图1。我们采用这种简单的“S h a p e C o d e“n -编码来产生用于识别的重要的是，我们的方法是类不可知的：它学习一个单一的模型，以适应在训练过程中看到的所有对象，从而鼓励表示捕捉基本的形状特征，语义特征和阴影线索。此外，该方法是自我监督的：它旨在学习对对象感知一般有用的表示，但没有手动语义标签。我们设想建议的训练阶段，如果一个具体的视觉代理从头开始学习视觉感知检查大量的对象。它可以将相机移动到每个对象周围的任意视点，以获得自己的监督。在测试时，它必须只能观察一个视图并从该视图中幻觉出所有相机位移的效果。在这样做的过程中，它确保了对象的表示，从纯粹的基于2D视图的识别出发，本质上是形状感知的。我们讨论的优势viewgrids显式体素/点云在第二节。第3.1条我们的工作涉及到越来越多的自我监督表示学习[1，13，18，27，29，40，46，47，60，69]，其中“预处理”是因为没有手动标签被施加到特征学习器来灌输对识别有用的视觉概念。我们在这个领域追求一个新的维度-灌输关于形状的3D推理。推断新视点的想法还涉及基于CNN的视图合成和3D重建[8，14，19，36，52，59，62，67，70]中的工作。然而，我们的意图和假设是完全不同的。与我们的方法不同，以前的工作将重建作为最终任务本身（而不是识别），构建火车车厢ShapeCodes：通过提升视图到Viewgrids的3类别特定模型（例如，一个模型用于椅子，另一个模型用于汽车），并且依赖于用大量人工监督预先训练的网络。我们在两个广泛使用的对象/形状数据集上的实验验证了：（1）我们的方法成功地学习了基于图像的类不可知的形状重建，甚至推广到在训练过程中没有看到的类别。(2)在该过程中学习的表示很好地转移到对象识别，优于几种流行的无监督特征学习方法。我们的研究结果建立了明确针对3D理解的承诺，作为学习有用的图像表示的一种手段。2相关工作如果对具有大型标记数据集的C NN的“预注册”进行升级是有用的[20]，则会带来很高的监督成本并且与原始标记类别不同，其对任务的可转移性存在限制。作为一种竞争日益激烈的方法，研究人员研究了无监督特征学习[1，4，9，13，18，27，29，40，46，47，60，61，69]。一种新兴的方法是将“预存”t作为k s，其中，两个w或k值都是监督固有自由的对象。特别是，任务是预测上下文布局[13，46，47]，相机自运动[1，27，48]，立体声视差[17]、彩色化[40]或时间缓慢[18，29，60]同时嵌入对识别有用的基本视觉概念。我们的方法分享这种自我监督的精神，可以被视为一种新的方式来迫使视觉学习者拿起基本线索。特别是，我们的方法将这一系列方法扩展到多视图3D数据，解决了以下问题：学习从2D推断3D有助于执行对象识别吗？虽然先前的工作考虑了3D自运动[1，27]，但是它仅限于通过从视频序列中“不受限制”地观看新的对3D世界的贫乏的一瞥。因此，我们的方法利用完整3D对象形状的视图网格表示我们的经验使我们能够在全球范围内提供支持，从而降低我们的广告成本。3D 对象的识别尽管近年来2D对象模型主导识别（例如，正如在PASCAL、COCO、ImageNet等挑战中所证明的那样最近在大规模数据收集方面的贡献正在促进这种进步[5，64，65]，研究人员正在开发模型以有效地集成体积和多视图方法[49，58]，以及将3D属性（姿势，遮挡边界）与2D识别方案相关的新想法主动识别方法的原因有关的信息价值看不见的意见，一个对象[28，30，34，51，53，64]。几何视图合成多年来，新的视图合成是用几何来解决的。在基于图像的渲染中，不是显式地构建3D模型，而是直接从多个2D视图生成新视图[35]，其中方法根据投影或几何关系建立对应关系并扭曲像素。4D.贾亚拉曼河Gao和K. 格劳曼多视图几何[2，54]。对象形状的基于图像的模型（隐式地）与轮廓图像相交以雕刻视觉外壳[39，45]。学习2D-3D关系最近，人们对学习视图与其底层3D形状之间的连接感兴趣我们主要从两方面处理这个问题：基于图像和体积。基于图像的方法将新视图推断为指定视点的函数。给定两个2D视图，他们学习预测中间视图[12，16，24，33]。在仅给定单个视图的情况下，它们学习根据新的相机姿势来渲染观察到的对象，例如，通过使用深度逆图形网络[38]、张量完成[7]、递归编码器-解码器网络[31，68]、外观流[70]或将部分RGBD转换为全景图[57]进行解纠缠。访问合成对象模型对于训练生成CNN特别有价值[14]。体积方法替代地将视图直接映射到对象的3D表示，诸如体素占用网格或点云，例如，使用3D递归网络[8]，直接预测3D点[15]，或生成嵌入[19]。虽然大多数努力研究合成3D对象模型（例如，CAD数据集），最近的工作也冒险进入现实世界的自然图像[36]。除了体素之外，推断深度图[59]或关键点图[62]提供了3D结构的有价值的表示。我们的工作建立在学习2D-3D关系方面的这些进步，以及我们基于特定卷积自动编码器（CAE）的流水线（Sec. 3.2)与像素输出任务的事实上的标准架构相呼应[38，44，59，67，69]。然而，我们的目标与上述任何一个都不同尽管现有的方法开发了类别特定的模型（例如，椅子，汽车，面孔），并寻求高质量的图像/体素作为最终产品，我们训练了一个类不可知模型，并寻求一个可转移的图像表示用于识别。3方法我们的目标是学习一种表示，该表示将单个图像从任意（未知）视点和任意的空间提升到对象的3D形状可预测的空间-其ShapeCode。这个任务的“精神旋转”的对象从其观察到的观点，以任意的相对姿态需要从单一的2D视图，这是有价值的识别3D理解。通过对一次性形状重建任务进行训练，我们的方法旨在学习嵌入这种3D理解的图像表示，并将所得嵌入应用于单视图识别任务。3.1任务设置：一次性视图栅格预测在训练过程中，我们首先从每个对象周围的观察球体均匀地采样视图。为此，我们通过选择M个相机方位角的集合Saz={360°/M，720°/M，. . .360°}围绕对象。然后，我们在sSel={0°，±180°/（N−1），±360°/（N−1），···±90°}上选择N个相机的集合S el。我们现在采样对应于笛卡尔坐标的每个对象的所有M×N视图ShapeCodes：通过提升视图到Viewgrids的5方位角和仰角位置的乘积S=Saz×Sel：{y（θi）：θi∈S}。4注意，每个θi是仰角-方位角对，并且表示θ i中的一个位置。观察网格S。现在，利用这些均匀采样的视图，一次性视图网格预测任务可以公式化如下。假设观察到的视图处于从我们的相机位置的观看网格集合S采样的未知相机位置θ系统必须学习预测位置θ′=θ+δi处的视图y（θ′），对于所有δi∈S。由于在整个观看范围内均匀采样，θ′本身也在我们的原始视点集合S中，因此我们已经获得了对我们的系统必须学会预测的所有视图的监督。为什么选择viewgrids？viewgrid表示优于其他更明确的3D表示，如点云[15]和体素网格[8]。首先，视图网格图像可以通过对象操作或检查由具体化的代理直接获取，而体素网格和点云需要来自大型图像集合的噪声3D推断。虽然我们的实验杠杆年龄逼真的3D对象CAD模型，以渲染的需求（第二。4），它实际上比需要体素超视的现有工作更少地依赖于CAD数据。最终，我们设想训练发生在一个物理场景中，其中一个具体的代理建立其视觉表示通过检查各种对象。通过移动到对象周围的任意视点，它获得了自我监督以理解3D形状。最后，viewgrids促进了缺失数据的表示-如果某些地面实况视图对于特定对象不可用，则我们的训练损失（下面的等式1中）所需的唯一更改将是丢弃对应于未见过视图的项。3.2网络架构和培训为了解决一次性视图网格预测任务，我们采用了深度前馈神经网络。我们的网络架构自然分为四个具有不同功能的模块化子网络：仰角传感器、图像传感器、融合器，以及最后的解码器。高程传感器、图像传感器和融合模块一起处理观察和本体感受相机高程信息，以产生编码完整对象模型的单个特征向量。该向量空间构成了学习的ShapeCode表示。仅在训练期间，解码器模块通过一系列学习的去卷积来处理该代码，以在其输出处产生期望的基于图像的视图网格重构。编码器：首先，图像传感器模块通过一系列卷积和全连接层将观察到的视图嵌入到向量中。并行地，通过仰角传感器模块处理相机仰角。请注意，对象的姿态并不完全已知-虽然相机仰角可以从重力线索确定，但无法确定方位角。图像传感器模块和高程传感器模块的输出被级联并通过融合模块，该融合模块联合地处理它们的信息以4省略对象索引以简化符号。6D.贾亚拉曼河Gao和K. 格劳曼ShapeCode特征提取器Viewgrid解码器（仅用于训练）图二.我们系统的架构。对象的单个视图（左上）和对应的视图（左下）在“图像或”和“视图或”神经元模型期间被表示为独立的，这是为了进一步地执行输入的半实物表示，其嵌入与观察到的视图对齐的3D对象形状。这现在在解卷积解码器中处理。在训练期间，输出是表示相对于观察到的视图系统地移位的视点的图像序列。在测试期间，新的2D图像被提升到ShapeCode表示中以执行识别。由于D=256-D ime n iona lot i n a l o t u t简而言之，编码器的功能是将2D视图提升为完整3D对象形状的单个矢量表示。解码器：为了学习具有此属性的表示，编码器的输出通过另一个完全连接的层进行处理，以增加其维度，然后重新塑造成一系列小的4× 4特征图。然后通过一系列学习的去卷积层对这些映射进行迭代上采样。解码器模块的最终输出是MN个输出映射的序列{y∈i：i=1，. . . M×N}个图像，并且具有输入图像。图中的SeMN映射反映了系统输出的视图级，其中计算了传输损耗。完整的架构，连同更详细的规范，是可视化的图2。我们的卷积编码器-解码器[44]神经网络架构类似于[31，59，67，70]。然而，如上所述，我们工作的主要重点非常不同。我们认为一次性重建是一种路径有用的图像表示，提升2D视图到3D，而现有的工作解决图像/体素生成任务本身，并相应地建立类别特定的模型。通过设计，无论是在训练还是测试期间，我们的方法都不能利用关于其检查的对象的绝对取向的因此，有一个重要的问题要处理-大规模视图组中的独立视图与系统输出映射之间的对应关系是什么？在测试时，系统将从未知视点（仰角已知，方位角未知）呈现新对象的单个视图。那么它如何知道它必须生成的视图网格的正确视点坐标呢？相反，它产生与方位角坐标原点处的观察视点对齐的视图网格，类似于[31]。一个给定的视图网格的方位角旋转都形成一个等价类。换句话说，循环移位256128（M个方位角）x（N个仰64816324481632漏漏漏ReLUReLU ReLU ReLU13232图像传感器32157642563 2563融合解码器输出视图网格5532输入视图5515max-pool（3x3，stride2）557ReLU平均池（3x3，ReLUfc1（完全）连接的平均池）（3x3）ReLU16高度传感器256 256FC2FC3ReLU形状代码ShapeCodes：通过提升视图到Viewgrids的7图2中的7×12的视网通过一列将产生一个不同的，但完全有效的相同飞机对象的视网表示。为了优化整个流水线，我们回归到可用于每个训练对象的目标视图网格y由于我们的输出viewgrid是由观察到的视图对齐的，因此我们必须在执行回归之前相应地移动目标viewgrid这导致以下最小化目标：MΣ×NL=yi−y（θ+δi）2，（1）i=1其中我们省略了对训练集的求和以保持符号简单。 Eachoutputtapyyisthust e penizedfordevionfraspicr el adicradicr ad i e d i a d i e e d i d i a di e d i e d i这种一次性重建任务强制编码器必须从仅观察一个2D视图来捕获完整[31]在不同的背景下提出了类似的重建损失;他们通过训练选择最适合重建整个对象和场景的视图序列来学习探索性动作策略。最近针对图像合成的工作受益于使用对抗（GAN）损失[21]。GAN损失有助于在图像补丁中实现正确的低级统计，提高照片真实感[26]。我们不是将真实图像合成本身作为目标，而是将形状重建作为特征学习的目标，因此我们使用标准的2损失。在特征转移期间，我们完全丢弃解码器（参见第二节）。3.3）。有关优化的详细信息，请参见Supp。3.3用于对象识别的在训练过程中，目标是最小化视图网格误差，学习潜在空间，从中可以预测未看到的视图。然后，为了将我们的网络应用于新的示例，感兴趣的表示是由编码器的融合模块-ShapeCode输出的相同的潜在空间。本着自我监督表征学习的精神，我们假设以这种方式训练的特征将促进高水平的视觉识别任务。这是由于为了有效地解决重建任务，网络必须隐式地学习将对象的2D视图提升到推断的3D形状。一个完整的3D形状表示具有许多有吸引力的属性，通用的视觉任务。例如，姿势不变性对于识别是期望的;虽然在2D视图中是困难的，但是在3D表示中变得微不足道，因为不同的姿势对应于3D空间中的简单变换。此外，ShapeCode提供了与自运动变换等变的表示，已知其有利于识别并且在监督网络中自然出现[10，24，32，41]。假设视觉代理已经通过检查3D形状学习了如上用于视图网格预测的模型。现在，它提出了一个新的识别任务，封装的类标记的训练图像的数据集，从一个不相交的对象类别集。我们的目标是将在单视图重建任务中获得的3D知识具体来说，对于每一个新8D.贾亚拉曼河Gao和K. 格劳曼类标记的图像，我们直接表示它的特征空间表示的中间融合层在网络训练重建。然后，这些特征被输入到针对分类任务训练的通用机器学习流水线。回想一下，图2中的融合模块的输出（其是fc3特征向量）被训练以对3D形状进行编码在我们的实验中，我们测试的有用性的功能，从FC3和它的两个前一层，FC2和FC1，解决对象分类和检索任务。4实验首先，我们量化了类不可知的viewgrid完成的性能（第4.2节）。其次，我们评估学习的对象识别特征（第4.3节）。4.1数据集原则上，我们的自监督学习方法可以利用由代理系统地检查其环境中的对象所获得的视点校准的视图网格。在我们的实验中，我们从合成对象形状的数据集生成这样的viewgrids。我们在两个这样的公开数据集上测试我们的方法：[65]和ShapeNet [6]。这两个数据集都提供了大量手动生成的3D模型，并带有类别标签。对于每个对象模型，我们从以对象为中心的观察球体上均匀采样的视点网格渲染32×32灰度视图。ModelNet [65]从Web下载3D CAD模型，然后手动对齐和分类。ModelNet有两个标准子集：ModelNet-10和ModelNet-40，分别有10个和40个对象类。ModelNet-40中的40个类包括ModelNet-10中的10个类。我们使用10个ModelNet-10类作为不可见类，其他30个ModelNet-40类作为可见类。我们使用标准的训练-测试分割，并留出20%的可见类测试集模型作为验证数据。ModelNet是最近3D对象分类工作中使用最广泛的数据集[28，30，34，50，58，63，65]。ShapeNet [6]包含大量的模型，这些模型被组织成WordNet分类法下的语义类别。所有模型都一致地与固定的规范视点对齐。我们使用标准的ShapeNetCore-v2子集，其中包含55个不同的类别。其中，我们选择30个最大的类别作为可见类别，其余25个是不可见的。我们使用标准的训练-测试分割。此外，由于不同类别的对象实例数量差异很大，因此我们将seen-class训练集中的每个类别限制为500个模型，以防止训练被少数几个非常常见的类别的模型所主导。表1（左）显示了两个数据集的更多细节。4.2类别无关的一次性视图网格预测ShapeCodes：通过提升视图到Viewgrids的92i=1首先，我们训练和测试我们的viewgrid预测方法对于这两个数据集，系统都是在seen-classes训练集上训练的。随后在可见和不可见类测试集上测试训练的模型。评估度量是推断的视图网格与Ground Truth Viewgrid。我们比较几个基线：– 平均视图：该基线简单地预测，在视图网格中的每个视点处，在所有视点的训练集中观察到的所有视图的平均值。– 平均视图网格：ModelNet和ShapeNet都具有一致对齐的模型，因此存在可以通过访问该规范对齐信息的方法利用的显著偏差。该基线旨在通过在视图网格中的每个视点处预测在该视点处的训练集中观察到的所有视图的平均值来利用该偏差。请注意，我们的系统无法访问此比对信息，因此无法利用此偏差。– GT级平均视图：该基线表示具有完美对象分类的模型。给定来自某个地面实况类别的任意对象，该基线预测在每个视点处在该类别的训练集中观察到的所有视图的平均值。– GT class avg viewgrid：此基线与GT category avg view相同，但也具有规范对齐的知识，因此它会生成训练集中该类别中所有模型的每个视点处观察到的视图的平均值– 我们的w CA：该基线是我们的方法，但是用关于视图网格的规范对齐（“CA”）的知识的（不真实的）添加来训练。它ΣM×NreplacesEq（1）tostointeadoptimizethelos：L=（yi−y（δi）），sotthat现在，系统的一个输出映射被指定为在规范的视图网格轴中进行特定化。这些实验中的一个关键问题是，我们训练的类不可知模型是否可以泛化，以预测训练期间从未见过的类中的对象的未见过视图。5表1（rig ht）显示了这些结果。“平均视图”和“G T c a t e t e g y a v gi ew g i d”分别通过“平均视图”和“G T c a t e g y a v g view”上的大型图像来实现。这表明viewgrid对齐偏差可能很有用用于在ModelNet和ShapeNet中重建。然而，回想一下，虽然这些基线可以利用（不切实际的）偏差，但我们的方法不能;它只知道由重力感应到的高度。我们的方法是经过训练的，可以生成视图在与观察到的视图的各种相对位移处，即，其目标是在其原点具有当前视图的视图网格。因此它不能学习记忆和对齐平均视图网格。尽管如此，我们的方法优于基线的大利润率。它甚至超过了它的变体“我们的w。在数据中使用比对偏差的“CA”。为什么是CA它经过训练，可以使用正是由于这个原因，不清楚如何映射类别特定的现有视图合成模型[14]中的椅子，[70]中的椅子/汽车）到我们的阶级不可知论环境中，以便他们能够公平竞争。10D.贾亚拉曼河Gao和K. 格劳曼数据集→ ModelNetShapeNetMethods↓/Data→seenunseenseenunseen平均浏览量13.51415.95614.793 16.394平均值vgrid 12.95415.72514.334 15.942GT级平均视图11.006-12.279-GT级avg vgrid 8.891-9.374-我们的w10.440美元5.879 9.021我们的3.718 7.0054.656 6.811表1.左：数据集统计。右：视图栅格完成的定量结果。结果报告为MSE×1000，图像标准化为位于[0， 1]，对于可见和未可见分类。最好的地方是。Per-Categoryresultsarew n inS upp.图3.第三章。单个视图的形状重建（最右边的示例来自ShapeNet，另外两个来自ModelNet）。在每个面板中，地面实况视图网格被示出在顶部，所记录的视图被标记为具有图像块，并且其他视图被示出在底部。(Best在高分辨率的pdf中看到。）有关这些示例的描述，请参见第4.2节中的文本典型比对（CA）。CA是松散地手动定义的，通常是数据集中的类特定约定（例如，所有轿厢的0 °方位角和仰角（可通过“打开”视图）。“我们的世界CA通常不具有CA的任何看不见的类别，其中它表现得在具有强比对偏差的可见类上，CA使得更容易捕获类别范围的信息（例如，如果类别是可识别的，则产生其对应的平均对准的训练视图网格作为输出）。然而，更难以捕获实例特定的细节，因为网络不仅必须在精神上旋转输入视图，而且还必须在精神上捕获特定的细节。图3显示了由我们的方法生成的示例视图网格。在最左边的面板中，它从一个具有挑战性的角度重建了一个对象形状，有效地利用了ModelNet中的语义结构在中心面板中，系统观察到模糊视点，其可以是相同方位角处的四个不同视图中的任何一个为了应对这种模糊性，它试图稳妥行事数据集→Methods↓/Data→ModelNet看不见的ShapeNet看不见凸轮高程0、±30°、±60°、±90°0、±30°、±60°凸轮方位角0，30 °，60 °，. . . ，330 °0.45 ° ±315°视图大小32×3232×32类别30103025训练模型5,852-11,532-ShapeCodes：通过提升视图到Viewgrids的11图4.第一章三个类别的ModelNet重建MSE，以观察到的视图为条件（以高分辨率的pdf格式查看较黄的颜色对应于高MSE（差），而较蓝的颜色对应于低MSE（好）。参见第4.2节中的文本。通过对可能的结果求平均值来最小化MSE损失，从而产生模糊视图。在最右边的面板中，我们的方法显示了从简单对象的阴影线索推断形状的能力。图4检查哪些视图对于单次视图网格预测是有用的对于所示的三个类别中的每一个，MSE的热图覆盖在该类别的平均视图网格上。淡黄色（高误差）水平和垂直条纹对应的角度，只揭示了一小部分的对象面。顶视图和底视图始终是没有信息的，因为非常不同的形状可以具有非常相似的头顶投影。中间行（0° elev.）存储和输出通常不利于“人工计划”，因为人工计划会导致生成非常少的参见补充为了更多这些趋势与哪些视图对于3D理解而言信息量最大的直观概念相一致，并且作为我们的方法学习有意义的线索以推断看不见的视图的证据。总的来说，重建结果表明，我们的方法成功地完全学习了一个统一的类别不可知的视图网格重建模型，该模型不仅处理来自其训练集中表示的大量通用类别的对象，而且还处理来自不可见类别的对象。4.3用于对象识别的我们现在验证我们的关键声明：所提升的特征-尽管在没有手动标记的情况下学习-是用于识别的有用的视觉表示。首先，如第3.3节所述，我们从网络中的各个层（图2中的fc1，fc2，fc3）中提取特征，并将其用作训练用于对单个对象视图进行分类的分类器的输入。虽然任何分类器都是可能的，但在[18，32，60]之后，我们采用了一个简单的k-最近邻分类器，这使得底层表示的能力最透明。我们在ModelNet和ShapeNet上的可见和不可见类子集上运行在每种情况下，我们在训练集中每个类使用1000个样本，并设置k=5。我们将我们的功能与各种基线进行比较：– DrLIM [22]：一种常用的无监督特征学习方法。在训练期间，DrLIM通过将相同训练对象的视图的特征彼此靠近地映射，并且将不同训练对象的视图的特征彼此远离地推动来学习不变特征空间。12D.贾亚拉曼河Gao和K. 格劳曼4– 自动编码器[3、25、44]：训练网络从任意视点观察输入视图，并产生与其输出完全相同的视图（与我们产生完整视图网格的方法相比，包括来自其他视点的视图）。对于这种方法，我们使用与我们相同的架构，除了在最后一个去卷积层，在那里，而不是产生N×M输出映射，它预测只有一个映射对应于观察到的视图本身。– 上下文[47]：利用空间概念的流行范例的代表[13，46，47]。这两个字让人觉得“不可能”圆顶式去除的任意形状的掩模，最多覆盖32× 32中的1个对象视图，从而学习对象部分的空间配置我们适应公共代码[47]。– Egomotion [1]：与我们的方法一样，该基线也利用相机运动来学习无监督表示。虽然我们的方法被训练来预测给定起始视图的所有旋转视图，[1]训练来预测给定图像对之间的相机旋转。我们训练模型来预测8类旋转，即，给定视图的视图网格中的紧邻视点（3×3邻域）。– PointSetNet [15]：此方法从以下位置重建对象形状点云：单个图像，加上地面实况分割掩模。我们从他们提供的在ShapeNet上训练的编码器网络由于分割掩模在特征评估设置中不可用，因此我们将其设置为整个图像。– 3D-R2N2 [8]：该方法从单个视图构造体素网格。我们从他们提供的在ShapeNet上训练的编码器网络中提取特征。– VGG[56]：虽然我们的重点是无监督特征学习，但这个基线代表了当前的标准监督特征，在数百万个手动标记的图像上进行了训练。我们使用在ImageNet上训练的VGG-16架构[56]，并从224×224图像中提取fc 6特征。– 形状分类器：为了提供在域内数据上训练的监督基线我们使用每个所见类1k个标记图像来训练用于单视图3D形状分类的网络。该架构与我们的方法的编码器保持相同，并且从相同的层中提取特征。– 像素：对于此基线，32× 32图像被矢量化并直接用作特征向量。– 随机权重：一个与我们的网络具有相同的架构，并使用相同的方案初始化的网络用于提取特征，无需训练。“R and om w e i g h t s”、“D r LIM”、“E gomot i on”和“Auto e n c o d e r”表示将使用特定的存档技术来保存我们的文件（参见补充）。对于“约束”，我们可以在我们的3D数据上关闭所有的空间结构和检索。对于“VGG”、“P 〇 int S et Ne t”和“3D-R2N2”，我们使用所有的改进的模型。回想一下，我们的模型经过训练，可以观察相机仰角和视图，如图2所示。虽然这在现实世界中是合理的，其中代理可以从重力线索知道其相机仰角，为了与我们的基线进行公平比较，我们在评估我们的无监督特征时省略本体感受输入。相反，我们为所有视图输入相机仰角0°ShapeCodes：通过提升视图到Viewgrids的13表 2. 单视图识别准确度（%），使用我们模型的特征与 ModelNet 和 ShapeNet 数据集上的基线。对于每种方法，我们报告了其跨层（fc1，fc2，fc3）的最佳精度结果是根据在表象学习过程中看到和看不到的类来划分的我们的方法始终优于其他无监督表示，甚至与使用1M ImageNet标签预训练的现成VGG特征竞争良好表2显示了两个数据集的结果。由于fc1、fc2和fc3的趋势都非常相似，因此对于每种方法，我们报告了其最佳性能水平的准确度（参见性能水平）。至关重要的是，无论要识别的对象是否在viewgrid预测网络的训练期间被看到，我们的优势都是存在的。在这些列表中，所有更新的列表都包含“Pixels”和“Random w e i gh t s” ，如所示。这两个更新的日志记录以 “E gomot i on”[ 1] 和 “DrLIM”[ 22]为基础。记录“E gomot i on”与我们的方法特别相关，因为它还可以访问相对相机运动信息。然而，虽然他们的方法仅看到在训练时间从视图网格采样的相邻视图对，但是我们的方法学习推断每个时间段的完整视图网格，从而更有效地使用该方法。“自动编码”功能非常有效。在视图内的空间上下文处的 “ C0n t e x t” [ 47] 区域位置，尽管对于 2D 对象外观是成功的 [47 ] ，但是对于 3D 形状是弱学习信号。我们的方法优于PointSetNet [15]和3D-R2 N2 [8]的事实表明，最好训练生成隐式3D视图网格，而不是显式3D体素或点云。虽然我们为此目的将它们作为基线，但我们强调，这些论文[8，15]中的目标是重建-而不是重新定义-以实现更快的速度，并通过所有的时间或初始化来实现所选择的方法。我们认为，这种情况部分是由于域移位：这两种方法的 ModelNet 性能较弱，因为它们是在ShapeNet上训练的。此外，作者仅在具有特定姿势（仰角20°）的对象上训练PointSetNet，并且它利用在该设置中不可用的地面实况这两种方法也都是在与我们的方法有很小差异的对象视图上进行训练的（见补充）。最后，表 2 显示，在大多数情况下，我们的自监督表示优于ImageNet预训练的监督VGG特征请注意，合成形状数据集上的识别任务通常使用ImageNet预训练的神经网络[28，30，34，58]执行。然而，Im-之间的域间隙数据集→方法↓/课程→ModelNet看不见ShapeNet看不见机会3.310.03.34.0VGG [56]（监督）66.064.955.953.7形状分类器（监督）62.668.152.849.9像素52.560.743.144.9随机权重49.659.439.639.7DrLIM [22]57.464.947.547.2自动编码器[3，25，44]52.560.844.346.0背景[47]52.660.546.246.5自我运动[1]56.165.049.049.7PointSetNet [15]35.538.828.632.23D-R2N2 [8]49.455.539.041.2我们的w CA64.069.656.954.5我们65.2 71.2 57.7 54.814D.贾亚拉曼河Gao和K. 格劳曼48888888888888222228881224222828681222882822222222288822222282888818882222222884222222222282328882222222888888822 888888288882884448888888882282288888888888888888882182822218888246222222222828828882812188822222822222222222222284111188888288882222828888882282222222288882288822842122222222212222222222222162222888888822221818822482842222222221222828881222222222222222222288888882228222122848611133300053335111431001310012005004442108612622282222228811104228882221118224221228888888828118122288881882828888118841222288828128212034222262224688882222286222288222222222822888888171840666610003111021010101110333201600001110000000340006666660666662666636666682432242888842222222242262222257545188888848888122882882228881288882888199448989828892841222822222289182812222333622338883666666663111111110001301011110101001111013000000031660547466616066666666228622822222822222282888418888481815842248829999999994429882224212386666666666666663331111101101110111010000313063003331315110306666666366666634188262812014861687122222224818888888888889998999188888818888881128888288188882881288832428294994492222829222222222222222210033111111110001111011101030000001630410111101110310001311111010110010100111030003 4662226681 06222222282222882828188828284881818228821422222678889892828948882882828888888881888813113111010101100011100011

下载后可阅读完整内容，剩余1页未读，立即下载