任意视角的物体识别：物体和视角中心表示的计算框架

174 浏览量更新于2023-10-25 收藏 13.75MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

117840使用物体和视角中心表示识别任意视角的物体0Sainan Liu Vincent Nguyen Isaac Rehg Zhuowen Tu加利福尼亚大学圣地亚哥分校0{sal131, vvn012, irehg, ztu}@ucsd.edu0摘要0在本文中，我们解决了计算机视觉中的一个重要任务：任意视角的物体识别。在训练和测试中，对于每个物体实例，我们只给出其从未知角度观察到的2D图像。我们提出了一个计算框架，通过设计物体中心和视角中心的神经网络（OVCNet）来识别从任意未知角度观察到的物体实例。OVCNet由三个分支组成，分别实现物体中心、3D视角中心和平面视角中心的识别。我们使用两个指标评估了我们提出的OVCNet，这些指标包括来自已知和新颖物体实例的未见视角。实验结果表明，OVCNet相对于经典的基于2D图像的CNN分类器、基于2D图像推断的3D物体分类器和竞争的多视图方法具有优势。它提供了一个可行和实用的计算框架，将视角依赖和视角独立的特征结合起来，用于从任意视角识别物体。01.引言物体在物理世界中是三维的，但计算机视觉中的识别任务主要在2D自然图像上进行[9]。尽管深度卷积神经网络（CNNs）[18，43，38，14，49]取得了巨大的成功，但仅在2D图像空间中表示图像的标准CNN模型往往容易受到“心理旋转”[36]的影响[3]，如图3所示。也就是说，当用有限数量的物体实例视图训练网络时，它可能很难识别来自未见视角的相同物体实例。关于物体表示有两种观点。对于生物视觉系统，认知心理学中长期存在关于物体是通过物体中心还是视角中心表示[44，13]进行编码的争论[26]。在DavidMarr的开创性视觉范式[27]中，物体识别主要以物体中心的方式进行，其中物体通过显式表示03D基元（例如圆柱体）[4]或对视角变化不变的特征[2]可以用来表示物体。然而，过去对物体中心表示的理论提出了质疑。心理物理学和计算神经学研究表明，视角中心表示[35，25，10]在物体识别中起着重要作用。0图1.问题说明。我们的任务是识别任意视角的物体。在训练和测试中，我们只看到2D图像，不知道观察角度和深度。计算机和机器视觉文献中存在着既独立于视角的[20，22]又依赖于视角的[3，1]系统的实现。物体中心的系统通常使用独立于视角（物体中心）的特征[17]来编码和存储表示，这些特征对视角变化不变。在测试时，为了与存储的特征匹配，会为查询物体计算具有独立于视角的特征，以适应新视角。而视角中心的系统则存储了一组从典型视角观察到的视角依赖特征。在测试时，会将物体实例的给定视角与保存的特征匹配到特定的视角。物体中心表示具有保持旋转不变的特征的优势，这些特征对视角变化不敏感；然而，它依赖于忠实的3D重建或通常难以从单个视图图像中获得的有效不变特征[13]。相反，视角中心表示通常117850存储对视角变化敏感的特征；视角相关特征通常很容易计算和学习。研究中也存在结合物体中心和观察者中心表示的方法[28, 5,29]。然而，在计算机视觉文献中，构建混合系统的成功有限[19]。此外，很少使用系统性的新视角评估指标来评估最新的识别系统。受物体中心和观察者中心物体识别理论[27,26]以及最近的深度学习方法[40,8]的启发，我们提出了一种新的算法：面向物体和观察者中心的神经网络（OVCNet）用于从任意视角进行物体识别。OVCNet具有几个吸引人的特点：1）它采用预训练的通用重建（GenRe）模型[51]从单视图图像重建3D图像。我们利用GenRe能够很好地推断出未见过的物体类别的形状，而无需额外的物体特定的3D形状信息。2）OVCNet由三个物体识别分支/模块组成，分别实现物体中心、3D观察者中心和平面观察者中心识别，以更好地完成任务。3）我们通过添加稀疏的观察者中心表示，通过球形CNN[8]进一步辅助物体中心子模块的特征学习。得到的OVCNet是一个集成的框架，可以从任意视角学习视角独立和视角相关的特征，并且可以识别来自已见（熟悉）和未见物体实例的新视角。在认知心理学中，Marr最初提出了物体识别的物体中心和观察者中心表示的定义[27]。此后，[13, 26, 26,44]提供了进一步的解释，强调观察者中心表示捕捉特定视角的形状，而物体中心表示表示内在的3D形状。受到这些认知心理学发现的启发，我们对网络设计中的物体中心模块提出了以下要求：1）基于3D模型（例如体积、网格、点云或球形映射）；2）旋转不变性；3）无需姿态对齐。在本文中，我们在表1中描述了一些方法[46, 31, 41, 16,8]。尽管这些个别方法各有优点，但我们的实验表明，单独使用每种方法无法在从任意视角图像重建的3D图像上产生令人满意的识别结果。为了评估OVCNet，我们使用了一个真实物体灰度多视图数据集[16]，一个从ShapeNet[7]生成的虚拟物体灰度多视图数据集，以及一个自然彩色数据集（Pascal VOC数据集[12]的子集）。0我们将不同物体实例的视图分为训练和测试。在训练中，数据集包含来自未指定视角的每个物体实例的一个2D图像；在测试中，我们对来自已见（熟悉）和未见物体实例的新视角的两组图像进行分类。与基于2D图像的物体识别系统（如AlexNet[18]和ResNet[14]）以及几种3D物体识别方法[8, 31,46]遵循单视图重建模块相比，OVCNet在性能上表现出明显的优势，特别是在相对较大的数据集gMIVO上。此外，我们还展示了我们的算法在PascalVOC自然图像的一个子集上远远优于标准的ResNet18。与ImageNet[9]等标准图像分类任务相比，我们的范式引入了对新视角的泛化。我们的贡献如下所列。0•我们通过开发一种算法，共同编码物体中心和观察者中心表示，解决了从任意视角进行物体识别的问题（单任意视角训练和新视角新物体实例测试）。0•我们创建了一个物体和观察者中心网络（OVCNet），它包含三个分支，每个分支专门用于物体中心、观察者中心（3D）或观察者中心（2D）学习。所提出的OVCNet由球面CNN、ResNet和注意力结构的组合构成。0•在物体中心和观察者中心的3D分支之间，我们开发了一种新的网络结构，可以在两者之间进行集成学习，学习物体中心和观察者中心表示，并建立了一个通信路径。0• 我们提供了一个由ShapeNetCoreV23D模型的子集生成的新的多视图数据集。02. 相关工作在本节中，我们简要讨论与物体中心和观察者中心物体识别相关的现有文献和方法。0方法 3D模型旋转- 无姿态不变对齐03DShapeNet [46] � PointNet [31] � � MVCNN [41] � � RotationNet[16] � 球面CNN [8] � � � 表1. 不同方法作为物体中心表示的属性。03D物体识别。随着各种3D物体数据集[7, 46, 47,8]的创建和日益流行，3D物体识别[48, 42, 41, 16, 32, 46,31, 50, 33, 40,8]已成为计算机视觉中的一个高度讨论的话题。现有系统依赖于给定的基于真实数据的3D数据，可以是体积形状[46]、点云集合[31]、球面映射[8]或多视图图像。117860图2.我们的物体和观察者中心神经网络OVCNet的网络结构。在训练过程中，每个输入都是一个物体实例的2D图像。OVCNet由3个分支组成。对于前两个分支，首先使用GenRe[51]进行单视角3D重建。第一个分支（物体中心）使用球面映射[8]构建表示；第二个分支（观察者中心（3D））使用新颖视角图像合成进行数据增强构建2DCNN分类器。第三个分支（观察者中心（2D））执行基于2D的图像分类，并进行平面旋转以进行数据增强。最后的融合层对来自三个分支/模块的输出进行加权求和。有关三个分支/模块以及融合层的详细信息，请参见第4节。0[42, 41, 32,16]。相比之下，我们将这些网络结构作为我们的识别模块，跟随单视角3D重建模块。基于图像的物体识别。观察者中心特征学习以前已经得到了解决[3]。广义上说，最近的常见做法是数据增强，可以被认为是观察者中心特征学习，因为增强主要在2D图像平面上实现，没有生成新的视角。混合2D和3D物体识别。SPLATNet[40]是一个混合系统，它将2D和3D特征整合到物体分类和分割中，与我们的方法密切相关。然而，SplatNet采用两种输入模态：基于点云的3D形状和2D多视图图像。因此，SplatNet的范围与我们的范围非常不同。用于迁移学习的数据增强。最近有一些关于迁移学习的研究[39, 34, 21, 11,24]，其中进行数据增强以适应特定的领域和正则化。这些方法解决的问题与我们的问题相比有很大的不同。我们专注于基本的3D单图像分类问题，而不是多任务预测问题。单视角3D重建。在单视角3D重建领域，物体中心网络在物体的规范视角输出3D信息。相比之下，观察者中心网络的3D输出是相对于输入视角的[37,45]。这个定义与我们之前为识别任务定义的定义有很大的不同。然而，为了更好地重建，Shin等人和Tatarchenko等人已经证明，在观察者中心坐标系统中使用3D监督往往具有更好的泛化能力。0对于未知类别的更好泛化性能使我们能够在训练期间从图像中获取新实例的3D形状先验信息，而无需任何3D形状信息。我们采用了用于未知类别重建的最先进方法GenRe[51]，从2D单张图像中重建3D形状，但GenRe本身不执行图像识别。0球形CNNs。我们基于球形CNNs[8]构建了我们选择的对象中心表示，这是一种用于3D对象分类任务的有效且高效的获取3D形状表示的方法。球形CNNs本身不能从任意视角执行对象识别，需要一个3D输入来生成球面CNNs所需的球面图。0总之，我们专注于使用对象和观察者中心表示进行任意视角的对象识别的具有挑战性的问题设置。03.问题定义在本节中，我们专注于任意视角的对象分类任务。在训练过程中，输入是每个训练对象实例的任意单个视角，输出是地面真实类别标签。每个对象实例只能看到一次。我们从以下两个方面评估OVCNet的有效性：1）SeenInstances：识别已见（熟悉）对象实例的新视角的能力（在训练中使用的实例）和2）NovelInstances：识别新/未见对象实例的任意视角的能力（训练集中不存在的实例）。我们展示了与这两个方面对应的两个实验的结果。117870（a）（b）在视角1上训练（c）在视角90上训练图3.（a）是用于生成依赖视角图像的视角示例，用于Viewer-Centered（3D）模块（第4.3节），类似于[16]。（b）和（c）显示仅在视角1（b）和视角90（c）（突出显示）上训练的ResNet18模型在所有视角上的分类准确性，分别在MIRO数据集[16]上的对象上。在没有看到其他视角的情况下，经典的2D CNN在新视角上的性能不理想。04.网络架构4.1.单视角形状先验给定一个对象实例的单个视角，我们首先使用最先进的算法GenRe[51]从2D图像生成3D对象重建。GenRe将重建分为三个子任务：深度估计、球面图填充和体素细化。这些任务的分离使得对未见对象/类别的合理重建成为可能。因此，不需要额外的对象特定信息。预训练的GenRe模型仅针对三个对象类别（“plane”、“car”和“chair”）进行重建训练，但在评估各种未见对象类别时，GenRe显示出了巨大的潜力。在我们对gMIVO数据集的分类任务中，我们包括平面、汽车、椅子以及其他对象类别，如灯、手枪、摩托车、刀、笔记本电脑、吉他和桌子。我们直接采用训练好的GenRe模型[51]对2D图像进行3D重建，并向最终的3D模型添加纹理信息。我们使用最近邻搜索算法和k-d树从已见侧采样纹理信息。由于不同的顶点排序，这种方法可能导致不同的纹理模式。未来的研究应该探索更好的纹理填充方法。04.2.对象中心表示（OC模块）我们利用现有的3D识别网络结构作为我们的分类模块，遵循GenRe的3D形状估计。我们在表1中评估了所有三个基于3D形状的识别网络：3DCNNs，PointNet [31]和spherical CNNs [8]。3DCNNs是受3DShapeNet[46]启发并建立在[23]之上的3D卷积网络。其中，sphericalCNNs与我们的对象中心定义最匹配，原因如下。首先，sphericalCNNs模型是一种基于3D形状的方法。对象分类是基于距离球面图以及来自3D对象和其凸包的表面信号的余弦和正弦进行的。通过球形...03D模型的几何信息作为输入，球形CNN在ShapeNetSHREC17[7]上的结果接近于最先进的水平[8]。可以通过从球体表面（半径固定）射出一条射线到物体的中心来生成球形距离图。球体表面与物体表面之间的距离成为球形距离图所捕获的距离值[8]。第二，球形CNN直接在球形谐波域中使用卷积，保持球形信号的3D旋转等变性。有关旋转不变性的经验支持的讨论，请参见[8]。关于其旋转不变性能力的更多讨论，请参见补充材料。第三，该网络不需要任何姿态对齐。在我们的整体模型中，我们将基于球形CNN的物体中心模块分支称为OCb模块，其中上标b表示它是一个基础模块。04.3.观察者中心表示（VC模块）对于观察者中心表示，使用具有两个不同输入的不同模块：1）原始视图VC（2D）模块；2）使用来自GenReVC（3D）模块的3D视点增强重新投影的视图。对于这两个任务，我们发现与其他经典卷积神经网络相比，ResNet18作为2D图像分类器效果良好。为了选择增强视图，我们实现了三个选项的视图选择层（在第4.4节中详细讨论）。VC（2D）模块。该模块使用平面旋转的2D增强。我们评估了在gMIRO数据集上使用不同旋转增强角度的ResNet18，包括90度、30度、10度、5度和1度的间隔。我们观察到，随着提供更密集的角度增强，评估准确性停止增加。旋转消融研究（见补充材料）表明，对于gMIRO数据集，当我们使用30度间隔的2D平面旋转增强来增强输入视图时，ResNet18的准确性趋于稳定。相反，对于gMIVO数据集，网络性能在增强90度间隔的输入视图时趋于稳定。11788090度间隔的实现。我们在后续实验中使用这些数字。如果在相同的视角下训练，如图3.b和c所示，ResNet18在识别相同对象的新角度图像时会遇到困难。我们将这种效应称为“心理旋转”。VC（3D）模块。该模块使用来自3D视点的2D增强。我们使用10个均匀分布的仰角和16个均匀分布的方位角增强图像，每个对象产生160个视图。视点增强设置如图3.a所示。视点布局模仿数据集中对象视图的组织方式，从输入视图开始。此外，我们对每个增强视图还添加了平面（2D）旋转增强，间隔为90度。对于VC（3D）模块，我们探索了三种视图选择方法：1）最近邻方法，网络仅在测试时使用最接近输入视点的增强图像；2）简单的选择层，网络学习一组所有增强视图的权重；3）注意力层，网络根据输入信息学习一组注意力权重。选项1最适用于训练视图有限的数据集，如gMIRO，从运行时间的角度来看最有效。对于选项2和3，我们将训练视图分为子训练集1和集合2。我们首先使用集合1训练ResNet18，然后使用集合2训练选择网络。我们观察到，与所有增强视图的简单集合相比，使用视图选择网络可以提高平均准确性。然而，鉴于3D重建的限制和数据集的大小，对于gMIRO数据集，仅使用输入视点优于其他选项。还考虑了其他增强方法。我们在GenRe [51]+多视图基线中包括从物体周围的十二面体的20个顶点拍摄的20个视图[41，16]。我们还在具有带宽为3的球形地图的采样网格上包括36个视点[8]，用于观察者中心辅助物体中心模块OC（第4.4节）。对于多视图基线，我们包括GenRe+多视图CNN（MVCNN）[41]和GenRe +RotationNet[16]。由于内存限制，我们使用了一个包含20个视图的MVCNN版本。对于GenRe +MVCNN，结果令人鼓舞。然而，MVCNN使用预训练权重，并在测试期间需要20个视图增强。相反，我们的模型使用单个视图进行训练，并从头开始，以避免从预训练数据集中学习到未见实例的先验知识。4.4.融合表示（OVCNet）0总之，我们的整体网络（图2）包括3个分支：OCb分支（GenRe文本+球面CNNs [ 8]），VC（3D）分支（GenRe文本+ResNet18 [ 14]+视图选择）和VC（2D）分支（ResNet18）。0为了将OCb基本模块与VC（3D）模块融合，我们创建了一个OC模块（图2）。在这个模块中，除了160个视图集，我们还使用36个增强视图的信息来减少训练所需的视图数量。然后，我们将学习到的ResNet特征组织成一个网格，并将其传递到一个带有输入带宽为3的辅助球面CNNs中。这个新的分支然后与最终的OC模块融合，融合方式是通过一个全连接层。gMIRO的结果如表3所示。为了融合OC和VC模块的输出，我们尝试了3种选项。第一种选项是训练一个完全连接的融合层，可以选择冻结或不冻结每个模块。第二种选项是学习一个注意力层来融合这三个结果。第三种选项是使用通过网格搜索在验证集上找到的一组权重。我们的实验结果表明，对于gMIRO数据集，第三种选项效果最好。这可能有两个原因：1）不同的分支由于不同的输入和模块模态性具有不同的学习率；2）即使在冻结了这三个分支的情况下，当我们有限的训练信息时，较简单的融合方法也能更好地适应。我们发现选项3学习到的权重是稳定的，例如，在gMIRO和gMIVO数据集上，OC模块、VC（3D）模块和VC（2D）模块的组合权重大约为0.2、0.3和0.5。有关运行时分析的详细信息，请参阅补充材料。05. 实验 5.1.基线接下来，我们报告了各种基线分类器以及我们的OVCNet的结果。传统的图像分类网络。我们直接在输入视图上使用卷积神经网络，包括AlexNet [ 18 ]，ResNet18 [ 14]和ResNet152 [ 14]来学习2D图像分类。对于AlexNet和ResNet18，训练的批量大小为96。对于ResNet152，由于内存限制，使用批量大小为32。ResNet18似乎具有更好的泛化能力和更高效的内存使用。基于3D形状的分类网络。我们将从GenRe重建的3D对象转换为体素（30×30×30或128×128×128）、点集（2500个点样本）和距离球面图，以便分别运行3DCNNs [ 23 ]、PointNet [ 31 ]和球面CNNs [ 8]，而不考虑纹理信息。重新投影的以观察者为中心的分类网络。对于从GenRe的输出重新投影的情况，作为VC（3D）模块的基线，我们评估了使用不同数量的视图增强的ResNet18。尽管我们的算法在整体模型的测试过程中只使用单个视图，但我们在评估过程中还展示了使用20个视图的结果。AlexNet [18]24.61 ± 3.0227.40 ± 2.13ResNet152 [14]45.97 ± 1.0843.68 ± 1.91ResNet18 [14]51.34 ± 0.5244.04 ± 1.31ResNet18*45.08 ± 0.9838.70 ± 2.09ResNet18r30(VC (2D))68.34 ± 1.5753.27 ± 0.89ResNet18rot30 (Ensemble I)70.56 ± 0.5654.91 ± 1.85ResNet18rot30 (Ensemble II)70.91 ± 0.3455.74 ± 2.52117890与GenRe [ 51 ] + RotationNet [ 16 ]和GenRe + MVCNN[ 41]作为多视图模块基线进行比较。对象和以观察者为中心的网络。由于OVCNet结合了三个模块，为了公平比较，我们包括了三个VC（2D）模块的两种集成策略，并在表2中报告了结果（ResNet18 rot30/90 Ensemble I , II）。为了与集成结果进行公平比较，我们随机选择了六个VC（2D）模块，并对两组集成结果进行了平均。为了与OVCNet进行公平比较，我们从集成集合中随机选择一个VC（2D）模块，与我们的OC模块和VC（3D）模块相结合。Ensemble I 使用三个同类型的随机模型，权重相等。EnsembleII 为这三个随机模型训练了额外的融合权重。0整体准确率（%）整体准确率（%）已见实例新颖实例0gMIRO0GenRe [51] + PointNet [31] 27.33 ± 0.48 27.67 ± 0.80 GenRe + 3D CNNs[23] 30.26 ± 0.62 30.01 ± 0.75 GenRe tex + RotationNet pre [16] 46.55 ±3.97 46.44 ± 4.54 GenRe tex + MVCNN pre [41] 58.68 ± 0.59 54.56 ± 0.410OVCNet (我们的) 73.24 ± 0.08 65.85 ± 0.140gMIVO (ShapeNetCoreV2子集)0ResNet18 rot90 (VC (2D)) 64.40 ± 0.45 64.86 ± 0.43 ResNet18 rot90(Ensemble I) 65.70 ± 0.25 66.25 ± 0.59 ResNet18 rot90 (Ensemble II)65.73 ± 0.18 66.27 ± 0.440OVCNet (我们的) 79.24 ± 0.12 75.03 ± 0.300表2. 结果总结。ResNet18*：标准的2D图像数据增强[18]。ResNet18rot[d]：2D平面内旋转增强，旋转角度为d的倍数。GenRetex：用于3D视角增强的纹理。RotationNet pre和MVCNNpre：使用预训练权重。EnsembleI使用三个模型的等权重集合。EnsembleII包括用于三个随机模型的学习融合权重。OVCNet在这里表现最好。05.2.数据集我们采用以下三个数据集：MIRO数据集的灰度版本[gMIRO]，我们的新数据集，虚拟对象的灰度多视图图像[gMIVO]，以及来自Pascal VOC[12]的自然彩色图像。gMIRO。我们使用经过预处理的MIRO数据集[16]（gMIRO）作为我们的主要数据集进行消融研究。该数据集包含12个类别，每个类别有10个对象实例。对于每个对象，有来自真实对象的160个视角（10个仰角×16个方位角），背景为空。我们随机选择80%的实例作为熟悉的对象实例。对于每个对象，我们随机选择一个任意的单个视角用于训练集（12个类别×10个对象×80%的已见分割×1个视角=96个图像）。我们使用熟悉实例的剩余视角作为第一个测试集，评估模型对已见物体实例的泛化能力。0模型对已见物体实例（SeenInstances）的未见视角进行了泛化。最终的测试是利用剩余20%的新实例的所有视角进行的，我们可以评估对未见物体实例（NovelInstances）的所有160个角度的视角的泛化能力。gMIVO。gMIVO是一个更大的数据集，其设置与gMIRO类似。我们选择了ShapeNetCorev2的一个子集来生成这个数据集。我们没有直接使用ModelNet[46]，因为在项目开始时还没有可用的对齐的ModelNet40。此外，大多数对象缺乏材料和纹理信息。ShapeNetCorev2包括材料和纹理，并且所有对象都是对齐的[7]。我们通过参考DensePoint[6]中频率最高的10个类别（使用具有良好材料和纹理信息的ShapeNetCorev2对象）并对每个对象进行160个视角的选择来从ShapeNetCorev2中选择一部分对象。这个新数据集包含十个类别，每个类别有110个对象。对于每个对象，使用MIRO[16]中的类似视点生成160个视角，如图3.a所示。我们的渲染工具是在斯坦福ShapeNet渲染器的基础上构建的。在训练过程中，我们随机选择每个类别的80%的对象作为熟悉的对象。SeenInstances和NovelInstances这两个测试集的设置与gMIRO类似。Pascal VOC。我们使用PascalVOC图像的一个子集[12]来评估OVCNet在带有背景的真实彩色图像上的能力。对于训练，我们从[30]获取每个对象的掩码。对于测试，通过使用[15]的前景分割算法首先获得对象掩码。我们选择飞机、自行车、汽车和摩托车的图像，因为这些图像中的遮挡较少，可以进行充分的3D重建。我们随机选择每个类别的20%的图像进行训练，其余的用于测试。我们从gMIRO和gMIVO的灰度图像开始，以说明OVCNet的基本思想。然后我们使用MIRO和PASCAL图像进行彩色输入的实验。更多细节请参见第6节。05.3. 指标0对于gMIRO和gMIVO数据集，我们将数据分为熟悉的实例和新颖的实例，采用80% /20%的训练-测试分割。如果没有另外说明，我们对每个实验进行三次重复，并对结果进行平均。我们报告了未见视图的整体类别准确性（均值和标准差），包括具有已见对象的视图（SeenInstances）和具有未见对象的所有视图（NovelInstances）。06. 结果与讨论以物体为中心的特征学习。对于以物体为中心的分支，我们在表3中比较了使用GenRe + 3D CNNs、GenRe +PointNet和GenRe + sphericalCNNs对3D重建的不同表示的结果。我们117900发现随着体素分辨率的增加，GenRe + 3DCNNs的性能也增加；然而，网络大小也增加。对于GenRe+ sphericalCNNs，带宽增加时性能也增加，并在bw=112时达到平稳状态。总体而言，我们的OC分支在整体准确性方面优于其他组合，对于SeenInstances和NovelInstances都具有可比较的网络大小。此外，进一步整合从VC（3D）分支（bw=3sgrid）学到的信息的OC模块可以为gMIRO数据集上的OCb基线模块提供额外的10%提升。0网络准确性整体（%）SeenInstances NovelInstances0GenRe + 3D CNNs [ 23 ]（30 × 30 × 30 vx）20.94 ± 0.41 21.74 ± 0.42 GenRe+ 3D CNNs（128 × 128 × 128 vx）30.26 ± 0.62 30.01 ± 0.75 GenRe +PointNet [ 31 ]（2500pt）27.33 ± 0.48 27.67 ± 0.80 GenRe + spherical CNNs [8 ]（bw=60）40.79 ± 1.21 41.50 ± 0.44 GenRe + sphericalCNNs（bw=112）42.43 ± 1.24 40.80 ± 0.51 GenRe + sphericalCNNs（bw=128）40.94 ± 1.88 41.23 ± 0.77 GenRe tex + sphericalCNNs（bw=112）（OC b）44.62 ± 0.58 44.65 ± 0.530OC分支 54.62 ± 0.73 54.21 ± 0.540表3.对gMIRO上的以物体为中心的网络结构（OC）的消融研究。我们选择GenRe tex + spherical CNNs [ 8]（具有额外的近似纹理球面映射信息）作为我们OVCNet中的OCb模块，因为它相对于其他方法具有性能优势。vx表示体素表示，pt表示点云表示，bw表示球面信号的带宽。具有辅助球面路径的最终OC模型集成了从VC（3D）模块（bw=3sgrid）学到的信息，性能最好。0以观察者为中心的特征学习。对于以重新投影的2D图像为中心的网络结构（VC（3D）模块），我们在表4中比较了训练过程中不同的3D视点增强。对于GenRe +ResNet18，随着训练视点数量的增加，性能也增加。一旦我们在重新投影中引入纹理，GenRe +MVCNN和VC（3D）的性能都优于其他方法。GenRe +MVCNN在测试时使用了所有20个不同的视点。相比之下，VC（3D）在评估过程中只使用一个视点。因此，它比GenRe +MVCNN更高效。我们还在Pascal数据集上尝试了注意力结构作为我们的视图选择层（未在表中显示）。与测试时所有160个视图的简单集合相比，我们注意到在Pascal数据集中，注意力视图选择层可以提高性能。这个结果表明，在推理过程中使用更复杂的视图选择模块可能会随着训练数据的增加提高性能。对于以原始2D图像为中心的网络结构（VC（2D）模块），我们对2D旋转增强进行了消融研究。在补充材料中，我们展示了对于gMIRO，ResNet18的性能在30度间隔的旋转（每个输入的12个增强图像）后趋于平稳。对于gMIVO，我们发现ResNet18的性能在90度旋转后趋于平稳。0每个输入的度数间隔（每个输入的4个增强图像）。这些结果可能表明，随着训练实例数量的增加，类似实例的随机视角增加。因此，需要更少的平面旋转来提高性能。03D增强准确率总体 ( % ) 准确率总体 ( % ) 1/160/640已见实例新颖实例0GenRe + ResNet18 1 32.49 ± 0.68 32.95 ± 0.93 GenRe + ResNet18 160 45.15 ± 0.4640.20 ± 0.51 GenRe + ResNet18 640 51.24 ± 0.23 47.57 ± 0.55 GenRe tex +RotationNet 预训练 [ 16 ] 20 46.55 ± 3.97 46.44 ± 4.54 GenRe tex + MVCNN 预训练 [41 ] 20 58.68 ± 0.59 54.56 ± 0.41 从零开始训练的VC (3D) (我们的) 640 65.70 ± 0.4458.27 ± 0.040表4.使用不同类型的数据增强对基于观察者中心网络结构的gMIRO进行消融研究，3D增强：训练过程中使用的重新投影图像数量。第4.3节提供了视点的详细信息。GenRe tex + MVCNN 预训练0GenRe tex + RotationNet预训练使用微调权重和预训练模型以及20个视图进行评估，而其他方法只使用单个视图。最终的VC (3D)模型使用GenRe tex0从零开始训练的ResNet18表现最好。对象和观察者中心网络。最后，我们将OC和VC（3D）模块的结果结合起来，用于gMIRO和gMIVO数据集。通过在验证集上进行简单的网格搜索，融合层输出OC、VC (3D) 和VC (2D)分支的概率加权和。结果如表5所示。我们的结果表明，这三个模型在两个数据集上互补。OVCNet相对于ResNet18的集成的优势在gMIVO上更为显著。在表2中，对于熟悉对象实例的未见视图，测试准确率提高了约13.5%，对于新颖对象实例，提高了约9%。这表明，使用来自同一类别实例的更多任意视图进行训练有助于分类其他视点的视图。有趣的是，在表5中，gMIVO的VC (3D)分支的测试准确率已经高于VC (2D)的准确率；这进一步验证了通过我们的3D视图增强来推断3D重建的重要性。我们还评估了OVCNet的平均类别准确率和相应的集成基线（未在表中显示）。对于gMIVO，对于所有十个类别，已见实例（来自熟悉实例的其他视图）的准确率从65.89%提高到79.36%。新颖实例（来自新颖实例的所有视图）的准确率从66.65%提高到75.33%（我们在文本中直接列出这些数字）。鉴于我们使用的是在ShapeNet上训练的预训练GenRe模型，而我们的gMIVO数据集也是ShapeNet的一个子集，我们还在去除两个数据集之间重叠的三个类别后在gMIVO上进行了测试。与使用所有十个类别相比，我们的模型显示出稍微更大的改进。最终的OVCNet模型相对于VC (2D)的集成提高了14.45%的熟悉对象的未见视图的准确率和9.3%的gMIROgMIRO(1)✓52.6553.02(2)✓65.7058.31(3)✓69.7454.11(4)✓✓67.2461.48(5)✓✓72.4762.99(6)✓✓72.0458.57OVCNet✓✓✓73.2565.99(1)✓52.8350.49(2)✓77.0070.53(3)✓63.6664.50(4)✓✓77.6071.23(5)✓✓77.7174.50(6)✓✓67.8367.63OVCNet✓✓✓79.3675.33OCb (bw=112)80.08VC (3D) (160)82.35VC (2D)72.84VC (2D) (Ensemble I)75.49VC (2D) (Ensemble II)75.91117910实验 OC VC (3D) VC (2D) 已见实例新颖实例准确率 ( % ) 准确率 ( % )0gMIVO（ShapeNetCoreV2子集）0表5.不同模型集成的消融研究。gMIRO使用OC模块（见第4.4节），而gMIVO使用OC b模块（见第4.2节）。对于VC (3D)分支（见第4.3节），gMIRO使用来自GenRe的纹理重建的3D模型，每个输入视图生成640个3D视点增强，而gMIVO使用160个视点。对于VC (2D)分支（见第4.3节），gMIRO使用30度间隔，而gMIVO使用90度间隔。这三个模块在两个数据集上相互补充。0所有未见对象的所有视图。我们证明了OVCNet的有效性不依赖于来自GenRe的训练类。改进可能是由于被删除的类别更难分类。080% - 20% 50% - 50% 20% - 80%0SeenInstances的测试准确率（%）0VC（2D）68.34 ± 1.57 64.42 ± 0.43 64.53 ± 0.84OVCNet* 69.95 ± 0.35 67.24 ± 0.08 69.13 ± 0.750NovelInstances的测试准确率（%）0VC（2D）53.27 ± 0.89 47.36 ± 0.83 36.66 ± 0.54OVCNet* 59.57 ± 0.28 50.99 ± 0.31 42.09 ± 0.060表6.使用不同的训练-测试分割百分比进行消融研究。每一列对应于gMIRO数据集的不同训练-测试分割。OVCNet*使用了比表2中使用的OVCNet更不理想的配置。在不同的训练规模下，OVCNet相对于VC（2D）的趋势与表5和表2中一致。0训练-测试分割百分比的消融研究。为了评估我们的模型在不同训练数据规模下的性能，我们进行了两个额外的训练-测试分割实验。除了原始分割（80%熟悉实例 vs.20%新实例）之外，我们还测试了50%/50%和20%/80%的训练-测试分割。表6显示了在多次重复下，对已见实例和新实例的测试准确率的均值和标准差。随着熟悉实例数量的减少，整体分类准确率也会下降，这在使用较少数据进行训练时是典型的。然而，我们看到与表5和表2中的OVCNet相对于VC（2D）模块的改进类似。这些实验是使用gMIRO的早期版本进行的，该版本使用了比表5和表2中使用的更不理想的配置。0彩色和自然图像。0图4. PASCAL实验的算法流程。0在表3中，我们的实验结果显示了将近似纹理信息与灰度输入相结合的结果。以类似的方式，我们还提供了彩色输入的结果如下（未在表中显示）。我们使用MIRO的彩色图像来训练VC（2D）模块（使用ResNet18进行平面旋转），作为基准；我们保持OC和VC（3D）不变，因为它们主要与形状有关。然而，我们的结果表明，对于gMIRO、OC和VC（3D）模块仍然可以为使用MIRO彩色图像训练的VC（2D）基准提供一致的提升。对于SeenInstances（熟悉实例的未见视图），准确率从73.23%提高到75.64%，对于NovelInstances（未见实例），准确率从54.53%提高

下载后可阅读完整内容，剩余1页未读，立即下载