基于柱面卷积网络的目标检测和视点估计

122 浏览量更新于2023-10-25 收藏 2.23MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1基于柱面卷积网络的联合目标检测和视点估计Sunghun Jinghun1，Seungryong Kim2，3，Hanjae Kim1，MinsuKim1，Ig-Jae Kim4，Junghyun Cho4，and Kwanghoon Sohn1，1Yonsei Uni verersity 2洛桑理工学院（EPFL）3韩国大学4韩国科学技术学院（KIST）{sunghunjanjin，incohjk，minsukim320，khsohn}@yonsei.ac.krseungryongkim@korea.ac.kr，{drjay，jhcho}@kist.re.kr摘要在深度卷积神经网络内编码空间不变性的现有技术仅对2D变换场进行建模。这并没有说明2D空间中的对象是3D对象的投影的事实，因此它们对严重的对象视点变化的能力有限为了克服这个限制，我们引入了一个可学习的模块，圆柱卷积网络（CCN），它利用了在3D空间中定义的卷积核的圆柱表示。CCN通过特定于视图的卷积核提取特定于视图的特征，以预测每个视点处的对象类别得分。利用视点特定的特性，我们使用所提出的正弦软argmax模块同时确定目标我们的实验证明了圆柱卷积网络在联合目标检测和视点估计上的有效性。1. 介绍最近在视觉识别方面取得的重大成功，如图像分类[33]，语义分割[24]，对象检测[12]和实例分割[13]，已经通过深度卷积神经网络（CNN）的出现实现。它们处理几何变换的能力主要来自广泛的数据扩充和大的模型容量[19，15，31]，处理严重几何变化的能力有限，例如，对象比例、视点和部件变形。为了实现这一点，已经提出了几个模块来显式地处理几何变形。从形式上讲，他们把本研究得到了科学和信息通信技术部资助的韩国国家研究基金会（NRF）的高级集成智能识别（AIID）研发计划（NRF-2018 M3E3 A1057289）的支持。图1.圆柱形卷积网络（CCN）的说明：给定对象的单个图像，我们应用特定于视图的卷积核来从不同的视点提取对象的形状特征。通过建模空间变换输入数据[16，3，20]，例如，仿射变换，或通过学习卷积运算符中采样位置的偏移[42，4]。然而，所有这些工作都只使用可见特征来处理二维空间中的几何变形，而视点变化发生在三维空间中。为了解决视点变化的问题，使用CNN [36，35，26，6]的联合对象检测和视点估计最近引起了人们的兴趣。这包括首先估计图像中对象的位置和类别，然后预测3D空间中的相机坐标与2D空间中的每个图像坐标之间的相对刚性变换。然而，类别分类和视点估计问题本质上是矛盾的，因为前者需要视点不变的特征表示，而后者需要视点特定的特征表示。因此，以多任务方式将视点估计网络扩展到传统的对象检测器并不能互相帮助，如几项工作[26，7]所示。近年来的三维物体识别研究表明，物体的视点信息可以提高识别率通讯作者表现。通常，它们首先表示3D对象14163C��°��°��°视图特定特征14164使用一组2D渲染图像，从不同视点提取每个图像的特征，然后将其聚合用于对象类别分类[34，1，37]。通过使用- ING多个功能与一组预定义的观点，他们有效地模型相对于视点的形状变形。然而，在现实世界的场景中，它们并不适用，因为我们无法访问没有3D模型的对象的不可见面。在本文中，我们提出了圆柱卷积网络（CCN），用于提取视图特定的特征，并使用它们来估计对象类别和视点相似度，这与共享对象类别[30，23，21]和视点估计[35，26，6]的特征表示的传统方法不同。如示于图关键思想是提取以对象视点为条件的视点特定特征（即，方位角），如3D对象识别方法中那样在每个视点处对结构信息进行编码[34，1，37]。此外，我们提出了一个新的和可微的argmax算子称为正弦软argmax，可以管理正弦特性的观点，从离散化的观点箱预测连续值我们证明了所提出的圆柱卷积网络在联合对象检测和视点估计任务上的有效性，在Pascal 3D+[41]和KITTI [10]数据集上实现了大幅2. 相关工作二维几何不变性。使用CNN [33，12，24]进行视觉识别的大多数传统方法由于几何变化而提供有限的性能。为了处理CNN内的几何变化，空间Transformer网络（STNs）[16]提供了一种通过全局变换扭曲特征来提供几何不变性的方法。Lin和Lucey [20]提出了用变换参数传播代替特征扭曲的逆合成STNs，但它处理局部变换的能力有限因此，通过对每个位置应用卷积STNs [3]，估计局部变化的几何场[42]以及以递归方式估计空间变换[18]，已经引入了几种方法。此外，为了处理视觉识别的尺度或感受野的自适应确定与精细定位，Daiet al.[4]引入了两个新模块，即可变形卷积和可变形ROI池，可以为每个对象建模几何变换。由于所有这些技术仅利用可见外观特征对投影的2D图像中的几何变形进行建模，因此缺乏对视点变化的鲁棒性，并且它们仍然仅依赖于广泛的数据增强。联合类别和视点估计。由于三维物体的视点是一个连续的量，一个自然的方法来估计它是建立一个视点回归问题。王等人[38]试图直接回归观点来管理具有均方损失的周期特性。然而，回归方法不能很好地表示具有对称性或近似对称性的对象的不同视点之间存在的模糊性[26]。因此，其他作品[36，35]将角度划分为非重叠的箱，并将视点的预测作为分类问题来解决，同时依赖于使用传统方法（即，Fast R-CNN [11]）。Divon和Tal [6]进一步提出了一个统一的框架，该框架结合了对象定位、分类和视点估计的任务然而，所有这些方法都集中在准确的视点预测上，这在提高目标检测性能方面并不起作用[26]。另一个主要问题是由于人工注释的高成本，具有准确视点注释的真实图像的稀缺性。Pascal 3D+ [41]，最大的 3D 图像数据集与对象分类数据集（例如，ImageNet [5]）。因此，几种方法[35，38，6]试图通过将3D CAD模型[2]渲染到背景图像中来解决这个问题，但它们是不真实的，并且不匹配真实图像统计，这可能导致域差异。3D物体识别。已经有几种尝试从2D图像上的3D形状的渲染视图的集合中识别3D形状。Su等人[34]首先提出了多视图CNN，它将3D对象投影到多个视图中，并通过CNN提取视图特定的特征，以通过最大池化使用信息视图。GIFT [1]也解释了视图特定的特征，但不是将它们池化，而是通过视图匹配来获得两个3D对象之间的相似性。已经提出了几种提高性能的方法，通过递归地将视图聚类到多个集合[37]或通过双线性池[43]聚合局部特征。 Kanezaki 等人 [17] 进一步提出了RotationNet，它以多视点图像作为输入，联合估计对象它将视点标签视为潜在变量，仅使用部分多视图图像集进行训练和测试。3. 该方法3.1. 问题陈述和动机给定单个对象图像，我们的目标是联合估计对象类别和视点，以在2D空间中对每个对象的视点变化进行建模。让 us将Nc表示为对象类的数量，其中类C由每个基准确定，Nv由离散化视点仓的数量确定。特别是，由于在真实场景中仰角和倾斜的变化很小[41]，我们专注于方位角的估计。14165CNNs视图不可知特征类别分类器观点分类器“飞机”=60°CNNs视图专有视图专有视图特定的特征特征特征特征类别分类器“飞机”CNNs视图专有视图专有视图特定的特征特征特征特征范畴观点分类器“飞机”=60°（一）（b）第（1）款（c）第（1）款图2.圆柱形卷积网络的直觉：（a）使用单视图图像作为输入的联合类别和视点估计方法[26，6]，（b）使用多视图图像作为输入的3D对象识别方法[34，1]，以及（c）圆柱卷积网络，其通过从单视图图像提取视图特定特征作为输入来利用3D对象识别方法的优点。对象分类需要输入的视图不可知表示，以便识别对象类别，而不管视点变化。相反，视点估计需要保持对象的形状特征的表示，以便区分它们的视点。传统的基于CNN的方法[26，6]提取视图不可知的特征，然后是任务特定的子网络，即，对象分类和视点估计，如图所示。第2段（a）分段。然而，他们并没有利用这两项任务的互补特征，预定义的一组Nv视点。实现这一点的最直接的方法是定义k×k核的Nv个变体然而，这种策略不能考虑附近视点之间的结构相似性，并且效率低下。相反，我们用权重参数 Wcyl 对圆柱卷积核进行建模。∈Rk×Nv×chi×cho，如图所示。3.每个k×k核在W cyl上沿水平轴提取。以滑动窗口的方式，可以被看作是视图特定的内核W v。然后，我们获得视图特定特征F v∈Rcho的N v个变体，表现出有限的性能。与这些方法不同，关于3D对象识别一些方法已经表明，每个视点的视点特定特征可以对结构信息进行编码[34，1]，因此它们使用这些特征来Fv= Σp∈RWv（p）·x（p）=Σp∈RWcyl. （p+ ov）·x（p），（一）促进对象分类任务，如图所示。2（b）.由于它们需要预定义视点的多视图图像，因此它们的适用性限于3D对象识别（即，ModelNet 40[39]）。为了从单个图像中提取特定于视图的特征，我们提出了圆柱卷积网络，该网络利用圆柱卷积核，其中每个子集是特定于视图的核，以捕获每个视点处的结构信息通过利用特定于视图的特征，然后是对象分类器，我们估计在每个视点的对象类别似然，并选择一个视点核，预测最大化对象分类概率。3.2. 圆柱卷积网络让我们将感兴趣区域（ROI）[13]的中间CNN特征图表示为x∈Rk×k×chi，具有空间分辨率k × k和chi通道。传统的视点估计方法[26，6]应用k ×k视点不可知卷积核，以保留位置敏感信息，用于提取特征F∈ Rcho，其中cho是输出通道的数量。因为结构信息-投影图像的分辨率随着不同的视点而变化，我们的目标是在一个特定的视点上应用特定于视点的卷积核。其中〇v是圆柱形核W cyl上的偏移。对于每个视点v.在k×k窗口R中，位置p是变化的.与图1中的视图特定功能不同。2（b）从多视图图像中提取，我们的视图特定的 fea-真正的好处是附近视点之间的结构相似性因此，每个视图特定的内核可以被训练以区分来自不同视点的形状变化。3.3. 联合类别和视点估计在本节中，我们提出了一个框架，使用特定于视图的特征Fv. 我们设计了具有参数W cls的卷积层f（·），产生NV×（ NC+1）分数图，使得SV ， c= f（FV; Wcls）. 由于Sv，c的每个元素表示对象属于每个类别c的概率，在Sv，c中，类别和视点可以通过仅从Sv，c中找到最大得分来预测。然而，它不能沿视点分布微分，只能预测离散化的视点。相反，我们提出了正弦soft-argmax函数，使网络能够预测具有周期性属性的连续视点为了-为了得到概率分布，我们使用softmax运算σ（·）在viewpoint轴上对Sv，c进行归一化，使得14166相机电子邮件−��°��°−��°��°convconv��°ROI图像输入特征映射−��°输出特征图分数图圆柱形核图3.圆柱卷积网络的关键思想来自全卷积网络的输入特征图被馈送到圆柱卷积核中以获得视图特定特征的Nv个变体。然后，每个视图特定的功能被用来识别其类别的可能性，对象类别分类和视点估计可以联合估计。Pv，c=σ（Sv，c）.在下文中，我们描述如何估计对象类别和视点。类别分类。我们使用每个视点的类别相似性的加权和Sv，c与视点概率分布Pv，c计算最终类别分类得分，如下所示：越南v深度网络的训练，同时考虑视点的周期性特征作为基于回归的方法[38]。最后的视点估计通过类别分类（2）选择具有相应类别c的θc边界框回归。为了估计精细详细的位置，我们应用额外的卷积层进行W reg的边界框回归，以产生Nv×Nc×4 个边界框偏移，表示为 tv ， c=f （ Fv;Wreg）。Sc=v=1Sv，c·Pv，c，（2）每组4个值从Nv×Nc之一的初始位置编码边界框变换参数[12]其中Sc表示沿着类别c的最终分类得分。由于类别分类本质上是视点不变的，因此来自Sc的梯度将强调正确视点它使得能够沿着Nv个视点反向传播监控信号。视点估计。在CCN中估计视点的最直接方法可能是选择从预定义的视点识别对象类别的性能最佳的视图特定特征。为了预测具有周期性属性的连续视点，我们进一步引入正弦软argmax，使得能够从Pv，c回归，如图所示。4.第一章具体地，我们利用两个代表性指数sin（iv）和cos（iv），通过将正弦函数应用于每个视点biniv（即，0°，15°，.. .对于Nv=24）。然后，我们将每个代表性指标与其概率相加，然后使用atan2函数来预测每个类c的对象视点，如下所示：集. 这就导致了每种食物都要用不同的盒子-gory和viewpoint bin，可以显示为类特定边界框回归的扩展版本[11，30]。损失函数。我们在每个特征上定义的总损失函数是分类损失Lcls、边界框回归损失Lreg和视点估计损失Lview的总和，如下所示：L=Lcls （ c ， c） +[c≥1]{Lreg （ tv ， c ， t） +[θ=/θ]Lview（θc，θ）}，（四）使用地面实况对象分类器、边界框恢复目标T和视点θ。Iverson括号指示器函数[·]在为真时求值为1，否则求值为0。F或背景，c=0，没有地面实况边界框和视点，因此忽略Lreg和Lview。我们以半监督的方式训练视点损失L视图，使用具有地面真实视点（θ=θ）的集合，监督学习对于没有视点标注（θ= θ）的数据集，忽略L视图，以无监督的方式训练视点估计任务。我们用交叉-θc= atan2.越南vv=1Pv，csin（iv），越南vv=1ΣPv，ccos（iv）、（3）熵的Lcls，和平滑L1的Lreg和L视图，以下常规工作[11，30]。3.4. 实施和培训详情它利用基于分类的方法[36，35]来估计后验概率，从而更好地对于圆柱形内核Wcyl. ，我们施加额外的约束，以保持3D光学系统的反射对称性14167方法卡泰奥戈里观点NvCCNStop-1前3加速度π/6梅代尔2418C0.910.950.970.990.560.6323.517.324C0.950.990.6615.530C0.940.980.6317.7观点图4.正弦soft-argmax图示：对于离散化视点仓的概率分布，正弦soft-argmax使得能够回归周期性视点信号，而常规soft-argmax不能被应用。对象。我们首先将参数分为四组左、右、表1.联合对象类别和视点估计性能与Pascal 3D+数据集上的地面真值框[41]。4. 实验4.1. 实验设置我们的实验主要基于使用PyTorch [27]的maskrcnn-benchmark [25]。我们使用基于ResNet-101[15]作为骨干。我们实现了两种网络，使用和不使用FPN [21]。对于没有使用FPN的网络，我们删除了最后一个池层，以保留每个ROI特征的空间信息。设k=7，使用水平翻转操作h（·）将左侧和右侧的反射率设为反射性的，使得 W 。=[Wside ， Wfront ， h（Wside），Wrear]，其中每个组的参数水平地连接。我们将W前和W后的空间分辨率设为k × 1，W侧设为k ×（N v− 2）/2。因此，W cyl. 可以保持水平反射对称性，节省网络内存。为了使Wcyl. 为了在2D空间中实现在3D空间上定义的方位角，必须保持沿着方位角的周期性。因此，我们使用翻转操作从左端到右侧水平填充k×k/2的参数，反之亦然，其中·表示输出小于或等于输入的最大整数的地板它允许Wcyl. 用作周期性参数。我们采用两阶段目标检测框架，R-CNN [30]首先通过标准的全卷积网络[15，21]处理整个图像，然后通过区域建议网络（RPN）[30]产生一组边界框。然后，我们使用ROI Align [13]层为每个感兴趣区域（ROI）提取固定大小的特征x。在训练和推理中，图像被调整大小，使得较短的边是800像素，使用具有FPN的5个尺度和3个纵横比的锚，并且使用没有FPN的3个尺度和3个纵横比。分别在训练和推断时使用0.7的非最大抑制阈值生成2k和1k区域提议我们在2个GPU上训练所有模型的主干都在ImageNet分类上进行了预训练[5]，其他参数使用He初始化随机初始化[14]。学习率在FPN的情况下初始化为0.02，在没有FPN的情况下初始化为0.002，并且在第9和第11个历元处衰减10倍。所有模型都使用SGD训练了12个epoch，权重衰减为0.0001和动量分别为0.9降低常规工作，并设置Nv=24，除非另有说明否则，请执行以下操作。其他超参数的选择保持了与[25]中的默认设置相同。我们在Pascal 3D+ [41]和KITTI数据集[10]上评估了我们的联合对象检测和视点估计框架。Pascal 3D+数据集[41]由Pascal VOC 2012 [8]中的图像和ImageNet [5]中12个不同类别的子集图像组成，这些图像用其视点进行了注释请注意，瓶子类别被省略，因为它通常在不同的方位角上对称[41]。另一方面，KITTI数据集[10]由7，481张训练图像和7，518张测试图像组成，这些图像用其观察角度和2D位置进行了注释对于KITTI数据集，我们将实验集中在Car对象类别上。Pascal 3D+数据集。在这个实验中，我们使用Pascal3D+ [41]的训练集（Pascal VOC 2012 [8]和ImageNet [5]的训练集）训练我们的网络，仅用于监督学习，表示为 CCN ，以及具有 COCO 数据集 [22] 重叠类的trainval35k的附加子集的半监督学习，表示为CCN *。使用平均精度（AP）度量[8]和平均视点精度（AVP）[41]对Pascal 3D+ [41]的val集进行评估，其中我们专注于AVP 24度量。此外，我们还使用COCO风格的平均精度（AP）@[0]使用COCO数据集[22]的迷你分割来评估我们的CCN。五比零95]和平均召回（AR）指标[22]对小，中，大尺寸的对象。KITTI数据集。在本实验中，我们遵循Xiang等人的训练/值设置。[40]这保证了来自训练集和验证集的图像来自不同的视频。对于使用KITTI数据集[10]进行的评估，我们使用平均精度（AP）指标，重叠阈值为70%（AP@IOU0.7），平均方向相似性（AOS）GroundTruthsoft-argmaxsoft-argmax概率概率14168图5.通过Grad-CAM [32]可视化学习的深度特征：（从上到下）输入，在没有CCN的情况下训练的注意力地图注意，红色表示关注区域，蓝色表示抑制区域。[10]第10段。Results are evaluated based on three levelsof diffi- culty: Easy, Moderate, and Hard, which aredefined accord- ing to the minimum bounding box height,occlusion, and truncation grade.4.2. 消融研究分析CCN组件。我们分析了我们的CCN与消融评估方面的各种设置的Nv和所提出的视图特定的卷积核的有效性。为了评估性能独立的因素，如错误定位，我们解决了联合类别分类和观点估计与地面实况包围盒我们的问题，使用ResNet-101 [15]。为了公平比较，k×k实现视图不可知卷积核，联合目标类别分类和视点估计，输出Nc×Nv得分图，遵循传统工作[6]。为了准确地比较视点估计，我们应用正弦软argmax来回归连续的观点。我们评估了每个对象类别分类的前1和前3错误率，并使用中值错误（MedErr）和Accπ/6进行视点估计性能[36]。如表1所示，与使用视图不可知内核的传统方法相比，CCN在对象类别分类和视点估计方面都表现出更好的性能。结果表明，视图特定内核有效地利用了两个任务的互补特性。由于Nv=24的结果在类别分类和视点估计方面都表现出最好的性能，因此我们将Nv=24设置为剩余的实验。注意，cylin中的参数数量-卷积核是k×{（Nv−2）/2+2}×chi=7×13×chi，而基线使用k×k×chi=7×7×chi。数字-附加参数的BER是边际的（100。01%）的网络参数总数的一致性，而性能显著提高。网络可视化。对于定性分析，我们应用Grad-CAM [32]基于输出类别预测的梯度来可视化注意力地图。我们比较了使用视图特定内核的CCN和使用视图不可知内核的基线的可视化结果。在图5中，CCN的注意力图覆盖目标对象中的整个区域，而传统的类别分类器倾向于关注对象的可区分部分。从观察结果中，我们推测特定于视图的卷积核导致网络捕获对象视点的形状特征。4.3. 结果Pascal 3D+数据集。在下文中，我们将我们的CCN和CCN * 与最先进的方法进行了比较。比较了目标检测方法，如RNN [9]，RCNN[12]，Faster R-CNN [30]与ResNet-101[15][21]《明史》：还比较了联合对象检测和视点估计方法，包括手工制作的模块，例如VPEG 4 [41]，DPM-VOC+VP [28]，使用现成的2D对象检测器进行视点估计的方法，例如Su等人。[35]，Tulsani and Malik[36]，Massaet al.[26]，和统一的方法，如Poirson等人。[29]，Divon and Tal [6].如表2和表3所示，我们的CCN * 与FPN[21]在Pascal 3D+数据集上的对象检测（mAP）和联合对象检测和值得注意的是，传统的联合目标检测和视点估计方法实际上降低了[26]的分类性能，而我们的方法提高了性能。14169方法Aero自行车船总线车椅子数据表姆比凯沙发火车电视地图[9]42.249.66.054.138.315.09.033.118.936.433.229.6[41]第四十一话42.244.46.053.736.312.611.135.517.032.633.629.5[28]第二十八话36.045.95.353.942.18.05.434.811.028.227.327.1RCNN [12]72.468.734.073.062.333.035.270.749.670.157.256.9Massa等人[26日]77.170.451.077.463.024.744.676.951.976.264.661.6Poirson等人[29日]76.667.742.776.159.715.551.773.650.677.760.759.3更快的R-CNN w/[15]79.878.664.479.675.948.251.980.549.877.979.269.6更快的R-CNN w/82.778.371.878.776.050.853.383.350.782.677.271.4CCN w/[15]82.579.264.480.376.749.450.981.448.279.578.970.2CCN * w/82.981.463.786.679.743.651.781.652.581.082.171.5CCN w/[21]82.680.669.384.978.850.950.783.450.382.280.072.2[21]第二十一话83.782.871.488.181.246.351.185.952.783.884.073.7表2.Pascal 3D+数据集上的对象检测比较[41]。评价IOU 0.5时的平均精密度（AP）方法Aero自行车船总线车椅子数据表姆比凯沙发火车电视mAVP24[41]第四十一话8.014.30.339.213.74.43.610.18.220.011.212.1[28]第二十八话9.716.72.242.124.64.22.110.54.120.712.913.6Su等人[35]第三十五届21.522.04.138.625.57.411.024.415.028.019.819.8&[36]第三十六话37.033.410.054.140.017.519.934.328.943.922.731.1Massa等人[26日]43.239.416.861.044.213.529.437.533.546.632.536.1Poirson等人[29日]33.429.49.254.735.75.523.030.327.644.134.328.8迪翁·塔尔[6]&46.641.123.972.653.522.542.642.044.254.644.844.4CCN w/[15]39.045.922.674.554.719.638.944.241.555.346.843.9CCN * w/39.447.023.276.655.520.339.544.541.856.145.544.5CCN w/[21]45.147.423.177.855.219.939.645.343.458.047.845.7[21]第二十一话46.148.824.278.055.920.941.045.343.759.549.046.6表3.Pascal 3D+数据集上的联合对象检测和视点估计的比较[41]。评估具有24个离散化视点箱（AVP 24）的平均精度，其中真阳性代表具有正确的边界框定位和视点估计。-180° 0° 180 ° -180 ° 0° 180 °-180 ° 0° 180°-180 ° 0 ° 180°-180° 0° 180 ° -180 ° 0° 180 °-180 ° 0° 180°-180 ° 0 ° 180°图6. Pascal3D+数据集上的联合对象检测和视点估计的定性示例[41]。每个图像下方的条表示视点预测（绿色）和地面实况（黑色）。与原始的Faster R-CNN相比，这是一个更快的R-CNN[30，21]。此外，我们使用真实数据集的半监督学习方14170案[22]显示出性能改善，表明（2）使监督信号能够用于视点估计请注意，其他视点估计方法使用具有地面实况视点注释[35，26，6]或关键点注释[36]的合成图像。在图6中，我们显示了我们的联合对象检测和查看的示例14171-180度0度180度-180度0度180度 -180度0度180度-180度0度180度-180度0度180度 -180度0度180度图7. KITTI数据集上的联合对象检测和视点估计的定性示例[10]。每个图像下方的条以绿色指示对应对象的视点预测。度量网络CCNS所有SMLAPResNet[第十五条]C34.336.615.517.528.930.247.349.6FPN[21日]C40.741.822.124.236.238.852.152.9ARResNet[第十五条]C47.249.621.622.742.944.163.666.0FPN[21日]C54.156.332.633.951.353.166.568.3表4. COCO数据集子集上的对象检测比较[22]。COCO风格的平均精度（AP）@IOU ∈[0. 5，0。95]和平均召回率（AR）在小（S），中（M）和大（L）尺寸的对象上进行评估。度量方法容易中度硬[30]第三十话82.9777.8366.25AP不含CCN81.7476.2364.19CCNS86.1780.1967.14[30]第三十话---AOS不含CCN79.4672.9259.63CCNS85.0179.1363.56表5. KITTI数据集[10]汽车的val集上的联合目标检测和视点估计的比较在IOU 0.7下的平均精度（AP）被评估用于对象检测，并且平均方向相似性（AOS）被评估用于视点估计。Pascal 3D+数据集上的点估计[10]。表4验证了CCN对标准对象检测数据集的影响与不使用CCN的基线相比，通过应用视图特定的卷积核，对象检测性能（AP）有所此外，定位性能（AR）也有所提高，这表明我们的视图特定卷积核可以有效地编码输入对象的结构信息。KITTI数据集。我们在KITTI对象检测基准中进一步评估了我们的CCN [10]。由于其他方法的目标是从单目图像中找到3D包围盒，我们进行了实验，以验证CCN的有效性。如表5所示，与原始Faster-RCNN [30]相比，我们的CCN通过调整视图特定的卷积内核显示出更好的结果。另一方面，在不使用CCN的情况下，对象检测和视点估计的联合训练实际上降低了对象检测的性能。该结果与以前的研究[26，7]具有相同的性质在图7中，我们显示了我们在KITTI数据集[10]上的联合对象检测和视点估计的示例。4.4. 讨论可变形类别的视点估计是一个开放的问题。因此，我们仅在刚性类别上试验了用于视觉识别的圆柱形然而，我们使用视图特定卷积核的关键思想可以用可变形变换的合适建模来推广（例如，可变形卷积[4]）在核空间。我们认为，非刚性类别的建模姿势或关键点（例如，人类姿态估计）可以替代当前的限制，并将其作为未来的工作。5. 结论我们已经引入了用于联合对象检测和视点估计的圆柱卷积网络（CCN）。其关键思想是利用特定于视图的卷积核，以滑动窗口的方式从圆柱形卷积核中采样，以预测每个视点处的对象类别。有了这种可能性，我们simul-simplex估计对象类别和观点，使用拟议的正弦软argmax模块，导致国家的最先进的联合对象检测和视点估计的任务上的性能在未来，我们的目标是将特定于视图的卷积核扩展到非刚性类别。14172引用[1] Song Bai ， Xiang Bai ， Zhichao Zhou ， ZhaoxiangZhang，and Longin Jan Latecki.礼物：一个实时和可扩展的3D形状搜索引擎。在IEEE计算机视觉和模式识别会议论文集，第5023- 5032页二、三[2] AngelXChang ， ThomasFunkhouser ， LeonidasGuibas，Pat Hanrahan，Qixing Huang，Zimo Li，SilvioSavarese，Mano-lis Savva，Shuran Song，Hao Su，et al.Shapenet：一个信息丰富的3D模型存储库。2015. 2[3] Christopher B Choy，JunYoung Gwak，Silvio Savarese，and Manmohan Chandraker.通用通信网。神经信息处理系统的进展，第2414-2422页，2016年。一、二[4] Jifeng Dai，Haozhi Qi，Yuwen Xiong，Yi Li，GuodongZhang，Han Hu，and Yichen Wei.可变形卷积网络。在IEEE计算机视觉国际会议集，第764-773页，2017年。一、二、八[5] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。在 Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition，第248二、五[6] Gilad Divon和Ayellet Tal。视点估计-洞察模型。在欧洲计算机视觉会议论文集，第252-268页，2018年。一二三六七[7] Mohamed Elhoseiny 、 Tarek El-Gaaly 、 Amr Bakry 和Ahmed Elgammal。多视角cnn模型在关节目标分类与位姿估计中的比较分析与研究国际机器学习会议，第888-897页，2016年。1、8[8] Mark Everingham 、 SM Ali Eslami 、 Luc Van Gool 、Christo-pherKIWilliams 、 JohnWinn 和 AndrewZisserman 。 Pascal Visual Object Classes Challenge ： ARetrospective.International Journal of Computer Vision，111（1）：98-136，2015. 5[9] Pedro F Felzenszwalb 、 Ross B Girshick 、 DavidMcAllester和Deva Ramanan。使用区分性训练的基于部分的模型进行对象检测。IEEE Transactions on PatternAnalysis and Machine Intelligence，32（9）：1627六、七[10] Andreas Geiger，Philip Lenz，and Raquel Urtasun.我们准备好自动驾驶了吗？ Kitti Vision 基准套件。在Proceedings of the IEEE Conference on Computer Visionand Pattern Recognition，pages 3354-3361，2012中。二五六八[11] 罗斯·格希克。快速R-CNN。IEEE国际计算机视觉会议论文集，第1440-1448页，2015年二、四[12] Ross Girshick，Jeff Donahue，Trevor Darrell和JitendraMalik。丰富的特征层次结构，用于精确的对象检测和语义分割。在 Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition，第580-587页一二四六七[13] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick. 面具 R-CNN 。在 Proceedings of theIEEE International14173计算机视觉会议，第2961-2969页，2017年。1,三、五[14] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.深入研究整流器：超越人类水平的图像分类性能。在IEEE计算机视觉国际会议论文集，第1026-1034页，2015年。5[15] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE Conference on Computer Vision and PatternRecognition，第770-778页，2016中。一、五、六、七、八[16] MaxJaderberg，KarenSimonyan，AndrewZisserman，等.空间Transformer网络。神经信息处理系统进展，2017-2025页，2015年。一、二、四[17] Asako Kanezaki，Yasuyuki Matsushita，and YoshifumiNishida.旋转网：使用来自无监督视点的多视图的联合对象分类和姿态估计。在IEEE计算机视觉和模式识别会议论文集，第5010-5019页2[18] Seungryong Kim ， Stephen Lin ， Sang Ryul Jeon ，Dongbo Min，and Kwanghoon Sohn.用于语义对应的递归Transformer神经信息处理系统的进展，第6126-6136页，2018年。2[19] 亚历克

下载后可阅读完整内容，剩余1页未读，立即下载