属性引导增强：深度学习的数据扩充方法的实用性探究

57 浏览量更新于2023-10-15 收藏 1.02MB PDF 举报

文件标签

数据扩充

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1属性引导增强圣地亚哥大学mdixit@ucsd.edu萨尔茨堡大学rkwitt@gmx.at马克·尼塔默（MarcNiethammer）mn@cs.unc.eduNunoVasconcelos UC圣地亚哥nvasconcelos@ucsd.edu摘要我们考虑数据扩充的问题，即，生成人工样本以扩展给定的训练数据语料库。具体来说，我们提出了属性引导的增强（AGA），它学习一个映射，允许合成数据，使得合成样本的属性是在一个期望的这是特别有趣的情况下，没有属性的一个符号的数据很少可用于学习，但我们有机会获得大量注释样本的外部语料库。虽然以前的作品主要是在图像空间中增强，但我们建议在特征空间中执行增强。我们将我们的方法实现为一个深度编码器-解码器架构，该架构以端到端的方式学习合成函数。我们证明了我们的方法在以下问题上的实用性：（1）迁移学习设置中的一次性对象识别，其中我们没有新类的先验知识，以及（2）基于对象的一次性场景γ属性（强度）预测器（单独训练）深度在1-2 [m]范围内的椅子识别.作为外部数据，我们利用来自SUN RGB-D数据集的3D深度和姿态信息。我们的实验表明，高级CNN特征的属性引导增强大大提高了这两个问题的一次性识别性能。1. 介绍在大规模数据上训练的卷积神经网络（CNN）在传统视觉问题（如物体识别[20，30，34]和物体检测[14，27]）上取得了显着进步。成功主要是由于它们对语义上有意义的视觉概念的高选择性，例如，对象和对象部分[29]。除了确保在感兴趣的问题上具有良好的性能外，CNN的这种特性还允许将知识转移到其他几个视觉任务[9，15，6，8]。物体识别网络[20]中，例如，已成功地用于对象检测[14，27]、场景分类[15，8]、纹理分类[6]和域自适应[9]。图1：给定某个对象属性的预测变量γ：X →R+（例如，深度或姿态），我们提出学习对象特征x ∈ X的映射，使得（1）新的合成特征x∈Xt-t很小。在本图中，我们学习了范围内具有关联深度值的从1-2 [m]到t= 3[m]，并将此映射应用于新对象类的实例。在我们的方法中，这种映射是以对象不可知的方式学习的对于我们的示例，这意味着来自“椅子”和“桌子”的所有训练数据基于CNN的传输通常通过在新的图像数据集上微调预训练的网络（例如[20]中）或通过基于预训练的网络层的激活在这样的数据集上设计新的图像表示来实现[9，15，8，6]。最近的transfer提案在不同的预测任务中表现出了高度的竞争力，并且具有适度的新数据量（每类只有50张图像）。然而，基于迁移的方法的有效性尚未在更严格的约束下进行测试，例如在几次或一次学习的情况下。在这些问题中，可用于学习的例子的数量可能少到每个类一个。微调具有数百万参数的预训练CNN，7455深度在1-2 [m]范围内的桌子表培训数据椅子学习φ3[一、二]γ（λx）λ3[m]（使用γ）x›→φx=φ3（x）[一、二]培训数据(e.g.、RCNN功能）Xγ（x）= 1.3公司简介实例x，从新类7456这种不充分的数据集显然不是一个可行的选择。在CNN激活上训练的一次性分类器也容易由于特征空间的高维性而过度拟合。解决有限数据问题的唯一方法是通过为给定类获取更多示例来扩充虽然增强技术可以简单到翻转，旋转，添加噪音，或从图像中提取随机作物[20，5，37]，但特定于任务的或引导的增强技术，采样策略[4，16，28，25]具有生成更真实的合成样品的潜力。这是一个特别重要的问题，因为CNN的性能在很大程度上依赖于我们在看不见的测试数据中预期的可变性的足够覆盖。在场景识别中，我们希望，例如，在场景类别的星座和瞬态中有足够的可变性（c.f.[21]），而在对象识别中，我们希望某些对象的特定背景、照明条件、姿势或深度（仅举几例）的可变性。不幸的是，这种可变性通常是特定的，并且可能导致识别结果的实质性偏差[35]。在我们的工作背景下，一个重要的观察是，增强通常是在图像或视频级别上执行的。虽然这对于简单的技术（如翻转或裁剪）来说不是问题，但如果使用更复杂的增强技术，则其可能会变得在计算上昂贵。我们认为，在特定的问题设置中，增强也可以在特征空间中进行，特别是在特征输入到后续学习步骤的情况下。这很常见，例如，在识别任务中，训练CNN的softmax输出通常不直接使用，而是将早期层的激活输入到外部判别分类器。贡献我们提出了一种方法来增加训练集的特征描述符，而不是图像。具体来说，我们提倡一种增强技术，它学习合成特征，由一组对象属性（如深度或姿势）的期望值指导这一概念的说明如图所示。1.一、我们首先训练一个快速RCNN [14]检测器来识别2D图像中的对象。然后训练神经网络回归器，预测检测到的对象的3D属性，即其距离相机平面的深度和姿态。然后训练编码器-解码器网络，对于在一定深度和姿态处检测到的对象，该网络使用这种架构，对于一个新的图像，我们能够通过一组辅助特征来增强前特征描述符，这些特征对应于对象改变其3D位置。由于我们的框架依赖于对象属性来指导增强，我们将其称为属性引导增强（AGA）。Organization. 秒2.回顾以前的工作。秒3介绍了所提出的编码器-解码器结构的属性-引导增强。秒4详细研究了这种方法的构建模块，并证明了特征空间中的AGA提高了一次性对象识别和基于对象的场景识别性能。秒第5段最后对未来的潜在方向进行了讨论和2. 相关工作我们对相关工作的回顾主要集中在数据增强策略上。虽然在训练深度神经网络的背景下已经提出了许多技术以避免过度拟合并增加数据的可变性，但其他（有时密切相关的）技术已经不可避免地出现在一次性和转移学习的背景下我们可以粗略地将现有的技术分为（1）通用的，计算成本低的方法和（2）任务特定的，或指导的方法，通常是更多的计算参与。作为第一组的代表，Krizhevsky等人。[20] 利用一组标签保留变换，如补丁提取+反射和基于PCA的强度变换，以增加训练样本大小。 Zeiler和Fergus使用了类似的技术[37]。在[5]中，Chatfield和Zisserman证明了[20]的增强技术不仅有利于训练深度架构，而且浅层学习方法也同样受益于这种简单和通用的方案。在第二类制导增稳技术中，最近提出了许多方法。在[4]中，例如，Charalambous和Bharath在步态识别的背景下使用引导增强。作者建议模拟合成步态视频数据（从化身获得）与各种混杂因素（如服装，头发等）。以扩展培训主体。在精神上类似，Rogez和Schmid [28]提出了一种基于图像的合成引擎，用于通过具有更大姿态可变性的逼真图像来增强现有的2D人体姿态数据这是通过利用3D运动捕捉（MoCap）数据来完成的。在[25]中，Penget al.还使用CAD模型形式的3D数据来渲染对象的合成图像（具有不同的姿势，纹理，背景），然后用于训练CNN进行对象检测。结果表明，合成数据是有益的，特别是在很少（或没有）训练实例可用，但三维CAD模型的情况下。Su等人[33]遵循从3D模型绘制图像以用于视点估计类似流水线，然而，获得了实质上更多的合成数据，例如，通过在渲染之前变形现有的3D模型。另一种（数据驱动的）引导增强技术由Hauberg等人介绍。[16 ]第10段。作者建议从外部训练数据中学习特定于类的转换，而不是像[20，37，5]中那样手动指定转换。然后将学习到的转换应用于7457我我我我我i=1每个班级的样本具体而言，从数据中学习的同构和令人鼓舞的结果证明在数字识别的上下文中的MNIST。值得注意的是，这种策略在概念上类似于Miller等人的早期工作。[23]在一次学习中，作者通过一个称为凝结的迭代过程为数字图像合成了大小的额外数据。在该过程中，通过优化一类几何变换（例如，仿射变换）。然后将这些转换应用于新类的单个实例，以增加一次性学习的数据。与我们的工作无关，我们注意到已经提出了隐式学习空间变换的替代方法。例如，Jaderberget al. [18]引入空间Transformer模块，可以将其注入现有的深度架构中，以隐式地捕获数据中固有的空间变换，从而提高此类变换的不变性。虽然之前讨论的所有方法本质上都是提出图像级增强来训练CNN，但我们的方法不同之处在于我们在特征空间中执行增强。沿着这些路线，Kwitt等人的方法。[21] 在概念上与我们的工作相似。详细地说，作者建议在场景识别上下文中学习特征如何作为某些瞬时属性（例如晴天、多云或有雾）的强度的函数而变化。然后，这些模型被转移到以前看不见的数据中进行一次性识别。然而，他们的方法和我们的方法之间有两个关键的区别。首先，它们需要用属性轨迹标记的数据集，即，一个类的每个实例的属性的所有变量另一方面，我们其次，它们的增强器是以场景类特定方式训练的简单线性回归器相比之下，我们以类不可知的方式学习深度非线性模型，这使得可以直接应用于转移设置中的识别。3. 架构记法。为了描述我们的架构，我们让X表示我们的特征空间，x∈ X <$RD表示特征描述符（例如，一个对象的表示），A表示一个集合属性强度以受控方式改变为T。更正式地说，我们的目标是学习φ ：X×R+→X ，（ x ， t） <$→x<$ ，S.T.γ（x）t（一）因为，在Eq.（1）过于一般化，我们将问题约束到这样的情况，其中我们对于属性A的范围内的间隔[li，hi]的选择和T个期望对象属性值tk的选择学习不同的φk。在我们的插图图。1，例如，我们有一个interval[l，h]=[1，2]和一个目标值为3[m]的属性（深度）。虽然学习单独的合成函数简化了问题，但它需要一个好的先验属性（强度）预测器，否则我们无法决定使用哪个φk在测试过程中，我们（1）预测对象属性值从其原始特征x，即，γ（x）=t，然后（ 2 ）合成附加特征，如 x∈φk （x），其中k=1，. . . 、T. 如果t∈[li，hi]<$tk∈/[li，hi]，则使用φk。接下来，我们将详细讨论这种方法的每个组成部分3.1. 属性回归我们的体系结构的一个重要部分是对于给定的属性A的属性回归器γ：X →R+。该回归器将特征x作为输入并预测其强度或值，即，γ（x）=t。虽然γ在原则上可以通过各种方法来实现，例如支持向量回归机，但它可以通过多种方法来实现。而对于高斯过程[10]或高斯过程[3]，我们使用一个两层神经网络来完成这个任务。这不是任意的选择，因为它稍后将使我们能够在合成函数φk的学习阶段中容易地重新使用该构建块。属性回归器的架构如图所示。2，由两个线性层组成，通过批归一化（BN）[17]和整流线性单元（ReLU）[24]交织。虽然这种架构确实很简单，但在我们的实验中，添加更多的层并没有带来明显更好的结果。然而，该组件的设计是针对特定问题的，并且可以很容易地被更复杂的变量所取代，这取决于需要预测的属性的特征。Config. ：D = 4096A = 64外部训练语料库中的对象可用的属性。此外，我们让s∈R+表示与x相关联的属性A∈ A的值。我们假设（1）这个属性可以由一个属性回归量是林书[D，M]：x联系我们∈RDγ›→Ax+b联系我们∈RMγ：X →R+;（2）它的值域可分为I个区间[li，hi]，其中li，hi表示第i个区间的上下界.所需对象的集合-图2：属性回归变量γ的架构。学习属性回归量可以很容易地从贡献值是{t1，. . . ，tT}。N个训练元组的集合{（xi，si）}N对于每一个-Objective. 在概念层面上，我们的目标是综合函数φ，给定某个对象属性A的期望值t，变换对象特征x∈ X，使得致敬由于属性回归器的任务是预测原始特征x位于哪个区间，在该步骤中我们不输入：x∈ X<$RD是林书[D、M]BN+ReLU是林书[M，1]ReLUOutputt：t∈R+7458γReLU是林书[A、D]（B、A）座（A、B）区（D、A）座我我我我+我我我3.2. 特征回归为了实现1φ，我们设计了一个编码器-解码器架构，让人想起传统的自动编码器[1]。然而，我们的目标不是编码，然后重建输入，而是产生一个输出，类似于一个对象的特征描述符在所需的属性值。换句话说，编码器本质上学习提取特征的本质;解码器然后进行编码并将其解码为期望的结果。一般来说，我们可以将优化问题公式化为Blo输入：x∈ X <$RDConfig. ：D = 4096A = 256B = 32k（x）−xk2RegularizerminL（x，t;φ）=（γ（φ（x））-t）2，（2）属性回归量φ∈C其中最小化是在适当的函数C.值得注意的是，当将φ实现为具有附加的（预先训练的）属性预测器的编码器-解码器网络时（参见图2）。3）和损失（γ（φ（x））-t）2，我们对解码结果几乎没有控制，因为我们不能保证输入的身份被保留。这意味着来自特定对象类的特征可能映射到不再可识别为该类的特征，因为编码器-解码器将仅学习因此，我们将正则化器添加到Eq的目标。（2），即，我们要求解码结果接近，例如，在2-norm中，到输入。这改变了Eq.（2）至（网络培训期间冻结）（γ（φk（x））−t）2错配罚分（用于所需的对象属性值）图3：AGA的编码器-解码器网络示意图。在训练期间，属性回归量γ被附加到网络，而对于测试（即，特征合成）该部分被移除。当学习φk时，输入x使得相关联的属性值s在[li，hi]内，并且每个期望的属性值tk学习一个φ k。valsper attribute和T目标值，我们得到|一|·I·T合成功能。4. 实验minL（x，t;φ）=（γ（φ（x））−t）2+λφ（x）−x2.（三）我们首先讨论生成足够的训练数据φ∈C联系我们错配罚分联系我们Regularizer对于编码器-解码器网络，然后分别评估我们架构的每个组件，并最终demon-换句话说，这就像是一个失去的人。一个添加了目标属性不匹配惩罚的toencoder网络实现函数类C来学习φ的编码器-解码器网络如图所示。3.第三章。核心构建块是线性层、批处理归一化、ELU [7]和dropout [32]的组合在最后的线性层r之后，我们添加一个ReLU层以强制x∈RD。学习训练图1的编码器-解码器网络。3需要一个先验训练的属性回归变量γ，对于每个给定的属性A ∈ A。在训练过程中，该属性regres-sor被附加到网络中，其权重被冻结。因此，仅更新编码器-解码器权重。为了针对对象属性范围的每个区间[li，hi]和期望的对象属性值tk训练一个φk，我们将来自外部语料库的训练数据划分为子集Si，证明了<$（xn，sn）∈Si：sn∈[li，hi]. 一个φk是从Si，用于每个期望的对象属性值tk。培训在特征空间X中，我们没有卷积层，因此训练在计算上很便宜。为测试─ing，属性回归量被移除，并且仅训练的编码器-解码器网络（实现φk）被用于合成特征。因此，鉴于|一|属性，我间-1为了可读性，证明其在（1）在转移学习设置中的单次对象识别和（2）单次场景识别上的效用数据集。我们使用来自Song等人的SUN RGB-D数据集。[31 ]第30段。该数据集包含10335张带有深度图的RGB图像，以及2D和3D边界框形式的1000多个对象的详细注释。在我们的设置中，我们使用对象深度和姿态作为属性，A={深度，姿势}。对于每个地面实况3D边界框，我们提取其质心处的深度值并获得姿态信息作为3D边界框关于垂直y轴的旋转。在所有实验中，我们使用前5335张图像作为我们的外部数据库，即，我们假设属性注释可用的数据库剩下的5000张图片用于测试;在具体实验中给出了更多细节。训练数据。值得注意的是，在SUN RGB-D中，每个对象类的实例数量并不是均匀分布的，这仅仅是因为该数据集不是专门为对象识别任务设计的。因此，图像也不是以对象为中心的，这意味着对象的位置以及它们出现的深度和这使得很难提取足够的和平衡数量的特征描述符，每个obb。ck（A，B）辍学BN+ELU是林书[A、B]网络（实现φk）我7459垃圾箱Ground-truthRCNN检测监测D：dP：αβD：dP：αβ我椅子物体D（MAE [m]）逐对象不可知的P（MAE每对象[deg]）不可知浴缸0.230.9437.9746.85床0.390.3044.3642.59书架0.570.4352.9541.41箱0.550.5127.0538.14椅子0.370.3137.9032.86计数器0.540.6240.1652.35桌面0.410.3648.6341.71门0.491.9152.73102.23梳妆台0.320.4167.8870.92垃圾桶0.360.3247.5145.26打印机灯0.420.6925.9323.91显示器0.240.2234.0425.85床头柜0.560.6523.8020.21枕头0.380.4332.5635.64下沉0.200.1956.5245.75沙发0.400.3334.3634.51表0.370.3341.3137.30电视0.350.4835.2924.23厕所0.260.2025.3219.59∅0.390.5140.3341.12图4：训练数据生成的图示。首先，我们获得了选择性搜索[36]提案的快速RCNN[14]激活（FC7层），这些提案与2D地面实况边界框（IoU> 0.5）重叠，并且得分>0.7（对于特定对象类）以生成足够量的训练数据。第二，属性值（即，深度D和姿态P）与建议（以颜色最佳观看）相关联object类，如果我们只使用地面实况边界框来提取训练数据。我们通过利用[14]的快速RCNN检测器和选择性搜索生成的对象建议来规避这个问题。详细地说，我们将ImageNet模型从[14]微调到SUN RGB-D，使用与[31]相同的19个对象。然后，我们对来自训练分割的所有图像运行检测器，并保留检测分数> 0的建议。7以及与2D地面实况边界框的足够重叠（通过IoU>这是一种简单的增强技术，可以增加可用的训练数据量。然后将关联的RCNN激活（在FC7层）用作我们的特征x。在重叠和分数阈值化之后剩余的每个提议由3D中的对应地面实况边界框的属性信息注释。由于这种策略生成了大量的描述符（与地面实况边界框的数量一致），我们可以均匀地平衡训练数据，因为我们可以为每个对象类选择相等数量的检测来训练（1）属性回归器和（2）编码器-解码器网络。训练数据生成如图所示。四个示例图像。实施. 属性回归器和编码器-解码器网络在Torch中实现。所有模型都是使用Adam[19]训练的对于属性回归器，我们训练了30个epoch，批量大小为300，学习率为0。001。编码器-解码器网络也以相同的学习率训练了30个epoch，但使用了一批表1：属性回归量的深度/姿态的中位绝对误差（MAE），在[ 31 ]的19个对象上进行评估。在我们的设置中，姿态估计误差量化了预测绕z轴旋转的误差D表示深度，P表示姿势。作为参考，训练数据中的对象属性的范围对于深度是[0.2m，7.5m]，对于姿势是[0米，180米]。结果是5次训练/评估运行的平均值。在实验中，我们使用线性 C-SVM ，如在liblinear[11]中实现的。在运行 Ubuntu 16. 04 的Linux系统上，具有128 GB内存和一个NVIDIA TitanX，训练一个模型（即，一个φk）需要130秒。对计算资源的需求相对较低，突出了AGA在特征空间中的优势，因为不需要训练卷积层。所有的训练模型和源代码都可以在网上公开获得。4.1. 属性回归虽然我们的数据增强策略AGA对对象类是不可知的，但在训练和测试数据集中，将属性预测性能与我们训练特定于对象的回归的情况进行比较是很有趣的。sors换句话说，我们将对象不可知的训练与训练一个回归器γj，j∈{1，. . . 、|S|}，对S中的每一个对象类都有一个类.这使我们能够量化对象不可知设置中预测性能的潜在损失。表1列出了每个对象的深度（以[m]为单位）和姿态（以[deg]为单位）预测的中位绝对误差（MAE）。我们在SUN RGB-D的训练分割中对19个对象类（S）的实例进行训练，并对相同对象类的实例进行测试，但从测试分割中提取尽我们所能看，以特定对象的方式进行训练会导致整体MAE较低，无论是深度还是姿势。这并不令人惊讶，因为训练数据更专门针对每个特定对象，这基本上相当于解决简单的子问题。然而，在许多情况下，特别是对于深度，对象不可知回归器表现相当，除了具有较少训练样本的对象类（例如，门）。尺寸128 设置训练期间的退出概率至0二十五测试中未使用脱落。为了我们的经典-2https://github.com/rkwitt/GuidedAugmentation7460我我我我我我我我我我们还注意到，一般来说，根据2D数据进行姿态估计是比深度估计（即使在每像素级别上，C.F. [22]）。然而，我们的识别实验（在秒。4.3和4.4）示出即使姿态预测器的性能一般（由于对称性问题等），在这方面的增加仍然是有益的。4.2. 特征回归我们评估了回归量φk的性能，如图所示。3、用于合成特征生成。在所有实验中，我们使用重叠滑动窗口将每个属性A∈ A的范围划分为I个区间[l，h]。在深度的情况下，我们设置[l，h]=[0，1]，并且i i0 0将每个间隔移位0。5米;在姿势的情况下，我们设置[l0，h0]=[0，45]并移动25。我们根据需要生成尽可能多的区间，以覆盖属性的整个范围训练数据中的值。设置箱宽/步长以确保每个箱中的特征数量大致相等。对于增量，我们选择0。五，一，. . ，max（深度）作为“深度”和“45mm、70mm、. . . ，180公斤为Pose。这导致T=11个深度目标值而T=7则代表姿势。我们使用两个独立的评估指标来评估φk的性能。首先，我们感兴趣的是特征回归器可以生成与所需属性目标值相对应的特征。为了实现这一目标，我们通过属性预测器运行每个合成特征x，并评估MAE，即， |γ（x）−t|，在所有属性获取之上t. 表2列出了每个对象的平均MAE（1）特征从训练数据中看到的对象类，(2) 我们从未见过的物体的特征。从表2中可以看出，可见和不可见对象的MAE是相似的，这表明编码器-解码器已经学会了合成特征，使得γ（x）t。其次，我们感兴趣的是有多少合成的fea-与原始特征不同。虽然我们不能直接评估这一点（因为我们没有来自多个深度和姿态的一个特定对象实例的数据），但我们可以评估合成特征与原始特征的“接近”程度。这里的直觉是，在特征空间中，表示保持对象身份的合成。原则上，我们可以简单地计算<$φk（x）−x <$2，然而，2-范数很难解释。相反，我们计算每个原始特征与其合成变体之间的皮尔逊相关系数ρ，即， ρ（x，φk（x））。作为ρ的范围为[-1，1]，高值表示强线性与原始特征的关系结果报告表2中与我们之前的MAE结果类似，我们观察到，当对所有对象进行平均时，对于未出现在训练数据中的对象，ρ略低。然而，这种相关性的降低相对较小。总之，我们得出结论，这些结果保证了表2：φkw.r.t.(1)合成特征和原始特征的Pearson相关性（ρ）和（2）合成特征的预测属性值的平均MAE，γ（φk（x）），w.r.t.期望的属性值t. D表示深度-aug.特征（MAE，单位为[m]）;P表示姿态-增强特征（MAE，单位为[deg]）。在来自训练语料库中未出现的对象类的特征描述符上使用φk这使我们能够在迁移学习设置中测试φk4.3和4.4。4.3. 单次目标识别首先，我们展示了我们的方法在迁移学习设置中的一次性对象识别任务上的实用性。具体来说，我们的目标是从外部注释数据库（在我们的情况下，SUNRGB-D）中可用的对象类实例中学习属性引导的增量因子φk我们将这个对象类的集合表示为我们的源类S. 给定一个来自完全不同的对象类，表示为目标类T，我们的目标是在T上训练判别分类器C，i。例如， C：X→{1，. . . 、|不|{\fn方正粗倩简体\fs12\b1\bord1\shad1\3cH2F2F2F} 在此设置中，ST=。注意，T中对象类的实例没有属性注释可用。这可以被认为是迁移学习的一个变体，因为我们从S中的对象类到T中的对象类的实例，而不需要任何关于T的先验知识。Setup. 我们在以下设置中评估了三个以前未见过的对象类集合的一次性对象识别性能：首先，我们随机选择两组10个对象类，并确保每个对象类在SUN的测试分割中至少有100个样本对象ρD（MAE [m]）ρ P（MAE [deg]）浴缸0.75 0.10病床0.81 0.07 0.82 3.30书架0.80 0.06 0.79 3.36箱0.74 0.08 0.74 4.44主席计数器0.76 0.08 0.77 3.90办公桌门0.67 0.10 0.63 4.71梳妆台0.79 0.08 0.77 4.12垃圾桶0.76 0.07 0.76 5.30灯0.82 0.08 0.79 4.83显示器0.82 0.06 0.80 3.34床头柜枕头0.80 0.08 0.81 3.87水槽0.75 0.11 0.76 4.00沙发0.78 0.08表0.75 0.07 0.74 4.10电视0.78 0.08 0.72 4.66厕所0.80 0.10 0.81 3.700.77 0.08 0.76 4.10图片0.67 0.08 0.65 5.13长软椅0.70 0.09 0.70 4.41白板0.67 0.12 0.65 4.43冰箱0.69 0.10 0.68 4.48计数器0.76 0.08 0.77 3.982008年12月31日炉灶0.71 0.10 0.71 4.50办公室0.74 0.09 0.72 3.99打印机0.73 0.08 0.72 4.59计算机0.72 0.09 0.71 4.35看不见的物体（T1）可见物体，见表1746156.92摄氏度47.04C42.87摄氏度基线AGA+DAGA+PAGA+D+P单触发T1（10）33.7438.32 C37.25摄氏度T2（10）23.7628.49 C27.15摄氏度T3（20）22.8425.52 C24.34C26.67摄氏度五杆T1（10）50.0355.04 C53.83CT2（10）36.7644.57 C42.68摄氏度T3（20）37.3740.46 C39.36C表3：三个物体识别任务的识别准确度（超过500次试验）;顶部：一次拍摄，底部：五次拍摄。括号中的数字表示#类。"从基线。+ D表示将Depth-aug.特征添加到单次实例;+ P表示增加Pose-aug功能，+D，P表示添加深度-/姿态-aug的组合。功能.RGB-D 我们进一步确保没有对象类在S中。这保证了（1）我们从未见过图像，（2）在训练过程中也没有看到对象类。因为，SUN RGB-D不有对象为中心的图像，我们使用地面实况绑定框来获得实际的对象作物。这使我们能够梳理出增强的好处，而不必处理具有诸如背景噪声的混杂因素。这两组对象类分别表示为 T13和 T24.我们对第三组目标类T3=T1<$T2进行编译，并注意到T1<$T2=<$。因此，我们有两个10类问题和一个20类问题。对于Ti中的每个对象图像，我们然后收集RCNN FC7特征。作为基线，我们标准化特征）仅使用Ti中的每个对象类的单个实例（SVM成本固定为10）。然后使用完全相同的SVM参数设置来训练AGA合成的单个实例+特征。我们重复选择一次性实例500次，并报告平均识别准确率。为了进行比较，我们另外列出了相同设置中的5个镜头识别结果。备注。该实验的设计类似于[25，第4.3节]，除了我们（1）不检测物体，（2）在特征空间中执行增强，(3) 没有对象特定信息可用。后者很重要，因为[25]假设Ti中的物体存在3D CAD模型，可以从中渲染合成图像。在我们的情况下，扩增不需要任何先验信息的对象类。结果表3列出了不同单次训练数据集的分类精度。首先，使用由深度引导特征（+D）增强的原始单次实例;第二，使用原始特征+姿势引导特征（+P），第三，两者的组合（+D，P）;一般来说，我们观察到添加AGA合成特征在所有情况下都提高了基线计算机@2.6[m]ABS.梯度差：3 [m] vs. 4 [m]绝对值梯度差：3 [m]对比4.5 [m]图5：当针对增加的期望深度变化反向传播（通过RCNN）原始特征向量和合成特征向量之间的差的2-范数时梯度幅度的差的图示，即，3[m]vs. 4[m]（中间）和3[m]vs. 4.5[m]（右）。对于深度增强功能，增益范围从3-5个百分点，对于姿势增强功能，增益范围从2-4个百分点平均。我们将此效果归因于从2D数据预测对象姿态的困难，如从表1中可以看出的。然而，在两种增强设置中，增益具有统计学显著性（w.r.t.基线），如通过Wilcoxn秩和检验在5%显著性下对等中位数[13]进行将深度和姿态增强功能添加到原始的一次性功能中，可以最大限度地提高识别精度，范围为4- 6%。这表明来自深度和姿态的信息是互补的，并且允许更好地覆盖特征空间。值得注意的是，我们还尝试了Fink [12]的度量学习方法只导致在基线上的可忽略的增益（例如，T1时为33.85%。特征分析/可视化。为了评估特征合成的性质，我们通过RCNN层反向传播梯度w.r.t.原始特征向量和合成特征向量之间的2-范数。输入梯度的强度指示对象的每个像素必须改变多少才能在样本的深度/姿势中产生成比例的变化。从图1的例子中可以看出，5，深度的更大的期望变化在监视器上调用更强的梯度。第二，我们进行了一个检索实验：我们抽取了1300个10个（看不见的）对象类（T1）的实例和每个实例的合成特征w.r.t.深入综合特征用于检索原始的1300个特征。这允许评估合成特征（1）是否允许检索相同类的实例（Top-1 acc.）以及（2）期望的属性值。后者用测定系数（R2）来衡量如表4所示，R2分数表明我们实际上可以检索具有所需属性值的实例。值得注意的是，即使在R2=0（即，线性模型不能解释变异性），结果仍然显示良好的Top-1 acc.，透露合成并不改变类成员。4.4. 基于对象的单镜头场景识别3T1={图片、白板、冰箱、柜台、书籍、炉灶、橱柜、打印机、电脑、搁脚凳}4T2={马克杯、电话、碗、瓶子、扫描仪、微波炉、咖啡桌、回收站、手推车、长凳}动机我们还可以将AGA用于不同类型的传输，即从对象检测网络到一次性场景识别的传输虽然，物体检测是39.10摄氏度30.12C7462我对象Top-12R对象Top-12R图片0.330.36白板0.120.30冰箱0.260.08计数器0.640.18书0.520.07炉子0.200.13内阁0.570.27打印机0.310.02计算机0.940.26奥斯曼0.600.12表4：当使用不同深度的合成特征进行查询时，未看到的对象（T1）的检索结果较大的R2值表示与检索实例的深度值有较强的线性关系（R2∈[0，1]）将RCNN特征从提案中汇集到固定大小的表示中。我们使用max-pooling作为基线。在增强时，使用预测的深度/姿态，图像具有足够的RCNN特征来计算基于GMM的FV。为此，我们使用[8]中的实验设置。根据用于指导增强的属性，FV表示为AGA FV（+D）和AGA FV（+P）作为分类器，我们使用具有固定参数（C）的线性C-SVM方法准确度[%]最大合并（基线）13.97瑞典克朗[8]AGA Sem-FV地方[38] 51.28AGA地点表5：对25个室内场景类进行单镜头分类[26]：礼堂、面包房、卧室、书店、儿童房、教室、电脑室、音乐厅、走廊、牙科诊所、餐厅、医院房间、实验室、图书馆、客厅、大厅、会议室、电影厅、托儿所、办公室、手术室、食品室、餐厅}。对于Sem-FV[8]，我们使用以一个图像尺度提取的ImageNet CNN特征。这本身就是一项具有挑战性的任务，每年在诸如ImageNet挑战赛之类的竞赛中都会取得重大进展因此，将目标检测中的增益扩展到其他相关问题，如场景识别，是非常有意义的。一个使用精确的对象检测器（如RCNN [14]）来执行场景识别的系统支持单次场景识别的对象检测器可以用最少的额外数据来完成。必须注意的是，这样的系统不同于基于对象识别的方法，例如[15，8，6]，其中不需要对象的显式检测。它们将对象识别CNN的过滤器应用于图像的几个区域，并从所有区域中提取特征，无论是否找到对象。因此，他们可用的数据足以学习复杂的描述符，如Fisher向量（FV）。另一方面，检测器可以基于所发现的物体的数量从图像产生非常少的特征。AGA是为RCNN检测到的对象的特征可以被增强的场景量身定制的。Setup. 为了在这种情况下评估AGA，我们选择了MITIndoor的25类子集[26]，其中可能包含RCNN训练的对象。之所以这样选择，是因为我们依赖于检测CNN，它有来自SUN RGB-D的19个对象的词汇表。目前，这是提供对象及其3D属性的最大数据集。如果有更大的RGB-D对象数据集可用，该系统可以轻松扩展以容纳更多的场景类。由于RCNN对每个场景图像产生的检测很少，因此在没有增强的情况下，最好的方法是结果表5列出了多次迭代的平均单次识别准确度。AGA的好处是显而易见的，因为这两个aug。FV的表现比最大池基线好0.5-1%。在增强的FV和最大池化的组合（连接向量）上的训练（表示为AGA CL-1、AGACL-2和AGA CL-3）进一步提高约1-2%点。最后，我们结合了我们的aug。具有最先进的语义FV的FV [8]和用于一次性分类的Places CNN特征[38]。两种组合，表示为AGA Sem-FV和AGA地方，提高了一个不平凡的利润率（0.1%点）。5. 讨论我们提出了一种在特征空间中属性引导的增强方法。实验表明，物体属性，如姿态/深度，在单次识别的情况下是有益的，即，有限训练数据的极端情况。值得注意的是，即使在属性回归量的性能一般的情况下（例如，在姿态上），结果表明合成特征仍然可以为分类过程提供有用的信息。虽然我们在对象识别实验中确实使用了边界框来从SUN RGB-D中提取对象裁剪，但这只是为了清楚地梳理增强的效果原则上，由于我们的编码器-解码器是以对象不可知的方式训练的，因此不需要关于类的外部知识。由于SUN RGB-D在这两个属性的范围内表现出高度的可变性，因此沿着这些维度的增强确实可以帮助分类器训练。然而，当可变性有限时，例如，在受控采集设置下，增益可能不太明显。在这种情况下，可能需要相对于其他对象属性的增强。有两个方面对今后的工作特别有意义。首先，用专门定制的分量替换姿态的属性回归量将潜在地改进合成函数φk的学习并导致更真实的合成样本。第二，我们推测，随着具有更多注释的对象类和属性的附加数据变得可用（例如，[2]），编码器-解码器可以利用更多样化的样本，从而更准确地对关于属性值的特征变化进行建模。致谢。这项工作得到了NSF奖项IIS-1208522，CCF-0830535，ECCS-1148870和gener-Nvidia捐赠的GPU52.1134.36AGA FV（+D）AGA FV（+P）15.1314.63AGA CL-1（+D，max.）16.04AGA CL-2（+P，最大值）15.52AGA CL-3（+D，+P，max.）16.327463引用[1] Y. 本吉奥。学习AI的深度架构 Found. 趋势马赫数学习. ，2（1）：1-127，2009. 4[2] A. Borji，S. Izadi和L.伊蒂iLab-20 M：用于研究深度学习的大规模受控对象数据集。在CVPR，2016年。8[3] C. W. C.E.拉斯穆森机器学习的高斯过程。麻省理工学院出版社，2005年。3[4] C. Charalambous和A.巴拉斯用于训练机器/深度学习步态识别算法的数据增强方法。在BMVC，2016年。2[5] K. Chatfield，K. Simonyan、A.

下载后可阅读完整内容，剩余1页未读，立即下载