没有合适的资源?快使用搜索试试~ 我知道了~
150580教授CNN的组合性0Austin Stone Yi Liu Huayan Wang D. Scott PhoenixMichael Stark Dileep George0Vicarious FPC,旧金山,加利福尼亚州,美国0{ austin, huayan, michael, yi, scott, dileep } @vicarious.com0摘要0卷积神经网络(CNNs)在计算机视觉中取得了巨大的成功,通过应用特定的损失函数进行特定任务的训练时,其性能接近人类水平。在本文中,我们提出了一种增强和训练CNNs的方法,使其学习到的特征具有组合性。它鼓励网络形成将对象与其周围环境和其他对象分离的表示,从而促进更好的泛化。我们的方法对应用它的底层CNN的具体细节是不可知的,原则上可以与任何CNN一起使用。正如我们在实验中所展示的,学习到的表示导致特征激活更加局部化,并在目标识别任务中改善了非组合性基线的性能。01. 引言0卷积神经网络(CNNs)在许多计算机视觉任务中表现出色[21, 20, 42, 37, 35],包括图像分类[20],目标类别检测[41,12],实例分割[13],图像字幕[18,44]和场景理解[6]。它们的成功通常归因于两个因素:它们具有足够大的容量,可以有效利用当今不断增长的图像训练数据量,同时通过从神经科学中获得的归纳偏差来管理自由参数的数量。具体来说,局部连接的滤波器和池化层的交错[15]类似于视觉皮层中简单细胞和复杂细胞的交错,简单细胞具有局部感受野,复杂细胞具有更宽的感受野和更大的局部不变性。最近,研究人员研究了更多从神经科学中获得的归纳偏差来改进CNN架构。例如,从视频序列中学习表示[2, 10,17],鼓励利用深度信息[14],以及使用与环境的物理交互0输入图像0标准CNN0组合性CNN(我们的)0图1:对于标准CNN(VGG,[37]),附近物体(杯子)对感兴趣物体(飞机)区域的激活产生了很大影响。相比之下,使用我们的方法训练的CNN在其特征表示中表现出更好的组合性 -飞机区域的激活主要表示飞机,因此不太受杯子存在的影响。0在这篇论文中,我们遵循了类似的理念,但我们将注意力集中在组合性的归纳偏差上:整体的表示应该由其部分的表示组成(我们在第3节中给出了这个概念的精确形式定义)。直观地说,在训练过程中鼓励这种属性会导致更具鲁棒性的表示(例如,在新颖的环境中看到一个熟悉的物体时)并且不太容易专注于具有区分性但无关的背景特征。这也与神经科学的研究结果一致,该研究结果表明视觉皮层中的图像和背景区域是分开处理的。请注意,典型的卷积神经网络不具备这个属性(图1显示了没有(VGG)和具有我们的组合性目标的训练的CNN之间激活的差异)。与以前的工作相比,该工作设计了组合性的0图1显示了当前帧和飞机单独显示的帧之间飞机区域的激活差异。激活来自具有空间分辨率28×28的中间卷积层。我们对特征通道进行边缘化以创建可视化。50590从头开始构建表示[34,45,43,47],我们的方法不强制要求任何特定的网络架构或参数化-相反,它以一种软方式的修改训练目标的形式出现,可以应用于教任何标准的CNN关于组合性的知识。虽然我们目前的实现需要用于训练的对象掩码,但它允许对使用或不使用组合性目标训练的网络进行直接比较。正如我们的实验所示(第4节),该目标始终在非组合性基线上提高性能。本文的具体贡献如下:首先,我们引入了一种新颖的组合性概念作为训练任意卷积神经网络(CNN)的归纳偏见。它捕捉到了部分图像的表示应该等于该图像的部分表示的直觉。其次,我们以一种修改的CNN训练目标的形式实现了这个概念,我们证明这种目标在优化上是简单而有效的学习组合性表示。第三,我们对合成和真实世界图像进行了广泛的实验评估,突出了我们的方法在目标识别任务中的有效性,并展示了我们目标的不同组成部分的贡献。02. 相关工作0我们的工作主要与三个主要研究方向相关:组合模型、归纳偏见和上下文在视觉识别中的作用。0组合模型。组合模型自计算机视觉的早期就存在[24],主要有两种不同的形式。第一种形式侧重于通过统计建模[8,27,48,47]、可重用的可变形部件[49,29]或组合图结构[36,45]来创建分层特征表示。第二种形式设计了基于神经网络的表示,以递归神经网络[38]、在深度玻尔兹曼机中施加分层先验[34]或引入参数化的网络单元本身是组合性的[43]。我们的工作的基础是一种与所有这些方法都不同的组合性概念(第3.1节),它不必被嵌入到模型的设计中,而可以作为对CNN的软约束应用。最近的工作[28]在弱监督定位的背景下将CNN激活限制在对象掩码内。我们的组合目标(第3.3节)超越了这种形式:它由多个组成部分组成,不仅抑制背景激活,还明确地鼓励对象激活对背景杂乱和相邻对象都是不变的。我们的实验验证了每个组成部分对性能的重要性(第4.3节)。0归纳偏见。最近一系列关于神经网络架构的研究从人类学习中汲取灵感,在训练方案的设计中采用了视频序列而不是静态图像[2,17],假设了一种以对象为中心的视角[10],整合了多模态感知的辅助信息[14],甚至控制了运动[31]。这种方法的好处在于为学习者提供了有助于规范学习表示的有益归纳偏见。本文提出的组合性归纳偏见(第3.1节)具有类似的动机,但与这些先前方法探索的偏见在很大程度上是互补的。0上下文在视觉识别中的作用。众所周知,上下文在视觉识别中起着重要作用,无论是在人类还是人工视觉系统中[9,26,5]。我们的环境往往具有高度的规律性,利用不同对象和场景类别出现的规律性对于识别熟悉的对象[25,4]、不寻常情况下的对象[3]和重复的空间配置[7,30,11,46]都是有益的。在极端情况下,即使在没有局部信息的情况下,也可以通过仅依赖场景上下文成功识别对象类别[33]。虽然基于CNN的表示通常隐含地支持上下文的使用(通过无差别地将像素包含在感受野中),但它们缺乏明确处理上下文和非上下文信息的能力。本文提出的组合性概念(第3.1节)是使基于CNN的表示更易于通过外部机制(通过将对象的表示与其上下文分离)进行显式上下文建模的一步。本文的实验(第4节)没有进一步阐述这一方面,但表明组合目标(i)提高了性能,(ii)对于出现在上下文内外的对象改进相似,(iii)对于非常小的对象实例改进最不明显。03. 教授CNN组合性0本节描述了我们鼓励CNN学习组合表示的方法。为此,我们从介绍我们的组合性概念(第3.1节)开始,然后描述网络架构(第3.2节)和训练过程(第3.3节),最后给出我们实现的技术细节(第3.4节)。03.1. 组合性概念0我们的组合性概念的目标是鼓励图像的一部分的表示与该图像的表示的相应部分相似。更正式地说,设X是一幅图像,m是一个二进制掩码,表示X的一部分(即,m是与X形状相同的张量,其中1表示部分关联),φ是从图像到CNN的任意特征层的映射,p是将φ表示的特征映射投影到的投影运算符。我们定义φ是组合的,当且仅当以下条件成立:m01φu,NmK…………φm1,1m1φm1,n……φm1,Ninputimagedisc.lossesm1m1objectmasksCNNlayers&(1 − γ)LuΣ+l2φmK,1φmK,nφmK,Nφu,1φu,nm0KγLm1γLmK++LoveralllossFClayer|{z}………50600图2:当训练图像中存在多个对象时鼓励组合性的架构和损失函数(L)计算(见第3.2节和第3.3节)。原始CNN(红色)通过K个额外的掩码CNN(蓝色)进行增强,它们共享权重。φ、L和γ分别表示特征映射、损失函数和超参数。实线表示应用于特征映射输出的掩码mk,虚线表示仅用于计算损失的掩码m'k。为简单起见,我们将层和掩码的大小表示为相等。0其中,m是与X形状相同的张量,其中1表示部分关联,φ是从图像到CNN的任意特征层的映射,p是投影运算符,将φ表示的特征映射投影到。我们定义φ是组合的,当且仅当以下条件成立:0φ(m ∙ X) = p(m) ∙ φ(X)。 (1)0这里,运算符∙表示逐元素相乘。投影运算符p将对象掩码下采样到φ的输出大小。例如,如果φ(X)是具有大小(h,w,c)的卷积层的激活(前两个维度是空间维度,c是特征通道的数量),p将对象掩码下采样到大小(h,w),然后将缩小的对象掩码的c个副本堆叠在一起,以产生大小为(h,w,c)的掩码。需要注意的是,在实践中,我们不要求等式(1)对于所有可能的掩码m都成立,因为这会将φ约束为恒等映射。相反,我们有选择地将归纳偏差应用于我们希望作为一个单元处理的图像部分,这些选择的部分的明显选择包括对象或对象部分。在接下来的内容中,我们使用对象掩码(如MS-COCO[23]等标准数据集提供的掩码)作为组合性的基础。03.2. 增强网络架构0为了鼓励网络满足等式(1)(第3.1节)的组合性质,我们设计了一个增强的架构和相应的目标函数。需要注意的是,这种增强是非破坏性的,不会改变原有的网络。0原始网络完全保持不变;它只是对原始网络进行虚拟复制,如图2所示。当输入图像中只有一个对象时,教授组合性的形式是确保该对象区域内的激活在任何背景下都保持不变。对于多个对象,我们还明确确保每个对象的激活与该对象单独显示时的激活相同(即,激活应对于各自的对象掩码内的其他对象是不变的)。为了实现这个概念,我们创建了K+1个共享权重的CNN,其中K是场景中显示的对象数量。这K个CNN中的K个接受不同的对象实例作为输入,每个对象实例都显示在空白背景上(我们将第k个对象实例的掩码应用于输入图像,然后将输入图像提供给第k个CNN)。我们将这K个CNN称为“掩码CNN”,并将其映射到第n层的第k个掩码CNN表示为φmk,n。这K个掩码CNN的每个都在层次结构中的多个层次上重新应用其相应的对象掩码(见第3.4节),将对象区域之外的激活置零。然后,这些掩码激活被传递到更高的层次(可能会以相同的方式再次应用掩码)。这限制了掩码CNN在对输入图像进行分类时只能使用对象掩码区域内的激活。最后一个(第K+1个)CNN接收原始图像作为输入,没有应用任何掩码,我们随后将其称为“未掩码CNN”。我们将其映射到第n层的这个CNN表示为φu,n。我们将总层数表示为N。03.3. 训练过程0我们通过引入一个目标函数来训练第3.2节中的架构,该目标函数将应用特定的鉴别性CNN损失与建立不同屏蔽和未屏蔽CNN之间的依赖关系的额外项相结合。0鉴别性损失。为了鼓励正确的区分,我们为K个屏蔽的CNN和一个未屏蔽的CNN分别添加了独立的鉴别性损失项,分别表示为 L m k 和 L u。它们的相对贡献由超参数 γ ∈ [0, 1]控制,得到0L d = 0K × 0k γL m k + (1 - γ)L u. (2)0组合损失。为了鼓励组合性,我们添加了K ×N个项,用于建立屏蔽和未屏蔽的CNN对应层之间的依赖关系。具体来说,在应用对象掩码的所有层上,我们计算l2差异50610屏蔽的CNN的激活与未屏蔽的CNN的激活之间的差异。然后,我们将这个差异乘以一个特定于层的惩罚超参数(表示为 λ n ),并将其添加到我们的组合损失中:0L c = 10K0�0k0n λ n || φ m k ,n - φ u,n m ′ k || 22. (3)0最终目标可以简单地表示为 L = L d + Lc。由于未屏蔽的CNN可以看到所有的对象,并且由于存在除第k个对象之外的其他对象,其激活与第k个屏蔽的CNN的激活自然会有所不同,因此我们在计算惩罚项之前对未屏蔽的CNN的激活应用一个掩码。我们将这个掩码表示为 m ′k。然而,我们不像对待屏蔽的CNN那样将这些屏蔽的激活(φ u,n m ′k)传递到更高层,我们只使用它们来计算层n上的组合惩罚项。0设计选择。上述目标在选择掩码 m ′ k的具体性质方面留下了自由度,而相应的选择确实会对性能产生影响(第4.3节)。首先,为了惩罚感兴趣对象区域之外的背景激活,我们可以使 m ′ k成为一个由1组成的张量,但除第k个对象之外的所有对象的位置都填充为0。其次,我们可以通过使 m ′ k 等于 m k来惩罚k个对象区域内的激活的任何移动,而不会阻止背景激活。03.4. 实现细节0我们的实验(第4节)使用以下网络架构:MS-COCO-sub(第4.4节):conv1-conv3(224 × 224 × 64),pool1,conv4-conv6(128 × 128 ×128),pool2,conv7-conv9(64 × 64 ×256),pool3,conv10-conv12(32 × 32 ×512),pool4,fc1(131072 × 20)。03D-Single (第4.3节): conv1-conv3 (128 × 128 × 64),pool1, conv4-conv6 (64 × 64 × 128), pool2,conv7-conv9 (32 × 32 × 256), pool3, conv10-conv12(16 × 16 × 512), pool4, fc1 (32768 × 14). MNIST(第4.3节): conv1-conv3 (120 × 120 × 32), pool1,conv3-conv4 (60 × 60 × 64), pool2, conv5-conv6 (30 ×30 × 128), pool3, fc1 (28800 × 10). 鉴别性损失函数 L mk 和 L u可以被实例化为softmax交叉熵或逐元素sigmoid交叉熵,用于联合或独立的类别预测。由于 L c是标准形式,我们可以像任何CNN一样通过SGD进行优化(具体来说,使用ADAM优化器[19]和Tensorflow[1])。经验上,我们发现将 L c应用于网络的最顶层卷积和池化层时可以获得最佳性能(即大多数早期层上的 λ n为零)。我们认为这是CNN需要一定数量的层和相应的表示能力才能成功区分相关和无关(背景)像素的结果。0实际上,我们只创建了两个共享权重的CNN(与物体训练实例的数量无关):一个只看到输入图像中随机选择的K个物体之一,另一个看到整个场景。根据经验,这个模型的训练速度只比标准CNN慢大约50%。由于权重共享,参数空间只是单个CNN的参数空间。γ被固定为0.5。04. 实验0在本节中,我们对我们的方法进行了详细的实验评估,重点是它在合成图像(第4.3节)和真实图像(MS-COCO[23],第4.4节)上相对于标准CNN训练的性能改进能力。我们着重提供对我们组合目标的不同组成部分的贡献进行深入分析,并量化物体上下文对性能的影响。04.1. 数据集和度量标准0渲染的3D物体。我们在两个新颖的渲染3D物体数据集上进行诊断实验。我们使用渲染的数据集,以便对我们的图像数据的统计特性(尤其是分割掩模)具有最大的控制。具体而言,这些数据集基于12个3D物体类别(如汽车、公共汽车、船或飞机),每个类别大约有20个物体实例,每个实例从50个不同的视点(对上半球进行均匀采样)在20个不同的真实图像背景前渲染。第一个数据集称为3D-Single,包含1,600张图像,描绘了单个物体在随机背景前。第二个数据集称为3D-Multi,包含800张图像,描绘了具有不同程度重叠的多个物体(参见图1)。对于这两个数据集,我们区分了基于类别的识别设置和更容易的变体(3D-Single-Inst,3D-Multi-Inst),允许在训练和测试中看到的3D物体实例集合非空(而同一实例的视图集合必须为空)。在两种情况下,我们确保训练(80%的图像)和测试(20%)中看到的背景是不同的。0MNIST。我们根据前述的两个3D物体数据集创建了流行的MNIST数据集的两个变体[22]。第一个变体MNIST-Single将单个MNIST字符放在随机化的混乱背景前(我们使用标准的训练/测试分割)。第二个变体MNIST-Multi将多个字符以不同程度的重叠放在这些背景前。0MS-COCO-sub。MS-COCO[23]摆脱了对物体的“标志性”视图,转而使用物体在其自然环境中频繁出现的数据集。masked CNNs do not apply mk to any of their activations.BASELINE.Architecture with the same layer sizes asCOMP-FULL but without compositional objective terms –a “standard” CNN.BASELINE-AUG. Like BASELINE, except for each batchwe make half of the images be a single object shown inisolation against a black background and the other half bethe raw images of the same objects in the same locationsagainst cluttered background. This method has access tothe same information as COMP-FULL (it knows about theobject mask), but without any compositional objective.50620对于大多数实验,我们关注MS-COCO训练和验证(用于测试)图像的子集,这些图像至少包含20个不同的物体类别之一(参见图4a),并进一步限制图像集合为具有至少7,000个像素的足够大的物体实例。这导致有22,476个训练图像和12,245个测试图像。此外,我们通过定义两个进一步的测试集来量化上下文对分类性能的影响。第一个测试集是MS-COCO的完整验证集。在这里,我们根据MS-COCO检测挑战中定义的不同大小的物体实例(小、中、大)来衡量分类性能。为了使性能可比较,我们通过随机抽样每个正例20个负例来分层正负例的数量。第二个测试集检查有上下文和无上下文的物体实例(参见图5(b))。我们从MS-COCO-sub中开始使用所有测试图像。对于该集合中出现的类别c的每个物体实例o,我们创建两个正例,一个是通过裁剪o并将其放在一个新的随机测试图像前面,该图像中不包含c(这将是无上下文集合),另一个是保留o在其原始上下文中(有上下文集合)。对于两者,我们将所有不包含c的图像作为负例。0度量标准。所有实验都考虑图像级别的分类任务,而不是对象类别的检测或定位。对于诊断实验(第4.3节),我们评估性能作为在网络预测的前k个得分中正确预测的对象类别的平均比例,其中k是给定图像中的对象数量。对于MS-COCO-sub(第4.4节),我们单独处理对象类别,并报告独立二分类问题的(平均)平均精度(AP)。在所有情况下,我们在训练进行时监控测试集上的性能,并报告相应的曲线和每种方法的最佳性能值(图3,图4)。04.2. 方法0在本节中,我们评估了以下基线和我们组合训练技术的变体(参见第3.3节)。为了进行清晰的比较,我们总是从头开始训练所有网络(即,不使用任何形式的预训练)。0COMP-FULL.我们的主要架构,其中m'k被选择为一个全为1的块,但除了第k个对象的位置被设置为0。COMP-OBJ-ONLY.类似于COMP-FULL,但m'k等于mk(这惩罚了对象区域内激活的任何移位,但不阻止背景激活)。02. 原始MS-COCO排序中的前20个类别,不包括人。3.http://mscoco.org/dataset/#detections-eval0基线-正则化。类似于基线,但使用了dropout[40]和l2正则化。基线-增强-正则化。类似于基线-增强,但使用了dropout和l2正则化。04.3. 合成数据的诊断实验0我们首先比较了我们组合目标的不同变体和相应的基线方法(第4.2节)在合成数据的诊断设置中的性能。为了评估最佳情况下的性能和收敛行为,我们在图3a到3f中绘制了测试性能与训练时期的关系。图例中括号中给出了每条曲线的最佳性能。图5和图6给出了定性结果。0渲染的3D对象。从图3中我们可以观察到,所有组合CNN的变体(蓝色曲线)在每个时期和最佳性能方面都表现得比基线(红色曲线)更好。我们的完整模型COMP-FULL(蓝色实线)表现最佳。它在3D-Multi(图3d)上比最佳基线提高了17.1%至35.2%之间。COMP-OBJ-ONLY(蓝色虚线)的性能下降了14.7%(3D-Single-Inst,图3a),7.3%(3D-Single,图3b),4.4%(3D-Multi-Inst,图3c)和2.9%(3D-Multi,图3d)。COMP-NO-MASK(蓝色点线)在我们的模型中表现最差,但仍然比最佳基线提高了0.3%(3D-Single-Inst,图3a),6.8%(3D-Single,图3b),26.6%(3D-Multi-Inst,图3c)和17.0%(3D-Multi,图3d)。如预期,基线从观察到的额外掩蔽训练数据中受益,主要是对于具有多个对象的图像:基线(红色虚线)和基线-增强(红色实线)在3D-Single-Inst和3D-Single上表现相似,但基线-增强在3D-Multi-Inst上改善了6.2%和3D-Multi上改善了7.8%。在收敛方面,组合CNN(蓝色曲线)往往比基线(红色曲线)更晚稳定。0MNIST。在图3e和3f中,我们的组合CNN与相应的基线之间的绝对性能差异不太明显,但仍然突出显示了组合目标的重要性。0246810121416epoch0.20.30.40.50.60.70.80.9top-k (% correct)comp-full (0.896)comp-obj-only (0.749)comp-no-mask (0.547)baseline-aug (0.515)baseline (0.544)0246810121416epoch0.10.20.30.40.50.60.7top-k (% correct)comp-full (0.680)comp-obj-only (0.607)comp-no-mask (0.479)baseline-augmented (0.384)baseline (0.411)0246810121416epoch0.20.30.40.50.60.70.8top-k (% correct)comp-full (0.790)comp-obj-only (0.746)comp-no-mask (0.760)baseline-aug (0.494)baseline (0.429)05101520253035epoch0.20.30.40.50.60.7top-k (% correct)comp-full (0.662)comp-obj-only (0.633)comp-no-mask (0.661)baseline-aug (0.491)baseline (0.413)0246810121416epoch0.30.40.50.60.70.80.91.0top-k (% correct)comp-full (0.990)comp-no-mask (0.781)baseline-aug (0.970)baseline (0.577)0246810121416epoch0.30.40.50.60.70.80.91.0top-k (% correct)comp-full (0.906)comp-no-mask (0.891)baseline-aug (0.880)baseline (0.850)0510152025epoch0.10.20.30.40.50.60.7mAPcomp-full (0.609)baseline-aug (0.308)baseline (0.288)baseline-aug-reg (0.354)baseline-reg (0.329)50630(a)3D-Single-Inst0(b)3D-Single0(c)3D-Multi-Inst0(d)3D-Multi0(e)MNIST-Single0(f)MNIST-Multi0(g)MS-COCO-sub0方法 定位0准确性0COMP-FULL 0.3680基线-AUG 0.2560VGG [37] 0.3300(h)MS-COCO-sub0图3:在渲染的3D对象(a-d),MNIST(e-f)和MS-COCO-sub(g)上的测试性能,随着训练进行的时期(每条曲线给出的最佳性能在括号中;参见第4.3和4.4节)。定位准确性(h)(第4.4节)。0当使用对象掩码时,组合目标的重要性变得明显(COMP-FULL在MNIST-Single上优于BASELINE-AUG2.0%,在MNIST-Multi上优于BASELINE-AUG2.6%)。没有重新应用掩码到激活时,性能会下降,但趋势仍然存在(COMP-NO-MASK比BASELINE分别提高20.4%和4.1%)。04.4.在真实世界数据(MS-COCO)上的实验。0我们继续评估我们最佳的方法COMP-FULL在MS-COCO的真实图像上(第4.1节)。我们与之前相同的基线进行比较,还有两个具有dropout[40]和l2正则化的基线(参见第4.2节)。具体而言,我们报0COMP-FULL在收敛时(最后一个时期,参见图3g以获取收敛行为);对于所有基线,我们考虑在所有时期中表现最佳的模型。图4提供了关于各个对象类别(4a),训练数据量(4b),对象实例大小(4c)和上下文(4d)的详细信息。0MS-COCO-sub。在图3g中,COMP-FULL(蓝色实线)明显优于最佳基线BASELINE-AUG-REG(橙色实线),差距达到25.5%,证实了组合目标在真实世界环境中的好处。添加的正则化仅在一定程度上改善了基线的性能,分别提高了4.6%(BASELINE-AUG)和4.1%(BASELINE)。在图4a中,我们可以看到COMP-FULL在每个单独的类别上的表现都优于基线,性能提高了最多32%(对于停止标志)。图4b给出了不同数量的训练数据(5,10,20,50,75,100%)的结果。0方法 上下文 内外比率0COMP-FULL 0.660 0.256 0.390基线-AUG 0.356 0.131 0.37 基线 0.334 0.116 0.350基线-AUG-REG 0.389 0.144 0.37 基线-REG 0.374 0.128 0.340表1:在MS-COCO-sub上的相对性能比率。0COMP-FULL(蓝色实线)在所有绘制的数量上明显优于基线(橙色和红色曲线),随着训练数据的增加,性能差距越来越大。0对象大小和上下文。图4c显示了在MS-COCO的所有图像上测试在MS-COCO-sub的训练部分上训练的各个模型,并在不同大小的对象实例(小,中,大,全部;参见第4.1节)上进行评估时的性能。我们观察到,组合目标始终比基线模型在所有大小上都提高了性能。对于大型对象实例,改进最为显著(25%,COMP-FULL vs.BASELINE-AUG-REG),对于中型对象实例,改进减少(9%,BASELINE-REG),对于小型对象几乎消失(3%,BASELINE-REG)。这种排序符合组合目标鼓励激活具有上下文不变性的直觉:随着对象大小的减小,上下文变得更加重要,上下文不变性的优势减少。图4d通过比较在上下文内(图4d(底部))和上下文外(图4d(顶部))的测试集上的性能来明确检查上下文的作用,这些测试集在第4.1节中定义。0.00.20.40.60.81.0amount training data0.10.20.30.40.50.60.7mAPcomp-fullbaseline-augbaselinebaseline-aug-regbaseline-regsmallmediumlargeall0.00.10.20.30.40.50.60.7mAP.13.24.56.34.09.13.28.15.10.14.27.15.09.14.31.17.10.15.30.17comp-fullbaseline-augbaselinebaseline-aug-regbaseline-reg50640(a)MS-COCO-sub测试性能(AP)每个对象类别(对应于COMP-FULL的最后一个时期/基线的最佳性能,如图3g所示)。0(b)训练数据的部分性能(mAP)。0(c)MS-COCO-sub中不同大小的对象的性能(小、中、大)。0(d)MS-COCO-sub中上下文内外对象的性能。详情请参见第4.4节。0图4:MS-COCO-sub每个对象类别(a)、训练集大小(b)、对象实例大小(c)和上下文(d)的性能。0(图5(b)给出了示例)。实际上,COMP-FULL在所有情况下都优于基线:COMP-FULL在上下文中的性能比基线-增强-正则化提高了27.1%,在上下文之外的性能比基线-增强-正则化提高了11.2%。相对性能比(表1)在上下文内外的对象之间对于COMP-FULL(0.39)比基线-增强-正则化(0.37)更有利。0定位准确性。图5和6展示了定性结果,突出了我们的组合目标COMP-FULL的两个不同特性。首先,它导致了比基线-增强更好定位的自下而上的网络激活(如图5中的掩蔽和未掩蔽激活的差异所示)。其次,当将分类决策追溯到输入图像时,它也导致更好的定位,我们通过应用引导反向传播[39]来实现(如图6所示)。图3h在MS-COCO-sub的所有测试图像上进行了量化,通过计算反向追踪热图在反向追踪类别的真实掩蔽内的“质量”百分比,对所有类别进行了平均。COMP-FULL在性能上超过了基线-增强和VGG [37]。0讨论。据我们所知,只有[28]报告了在MS-COCO上的分类(而不是检测)性能,使用来自ImageNet预训练的固定下层权重[20]和一个精心设计的多尺度、滑动窗口网络架构,在全部80个类别上实现了62.8%的mAP。0相比之下,我们的COMP-FULL在只使用全部数据的一小部分(面积超过7000的6%)和一个固定尺度窗口(原始图像)进行训练时,在20个类别上达到34%的性能(图4c,'all'列),超过最佳基线BASELINE-REG17%。我们认为这是一个令人鼓舞的结果,与[28]报告的增益相辅相成,为未来的工作提供了一个有前途的方向。05. 结论0我们介绍了一种增强的CNN架构和基于组合性的新型损失函数。它遵循了这样的直觉:图像的一部分的表示应该与该图像的表示的相应部分相似,并且通过现有CNN的额外层和连接来实现。我们的实验表明,组合性偏差有助于从头开始训练网络时学习更好的泛化表示,并改善合成和真实数据上的目标识别任务的性能。明显的下一步是将其应用于明确需要空间定位的任务,如图像解析,并与预训练网络结合。0致谢。我们感谢John Bauer和RobertHafner对实验基础设施的支持。506503D-Multi(公共汽车,枪)0MNIST-Multi(8, 5, 3)0MS-COCO-sub(马)0(a) 掩蔽未掩蔽行为。掩蔽未掩蔽行为。移位行为。掩蔽未掩蔽行为。移位输入输入基线 - 8月份COMP - 完整(我们的)0上下文内外(b)0图5: 测试图像上卷积12激活的偏移(a).当对象上下文除了第一列中的孤立对象之外还包含其他对象时,我们将这些附加对象的掩码应用于激活偏移的可视化。上下文内和上下文外的示例图像(b).0输入图像0COMP - FULL(我们的)0基线 - AUG0VGG [ 37 ]0长凳 火车 汽车 摩托车 猫 马 飞机 汽车 摩托车0输入图像0COMP - FULL(我们的)0基线 - AUG0VGG [ 37 ]0公共汽车 大象 卡车 停车标志 停车标志 马 马 公共汽车 摩托车0图6: 使用引导反向传播[ 39 ]将分类激活(使用MS-COCO类别表示,由列标签表示)追溯到测试图像。请注意,COMP -FULL能够在一张图像中追溯到不同的物体类别,而基线 -AUG和VGG产生非常相似的输出(最右边的2列)。由于VGG是在ImageNet类别上训练的,这些类别与MS-COCO类别不同,因此当无法找到语义上相近的类别时,我们要么从一个语义上相近的类别(手动识别)追溯,要么从VGG的顶级分类决策追溯。50660参考文献0[1] M. Abadi, A. Agarwal, P. Barham, E. Brevdo, Z. Chen, C.Citro, G. S. Corrado, A. Davis, J. Dean, M. Devin, S. Ghe-mawat, I. Goodfellow, A. Harp, G. Irving, M. Isard, Y. Jia, R.Jozefowicz, L. Kaiser, M. Kudlur, J. Levenberg, D. Man´e, R.Monga, S. Moore, D. Murray, C. Olah, M. Schuster, J. Shlens,B. Steiner, I. Sutskever, K. Talwar, P. Tucker, V. Vanhoucke, V.Vasudevan, F. Vi´egas, O. Vinyals, P. War- den, M.Wattenberg, M. Wicke, Y. Yu, and X. Zheng. Tensor- Flow:在异构系统上进行大规模机器学习,2015年.软件可从tensor�ow.org获得. 40[2] P. Agrawal, J. Carreira, and J. Malik. 通过移动学习看.在ICCV,2015年. 1, 20[3] M. J. Choi, A. Torralba, and A. S. Willsky.上下文模型和上下文外对象. Pattern RecognitionLetters,2012年. 20[4] R. G. Cinbis and S. Sclarof.使用基于集合的分类进行上下文物体检测. 在ECCV,2012年. 20[5] S. K. Divvala, D. Hoiem, J. H. Hays, A. A. Efros, and M.Hebert. 对象检测中上下文的实证研究. 在CVPR,2009年. 20[6] S. M. A. Eslami, N. Heess, T. Weber, Y. Tassa, D.Szepesvari, K. Kavukcuoglu, and G. E. Hinton.出席、推理、重复: 用生成模型进行快速场景理解.在NIPS,2016年. 10[7] A. Farhadi and M. A. Sadeghi. 使用视觉短语进行识别.在CVPR,2011年. 20[8] S. Fidler and A. Leonardis.向可扩展的物体类别表示学习部件层次结构. 在CVPR,2007年. 20[9] C. Galleguillos and S. Belongie. 基于上下文的对象分类:一项关键调查. CVIU,2010年. 20[10] R. Gao, D. Jayaraman, and K. Grauman.从无标签视频中学习以物体为中心的表示. 在ACCV,2016年. 1, 20[11] S. Gupta, B. Hariharan, and J. Malik.探索人物上下文和局部场景上下文进行对象检测. arXiv,2015年. 20[12] B. Hariharan, P. Arbelaez, R. Girshick, and J. Malik.同时检测和分割. 在ECCV,2014年. 10[13] B.
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功