深度网络嵌入的图像分类方法

171 浏览量更新于2023-10-18 收藏 1.08MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

9238嵌入互补深度网络用于图像分类陈秋雨1岁，张伟2岁，俞俊3岁，范建平11美国北卡罗来纳大学夏洛特分校计算机科学系2上海市智能信息处理2复旦大学计算机科学学院3杭州电子科技大学计算机科学与技术学院{qchen12，jfan}@ uncc.edu，weizh@fudan.edu.cn，yujun@hdu.edu.cn摘要为了提高大规模图像分类的准确率通过使对象类的重要性适应其错误率，我们的深度嵌入算法可以顺序训练多个互补的深度网络，其中每个深度网络都专注于以简单到困难的方式为对象类的不同子集实现更高的准确率通过整合这种互补的深度网络来生成集成网络，我们的深度嵌入算法可以在一定程度上提高硬对象类（最初具有较高的错误率）的准确率，同时有效地保持简单对象类的高准确率我们的深度嵌入算法在大规模图像分类方面取得了更高的整体准确率1. 介绍随着大量训练图像的可用性和GPU计算能力的快速增长，我们现在能够开发可扩展的学习算法来支持大规模图像分类和深度学习[17，13，5，30，31，22，10，12]已经证明了其出色的性能，因为它可以以端到端的方式学习更多的区分表示。另一方面，Boosting通过嵌入多个互补弱分类器来构建集成分类器，证明了其强大的能力[26，8，34]。通过向硬样本（被先前的弱分类器误分类）分配更大的权重（重要性），Boosting可以通过更多地关注这些硬样本来在当前训练轮学习互补的弱分类器因此，投资boosting [26，8，34]是否可以与深度学习集成以实现更高的准确性前两位作者对这项工作的贡献相当大规模图像分类。通过使用深度网络来取代传统Boosting框架中的弱分类器，深度网络的Boosting最近受到了足够的关注，并且已经进行了一些有趣的研究[23，28，29，36，2，18，24，6，32]。所有这些现有的深度提升算法简单地使用加权误差（由Adaboost [26，8，34]提出）来替换softmax误差（用于深度学习），并且底层深度网络将来自硬对象类的误差和简单的值得注意的是，对象类在它们的学习复杂性上可能具有显著的某些对象类可能比其他对象类更难识别），因此，来自硬对象类和容易对象类的误差可能对优化它们的联合目标函数具有显著不同的影响。因此，学习用于硬对象类别和简单对象类别的联合深度网络可能不是大规模视觉识别的最佳解决方案，因为这种联合深度网络可能对硬对象类别不具有强的辨别能力，这可能导致低准确率。为了在大规模图像分类中实现更高的准确率，可以投资三种类型的解决方案，以使正在组合的深度网络多样化，并生成更具鉴别力的集成：（a）根据错误率对训练样本进行加权，大多数现有的深度提升算法[23，28，29，36，2，18，24，6，32]属于这个方向;（b）通过使用不同的模型参数或使用各种样本子集和一些深度嵌入算法来学习多个深度网络[15，25，33，9，27，1 4，20，4，21，1]属于该方向;（c）训练多个互补深度网络，例如，通过以从容易到困难的方式集中于为对象类的不同子集实现更高的准确率，顺序地训练这种补充深度网络，据我们所知，第三方向（即，训练和嵌入互补深度网络）迄今为止尚未被探索。9239N1−µεZγ基于这些观察结果，本文开发了一种深度嵌入算法来训练和组合多个互补深度网络，以生成更具鉴别力的集成网络，从而在大规模图像分类中实现更高的准确率。论文的其余部分组织为：第二节简要回顾了相关工作;第三节介绍了我们的深度嵌入算法;第4节报告了我们在三个数据集上的实验结果;我们在第5节结束本文。算法1互补网络的深度嵌入需要：训练设置为N类别：{（xi，yi）|y i∈ {C1，...， C N}，i = 1，...， R};N的重要性类别：φ1（C1）=... 为φ1（C N）=1;互补深度网络或迭代的数量：τ.1：对于t = l，. . . ，τ do2：标准化：t（C l）=我们的代码在ht t p s ： // g i t h u b 上公开。Nj=1 φt（Cj）com/qychen13/Advertisement.2. 相关工作在本节中，我们简要回顾了最相关的重新-3：训练第t深度网络ft（x）;4：计算每个类别的错误率εt（Cl）;5：计算ft（x）的加权误差率：ΣNε=ε（C）;tl=1 tl tl搜索深度学习、深度提升和深度嵌入。6：设置γt=µεt;不1−µεt（Cl）深度学习已经证明了其卓越的能力，7：更新φt+1（Cl）=φt（Cl）γt;大规模图像分类的关系[17，13，5，30，31，22，10，12]，但是大多数现有方法完全忽略了对象类在它们的学习复杂性上可能具有显著差异某些对象类可以第八章：端9：输出：F（x）=1Στt=1.Σ1ft（x）不它们的联合目标函数的梯度并不一致。因此，学习硬对象类和简单对象类的联合深度网络可能不是大规模图像分类的最佳解决方案因此，开发新的方法非常有吸引力，这些方法可以以简单到困难的方式依次学习简单对象类和困难对象类通过自适应地为训练样本分配不同的权重（重要性），boosting [26，8，34]提供了一种简单到困难的方法来迭代地训练多个互补弱分类器通过将boosting与深度网络无缝集成，已经开发了一些深度boosting所有这些现有的深度提升算法都使用加权误差来取代传统深度学习框架中的softmax误差因为来自所有对象类（硬对象类和简单对象类）的误差被视为同等重要，所以这种深度提升算法仍然可能导致硬对象类的低准确率。已经开发了一些深度嵌入算法[15，25，33，9，27，14，20，4，21，1]，其中使用各种样本集或不同的模型参数来使深度网络多样化，但来自硬对象类和容易对象类的错误被视为同等重要。另一方面，我们的深度嵌入算法专注于组合多个互补深度网络以生成集成网络：（a）来自硬对象类的误差被赋予更大的重要性;（b）顺序训练多个互补深度网络，每个网络都专注于以简单到困难的方式为对象类的不同子集实现更高的准确率，它们可以互相促进。3. 嵌入互补深度网络如算法1所示，我们的深度嵌入算法包含以下关键组件：（a）通过专注于实现硬对象类的更高准确率来训练当前的第t个深度网络ft（x），与前（t-1）个深度网络ft-1（x）具有更高的错误率;（b）根据Nob的重要性分布估计ft（x）（c）根据错误率更新N个对象类的重要性分布ft（x），使得第（t + 1）个深度网络ft +1（x）可以在下一轮训练中在硬对象类上花费更多的努力(d)当达到最大迭代次数或达到一定的准确率水平时，这种迭代过程停止我们的深度嵌入算法使用深度CNN作为其弱学习器，并且可以使用许多精心设计的深度网络。3.1. 学习互补深度网络为了训练当前的第t深度网络ft（x），采用深度CNN来获得图像x的更具鉴别力的表示，随后是全连接鉴别层和N路softmax层。第t深度网络的输出ft（x）是预测概率的分布N个对象类的关系，记为ft（x;θt）=[pt（C1|X），...， pt（CN|x）]n，其中第l个概率得分p t（Cl|x）用于将图像x分配到第l个对象类C1中，并且θ t是第t个深度网络ft（x）的模型参数集。理想情况下，第t个深度网络f t（x）将图像x分配到具有最大概率得分的对象类中：yt=argmaxp t（Cl|x），l∈{1，···，N}（1）L日志9240N不RN个对象类的训练集表示为：{（xi，yi）|y i∈ {C1，...， C N}，i = 1，...， R}，其中R是训练样本的数量。为了训练第t深度网络ft（x），其模型参数可以通过最大化来获得。N个对象类的重要性被初始化为相等：φ1（Cl）=1，l= 1，.，N，并且它们根据错误率迭代地更新：目标函数：φt+1（Cl）=φt（Cl）γ1−µt（Cl）（六）ΣNθ t=中国（2）中国（2）以及归一化：l=1（C）=式中，n（C）=nφt（Cl）是标准化的重要性t+1lNj=1 φt+1（七）（Cj）t lNj=1 φt（Cj）对于第l个对象类Cl，而φt（Cl）是未归一化的重要性用于测量第l个对象类别Cl的正确分类图像和错误分类图像的平均置信度之间的裕度：其中µ在Eq.(6)是要选择的超参数 γ tin当量(6)是εt的增函数，其范围为0γt1，如第3.3节所述，方程中的最佳γt<<(6)设置为：lt= 1ΣRRl1（yi=Cl）logp t（Cl|xi）−µεtγt=1 −µε（八）i=11ΣR1（yi/=Cl）logpt（Cl|xi）（三）因此，根据错误率更新N个对象类的重要性可以将第（t+ 1）个深度网络R−Ri=1其中，Rl是来自第l个训练图像的n个训练图像，ft+1（x）要更多地关注硬对象类(with更大的错误率），使得这样的顺序深度网络ft+1（x）和ft（x）是com-。对象类，以及Nl=1 Rl=R。指示功能互相补充。如果yi=Cl，则1（yi = Cl）等于1;否则为零。如果第二项在Eq.（3）如果它足够小，不容易辨认，它适用于-3.2. 互补网络Proximates近缘酸盐LRi=1 1（yi=Cl）logp t（Cl|xi），则经过τ次迭代，我们可以得到τ互补深度最大化等式中的目标函数(2)相当于最大化加权可能性。通过使用归一化的重要性 [k（C1），. ，t（CN）]来估计N个对象类的学习复杂度，我们的深度嵌入算法可以推动当前的深度网络ft（x）专注于区分具有较高错误率并且倾向于被先前的深度网络错误分类的硬对象类。网络{f1，···，ft，···，fτ}，其中它们中的每一个都专注于以从容易到困难的方式在N个对象类的不同子集上实现更高的准确率，并且它们可以增强对方.为了准确识别N个对象类别，所有这些τ互补深度网络都被嵌入以生成集成网络F（x）：网络ft−1（x），因此它可以支持大规模图像分类的简单到困难的对于第t个深度网络，对于t（x），1ΣτF（x）=Zt=1日志.Σ1ft（x）（9）不第l个对象类Cl被定义为：其中Z=Στt=1.Σ1是标准化因子。的1ΣRCl=2.1（y）=C）1−p t（Cl|xi）+i lRlγtF（x）的输出是预测概率分布的N-dim向量对于给定的测试样本x测试，其第l个概率i=1p t（Cl|xi）中国（4）能力得分p（C 1|X 测试）（用于将其分配到第l个类不L日志γ92411（yi/=Cl） R−RlCl）可以容易地通过Eq.（九）、给定的测试样本x测试最终被分配到Eq.中的错误率(4)采用概率软判决方式计算;或者，我们也可以简单地计算硬判决方式中的错误率，如下：具有最大概率得分的前1个对象类或具有前k个得分的前k个对象类通过训练和组合多个互补的深度网络，1ΣR1（y）=Cyt/=C）.嵌入算法可以产生更有区别的en，Ri=1i lilft（x）的误差率εt定义为：ΣNεt=εt（Cl）εt（Cl）（5）l=1在大规模视觉识别中实现更高的整体准确率，例如，我们的深度嵌入算法可以在一定程度上提高硬目标类的准确率，同时有效地保留了简单目标类的高准确率。92422µt=1t=12µN2µ2µ2不2µγ2µγ1=3.3. 深埋参数的选择根据等式(5)和等式(2)，我们可以得到：受文献[7]的启发，我们研究了深度嵌入的最优参数选择问题在该算法中，γt在[0，1]范围内被设定为误差率εt的增函数。γ t有两种用法：（i）如等式中所定义，(6)，γt用于更新重要性分布ΣNl=1ΣNφt（Cl）φt（Cl）=ΣN.ΣNl=1Σφt（ Cl） εt要更加重视硬物类，φt+1（Cl）≤φt（Cl）（1−（1 −γt））+错误率;（ii）如等式中所定义(9)，γt的倒数用于确定系综网络中第t个互补深度网络ft（x）的权重或重要性错误率被用作第t深度的标准网络f（x）来确定硬对象类：l=1.ΣNl=1µ（1−γt）Σ.ΣNl=1Σφt（ Cl）εt（十一）t t l1=φt（Cl）[1−（1−γt）（1−µεt）]2μ，l∈ {1，···，N}，例如，硬物体的错误率类高于阈值1。对于第l个对象类，l=1Σ2µ因为Nφ（C）= 1，我们可以得到：在τ互补深度网络上评估它，我们可以进一步将Rismin（Cl）定义为：l=11lΣN最小值（Cl），最小值t∈{1，···，τ}{C1}l=1φ2（Cl）≤1−（1−γ1）（1−µε1）如果τmin（Cl）>1，则第l个对象类Cl总是难以被所有τ互补深度网络识别。这种总是硬对象类的出现可能是-ΣNl=1φT+1（ Cl）≤φτ[1−（1−γt）（1−µεt）]（12）严重影响我们的深度嵌入算法在大规模图像分类上的整体准确率我们用“”来表示这样一个lways-hard ob的数目通过替换Eq。(6)进入Eq. (12)，我们可以得到：ΣN项目类别：τt=1[1−（1−γt）（1−µεt）]≥l=1φt+1（Cl）ΣN=l=1.Σ1氯吡格雷（Cl）>2µΣN=l=1.φ1（Cl）τΣ1−µAt（Cl）不（十三）其中，如果Rmin（Cl）>1，则1（Rmin（Cl）> 1）=1是真的1ΣN。=TΣγ1−µt（Cl）2µ2µNt=1t否则，1（λmin（Cl）>1）= 0。为了在大规模视觉识别中实现更高的整体准确率，我们l=11Σ。≥ΠτΣγ1−µt（Cl）应选择合适的γT由方程式(8) 为了保证ρ=πN 最小值（Cl）>1t=1t被最小化（例如，这种总是坚硬物体的数量类最小化）。对于0<η1，我们有xη≤1−（1−x）η。根据等式(6)，Cl的重要性更新为：2µ当min（Cl）>1成立时，它保证t（Cl）>1和1−µt（Cl）<1，用于所有N个对象类。回想一下约束0<γt1，我们可以得到：<我们可以得到：φt+1（Cl）=φt（Cl）γ1−µt（Cl）1Σ。N最小值（Cl）>1τt=1Σ1−µAt（Cl）不ΣNΣNφ（ C）=φ（C）γ1−µt（Cl）1Σ。≥ N1Στ2t=1 tN1τ2t=1 t（十四）ΠγΠγΠΠ̺9243Πγl=1ΣNt+1ltl不l=1最小值（Cl）>1合并等式(13)等式(14)，我们可以得到：≤l=1φt（Cl）（1−（1−γt）（1−µt（Cl）̺ρ=≤τt=1[1−（1−γt）（1−µεt）]1ΣNΣN=φ（C）（1−（1−γ））+µ（1−γ）φ（C）φ（C）Nτ2t=1t（十五）t l tl=1ttl=1lt l（十）τt=11−（1−γt）（1−µεt）12不Π= Πγ92441−µε2µ2ε1−µε222 2ε2εt2222µ2µ为了最小化等式中的右侧，(15)，我们将其对γ t的偏导数设为零，并确定了最优γ t。开采为：µεtγt=1 −µε不我们代入γ t=µεt进入Eq. (15)，并获取不ρ的上限为：(a)（b）第（1）款ρ=ε≤2τ√µε（1 −µε）（16）图1：MNIST数据集的结果：（a）比较─Nt=1t t现在我们研究超参数μ的范围。第t个深度网络 ft（x）确定硬对象类别（具有较高错误率）的准则被定义为μt（Cl）>1，其中μ用于控制预期错误率的阈值当我们对预期错误率有更严格的要求时（即，小的阈值），μ应该更大），我们将超参数μ的约束设置为μ >1。另一方面，当使用不同的加权方法时，MNIST数据集的前1个误差的ison;（b）当组合不同数量的互补深度网络时，集合网络的AP（平均精度）的比较。网络：（1）我们的深度嵌入算法根据错误率更新类权重;（2）传统γ=µεt1方法像AdaBoost一样更新样本权重在t1−µεt为0γt1，要求µεt2，<<也就是说，µ1。因此，µ应在不interval[1，1].不根据μεt和μεt（1−μεt）之间的关系，我们可以观察到μ对ρ上界的影响，当量(16)当[1]的时候，εt <µεt1，在我们的实验中，我们简单地用在整个120个epoch中，学习率为0.01。使用我们的深度嵌入方法，测试数据集上的前1个错误率从4降低到4。73%对1。三次迭代后的87%（如图所示）1a）。在第一个iter之后-22εt22ation，我们的深度嵌入方法的前1个错误下降条件0γt1满足，上界-<<在Eq.(16) 当μ增加时增加，原因是当μ增加时，用于确定硬对象类别的阈值较小，因此总是硬对象类别的数量可能增加（即，更多类的错误率可能高于这样的较小阈值）。(b) 当μ > 1时，即，µεt>1。在这种情况下，不满足条件0<γ t=µεt<1，因此更新dis。不在EQ中的重要性(6)无法有效推动下一个深度网络要更加关注硬对象类。对于这种情况，大的错误率ε t倾向于导致με t大于或接近1，并且γ t大于或接近1。因此，µ的值应该更小，以缓解大ε t，使得以下约束仍然存在：1<和0<γ t<1。(c)当μ1，即， 1>1，不能作为判断标准对于第t个深度网络ft（x），确定满足ft（Cl）>1的硬对象类。4. 实验结果与讨论在本节中，我们报告了深度嵌入算法在三个流行数据集上的评估结果：MNIST [19]、CIFAR-100 [16]和ImageNet 1 K [3]。(a) MNIST上的实验结果：MNIST数据集由60，000个训练手写数字样本和10，000个测试样本组成[19]。[28]的研究有恶魔-在MNIST数据集上，通过根据错误率更新样本权重，证明了精度的提高为了公平比较，我们使用两种方法来训练深度比传统方法更快。我们的深度嵌入方法，它更新类权重（即，重要性的分布）可以利用不同的类可以具有不同的学习复杂性并且它们应该以从易到难的方式被区别对待从图1b中，可以很容易地观察到，我们的深度嵌入算法可以显着提高硬类的准确率，同时有效地保持简单类的高准确率。(b) CIFAR-100的实验结果：我们还在CIFAR-100数据集上进行了实验[16]。CIFAR-100数据集包含100个对象类的60，000张图像。每个类有500个训练图像和100个测试图像。在训练阶段，我们拿出5,000张图像进行验证，并使用45,000张图像进行训练。我们进一步采用填充，镜像，移位来进行数据增强和规范化[10，12]。经过几次迭代，每个类的训练错误率接近于零[35]，因此我们根据验证数据集上的错误率更新重要性分布当我们在CIFAR-100上训练深度网络时，初始学习率设置为0.1，并在epoch [150，225]除以0.1，我们训练深度网络300 epoch。比较结果见表1。 1当（1）不同类型的深度网络（如ResNet56（µ= 0. 7）[11]和DenseNet-BC（k=12）[12]）;（2）组合不同数量T的互补深度网络。为了训练第一个深度网络，我们将CIFAR-100中的所有100个对象类都视为同等重要，如9245迭代#1迭代#2迭代#3迭代#41.0004.03.50.9953.02.52.00.9900.9851.51.00.50.9800.9750 20 40 60 80 100类ID（一）(b)（c）第（1）款（d）其他事项图2：CIFAR-100数据集的比较：（a）不同迭代下深度网络的权重（重要性）分布;（b）互补网络在CIFAR-100数据集训练集上的准确率比较;（c）使用不同μ的影响;（d）集成网络在CIFAR-100数据集测试集上的准确率比较。图2a中示出了第一深度网络，并且第一深度网络被学习，并且其对于所有100个对象类的准确率在图2a中示出。2b.可以容易地观察到一些容易的对象类可以在第一次迭代时实现可接受的准确率（即，第一深度网络），但是某些硬对象类可能具有非常低的准确率。通过更新100个对象类的重要性分布（为硬对象类设置较大的权重，为容易对象类设置较小的权重），如图所示。2a，从第二次迭代开始，我们的深度嵌入算法可以更多地关注硬对象类。超参数μ对深度嵌入算法性能的影响如图所示。2c.通过组合多个互补的深度网络，我们的深度嵌入算法可以生成更具区分力的集成网络，以提高大规模图像分类的整体准确率。如图在图2b中，可以观察到我们的互补深度网络可以在训练图像集上实现几乎为零的错误率，这与[35]中的观察结果具有良好的对应性。通过增加硬对象类的重要性并推动下一个深度网络对它们给予更多关注，人们可以很容易地观察到，这种硬对象类的准确率可以在训练集上得到提高（如图2所示）。2b），然而，在测试集上的准确率的提高可能仍然是有限的，如图所示。2D和Tab。1.这种现象的原因是：（1）这样的硬对象类可能具有巨大的类内视觉差异，因此测试图像和训练图像可能在它们的视觉特性上具有显著差异;（2）这样的硬对象类可能与其他硬对象类具有巨大的类间视觉相似性，因此它们很容易与其他相似的硬对象类混淆。除了通过根据错误率加权其重要性以从易到难的方式依次处理硬对象类和简单对象类之外，我们还需要寻找更有效的解决方案来处理巨大的类内视觉差异和巨大的类间视觉相似性问题。(c)在ImageNet 1 K上的实验结果：Ima-geNet 1 K数据集[3]由1，000个对象类组成，有120万张图像用于训练，5万张用于验证。当我们在ImageNet1K数据集上训练深度网络时，初始学习率设置为0.1，并在epoch [30，60]除以0.1。我们的ensemble网络的性能如表1所示 1时：（1）使用不同类型的互补深度网络;（2）不同数量T的互补深度网络被组合以生成集成网络。当我们训练第一个深度网络时，我们将所有1，000个对象类同等重要，如图所示。图3（a），学习深度网络，其对训练集上所有1,000个对象类的准确率如图所示。3（b）款。可以容易地观察到一些容易的对象类在第一次迭代时已经达到了可接受的准确率通过第一深度网络），但是一些硬对象类可能具有非常低的准确率。通过根据错误率更新1，000个对象类的重要性，如图所示。3（a），从第二次迭代开始，我们的深度嵌入算法可以更多地关注硬对象类，并且它们的准确率可以在训练集上显着提高。我们的深度嵌入算法可以生成更多的识别集成网络，以实现更高的大规模图像分类准确率，如图所示。3（c），例如，我们的深度嵌入算法可以在一定程度上提高硬对象类的准确率，同时有效地保持简单对象类的高准确率通过比较测试集上的性能改进（如图1所示），3（c））和训练集（如图所示）。3（b）），我们有类似的观察，因为我们已经获得了CIFAR-100数据集：我们的深度嵌入算法可以提高训练集上的硬对象类的准确率，而测试集上的提高可能不那么显著，例如，一些硬对象类对于所有τ互补深度网络总是硬的，并且对于ImageNet1K数据集，ρ除了上面讨论的两个原因（巨大的类内视觉差异和巨大的类间视觉相似性）之外，ImageNet1K数据集中这种现象的另一个关键原因是：（a）一些硬对象类迭代#1迭代#4（μ=0.7）迭代#1迭代#4（μ=0.5）迭代#1迭代#2迭代#3迭代#4迭代#1迭代#4（μ=0.3）020406080100类ID重量平均精度9246表1：前1名平均错误率（%）的比较，其中（）中的结果为前5名平均错误率。数据集网络T = 1T = 2T = 3T = 4MNISTMLP [19]4.732.221.871.86CIFAR-100ResNet56 [11]DenseNet-BC（k=12）[12]29.5330.7826.6528.9524.9727.6024.1526.64ResNet50 [11]24.18（7.49）23.28（6.98）22.96（6.81）22.12（6.79）ImageNet1K [第25.88（8.38）24.85（7.89）23.67（7.25）22.32（6.17）AlexNet [17]43.71（21.24）42.61（20.61）40.83（19.32）39.23（17.78）图3：ImageNet 1 K上的比较：（a）不同迭代的重要性分布;（b）在不同迭代下互补网络的训练准确率;（c）当训练和组合不同数量T的互补网络以形成嵌入网络时，嵌入网络的验证准确率。是来自具有较长深度的概念本体的叶节点，则可能存在难以彼此区分的多个视觉上相似的细粒度的硬对象类。如表1所示，前1个准确率可能非常低，但前5个准确率可能好得多，因为在多个细粒度硬对象类别之间进行区分的错误不计入此类前5个错误率中。(2)一些硬对象类来自具有非常短深度的概念本体的叶节点粗粒度硬对象类），我们可能需要更大数量的训练图像来学习深度网络以有效地区分这种粗粒度硬对象类，因此，对于所有对象类使用相同数量的训练图像（如大多数现有深度学习算法所做的那样）可能不足以学习这种粗粒度硬对象类的区分性深度网络。grained硬对象类。为了学习硬对象类的更多区分性深度网络，我们可以进一步投资：（1）集成广告信息（例如来自概念本体[3]的类间语义相关性）以学习用于细粒度硬对象类的深度网络;（2）针对粗粒度的硬对象类使用更多的训练图像，并开发新的深度学习算法，以有效地处理样本不平衡;（3）使用异构嵌入，例如，使用不同类型的深度网络在不同的迭代，如 AlexNet 为第一个，ResNet50为第二个互补的，ResNet152为第三个互补的，等等。(d) 包埋方法比较：对于CIFAR-100和ImageNet 1 K数据集，我们比较了三种嵌入方法：（1）深度提升[28，29];（2）传统的深度嵌入[9，27];（3）我们的深度嵌入算法在这个比较实验中，相同类型的深度网络（ResNet 56用于CIFAR-100，ResNet 50用于ImageNet1 k）被用作三种方法的补充网络。通过组合相同数量T的深度网络，我们比较了由三种方法生成的集成网络的性能。如表2所示，可以很容易地观察到，我们的深度嵌入算法可以在大规模图像分类中实现更高的整体准确率。进一步讨论（a）正规化：AdaBoost [7]（样本级加权）通过结合传统的弱学习模型（即，[28，29]中的小网络），但它不适合组合大型网络：(a) 在深度学习中，训练误差可能接近于零，很容易发生过拟合[35];（b）当训练误差率接近于零时，专注于硬样本可能会使过拟合问题变得更糟，因为深度网络将使用一小部分进行训练92471.00.50.80.80.80.40.70.60.70.60.30.50.60.40.20.40.50.20.10.30.40.00 20 40 60 80100类ID0.00 20 40 60 80100类ID0.20 20 40 60 80 100类ID0 20 40 60 80 100类ID(a) 网络#1(b) 第一个时代(c) 第二阶段(d) 第三个时期图4：CIFAR 100上动态/联合优化的互补网络训练收敛过程示意图：一个互补网络的收敛过程（a），前三个时期（b，c，d）不同网络之间的平均精度。它表明，即使在网络初始化和优化过程中进行了随机化表2：多种嵌入方法的前1名平均错误率（%）的比较。数据集网络嵌入T = 1 T = 2 T = 3 T = 4我们的深度嵌入29.53 26.65 24.97 24.15CIFAR-100传统的深度嵌入[9，27]29.53 29.40 29.35 29.32深度提升[28，29]29.53 27.60 26.82 26.53我们的深度嵌入24.18 23.28 22.96 22.12ImageNet1K 传统的深度嵌入[9，27]24.18 23.65 23.15 23.08深度提升[28，29]24.18 24.07 23.98 23.75的样本。例如，在我们对CIFAR100数据集的实验中，训练误差很容易接近零（图2a），这与[35]一致，因此我们使用验证误差率来加权后续迭代中的目标函数。在这种情况下，在样本级别进行加权对于使用验证结果是不切实际的，并且只会留下一小部分样本集中，并且可能会恶化过拟合。总的来说，在样本水平上加权可能会削弱强互补学习模型的生成能力（表1中的ResNet 56/ResNet 50）。2）的情况。类别级加权提供了一种有效的替代方法，它作为一种正则化方法，并通过随后优化加权目标函数来引导优化过程（SGD）更多地关注困难类别（图2和图3）。第2d段）。(b)依次指导最佳化：动态/联合组合多个互补深度网络[9，27]确实是嵌入的合理替代方案，并且在细粒度任务[9]和小神经网络[27]上显示出改进的结果，但是在我们的实验中，使用深度神经网络（ResNet 56/ResNet 50）对非细粒度任务（CIFAR-100/ImageNet）进行动态加权的改进幅度很小（表2）。动态加权的多样性是基于网络初始化和优化过程（SGD）的随机化，而我们提出的方法是基于类别的学习差异对于困难的类别，学习和收敛缓慢的所有网络，即。对于所有互补网络（图4 b、4c、4d），图4a中的小ID类别，如果联合优化并且表现得像平均系综，则权重/占用对于互补网络可以几乎相等地分布。然而，这样的硬类别将集中和学习的指导目标函数在随后的网络与所提出的方法（图2图3）。此外，我们已经证明了我们提出的方法的理论收敛性3.3等式第16段）。5. 结论开发了一种深度嵌入算法来训练和组合多个互补的深度网络，其中每个深度网络都专注于以简单到困难的方式为对象类的不同子集实现更高的准确率我们的深度嵌入算法可以在一定程度上提高硬对象类的准确率，同时有效地保持简单对象类的高准确率，因此它可以在大规模图像分类上实现更高的整体准确率。确认我们要感谢匿名评论者的有用意见。本工作得到了国家自然科学基金项目（资助号： 61473091 和61572138 ）和国家科技攻关项目（资助号： 16JC1420400）的部分资助Epoch #1（train）Epoch#2（train）Epoch #3（train）Epoch网络#1（列车）网络#2（列车）网络#3（列车）网络#1（列车）网络#2（列车）网络#3（列车）网络#1（列车）网络#2（列车）网络#3（列车）APAPAPAP9248引用[1] Nadav Cohen，Ronen Tamari，Amnon Shashua.用混合张量分解增强扩张卷积网络。第六届国际学习表征会议，ICLR，2018。[2] Corinna Cortes Mehryar Mohri和Umar Syed深度提升在International Conference on Machine Learning，第1179-1187页[3] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议，第248-255页。Ieee，2009年。[4] 李登，董宇，约翰·普拉特。可扩展的堆叠和学习，用于构建深度架构。在2012年IEEE声学、语音和信号处理国际会议（ICASSP）上，第2133-2136页。IEEE，2012。[5] Jeff Donahue ， Yangqing Jia ， Oriol Vinyals ， JudyHoffman，Ning Zhang，Eric Tzeng，and Trevor Darrell.Decaf：用于通用视觉识别的深度卷积激活功能。机器学习国际会议，第647-655页，2014年[6] Harris Drucker，Robert Schapire，and Patrice Simard.使用提升算法改进神经网络的性能神经信息处理系统进展，第42-49页，1993年[7] Yoav Freund和Robert E Schapire。在线学习的决策理论推广及其在boosting中的应用。Journal of Computer andSystem Sciences，55（1）：119[8] Jerome Friedman，Trevor Hastie，Robert Tibshirani，etal.加性逻辑回归：一个统计的观点，促进（与讨论和反驳的作者）。The annals of statistics，28（2）：337[9] ZongYuan Ge ， Alex Bewley ， Christopher McCool ，Peter Corke，Ben Upcroft，and Conrad Sanderson.通过深度卷积神经网络的混合进行细粒度分类。2016年IEEE计算机视觉应用冬季会议（ WACV ），第1-6页。IEEE，2016.[10] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun. 深入研究整流器：超越人类对imagenet分类的水平。在IEEE计算机视觉国际会议论文集，第1026-1034页[11] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页[12] Gao Huang，Zhuang Liu，Laurens Van Der Maaten，andKilian Q Weinberger.密集连接的卷积网络。在IEEE计算机视觉和模式识别会议论文集，第4700-4708页[13] 杨庆贾、埃文·谢尔哈默、杰夫·多纳休、谢尔盖·卡拉耶夫、乔纳森·朗、罗斯·吉希克、塞尔吉奥·瓜达拉马和特雷弗·达雷尔。Caffe：用于快速特征嵌入的卷积架构第22 届ACM 国际多媒体会议论文集，第675-678 页。ACM，2014年。[14] Tae-Kyun Kim ， Mr. Budvytis ， and Roberto Cipolla.Mak- ing a shallow network deep ：通过布尔优化将boosting分类器转换为决策树。国际计算机视觉杂志，100（2）：203[15] PeterKontakeder，MadalinaFiterau，AntonioCriminisi，and Samuel Rota Bulo.深度神经决策森林在IEEE计算机视觉国际会议的Pro-ceedings，第1467-1475页[16] 亚历克斯·克列日夫斯基和杰弗里·辛顿从微小的图像中学习多层特征。技术报告，Cite- seer，2009年。[17] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。神经信息处理系统的进展，第1097-1105页，2012年[18] 维塔利·库兹涅佐夫、梅赫里亚·莫赫里和乌马尔·赛义德。多类深度助推。神经信息处理系统的进展，第2501-2509页，2014年[19] YannLeCun，Le'onBottou，YoshuaBengio，PatrickHaf fner等人。基于梯度的学习应用于文档识别。Proceedingsof the IEEE，86（11）：2278[20] Chen-Yu Lee，Patrick W Gallagher，and Zhuowen Tu.卷积神经网络中的通用池化函数在Artificial intelligenceand statistics，第464-472页[21] 李俊，常贺友，杨剑。用于图像分类的稀疏深度堆栈网络。2015年第29届AAAI人工智能会议[22] Min Lin，Qiang Chen，and Shuicheng Yan.网络中的网络。在国际学习代表会议上，ICLR，2014年。[23] Mohammad Moghimi，Serge J Belongie，Mohammad JSaberian，Jian Yang，Nuno Vasconcelos，and Li-Jia Li.增强型卷积神经网络。在BMVC，第

下载后可阅读完整内容，剩余1页未读，立即下载