网络监督的细粒度识别：基准数据集和方法

56 浏览量更新于2023-10-13 收藏 1.27MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

10602Webly监督的细粒度识别：基准数据集和方法孙泽仁1，姚亚舟1*，魏秀申1，2*，张永顺2，沈福民3，吴建新2，张建4，沈衡涛31南京理工大学计算机科学与工程学院2南京大学软件新技术国家重点实验室3电子科技大学4悉尼科技大学摘要从网络学习可以减轻深度学习对大规模手动标记数据集的极端依赖。特别是对于以区分从属类别为目标的细粒度识别，利用免费的Web数据将大大降低标注成本。尽管具有重要的实用和研究价值，但网络监督细粒度识别问题在计算机视觉领域并没有得到广泛研究，这主要是由于缺乏高质量的数据集。为了填补这一空白，在本文中，我们构建了两个新的基准网络监督细粒度数据集，分别称为WebFG-496和WebiNat-5089。具体地说，WebFG-496由三个子数据集组成，总共包含53，339张网络训练图像，200种鸟类（Web-bird）、100种飞机（Web-aircraft）和196种汽车（Web-car）。对于WebiNat-5089，它包含5089个子类别和超过110万张网络训练图像，这是有史以来最大的网络监督细粒度数据集。作为一个小小的贡献，我们还提出了一种新的网络监督方法（称为“同行学习”）基准这些数据集。在两个新的基准数据集上的综合实验结果和分析表明，所提出的方法实现了优于竞争的基线模型和国家的最先进的性能。我们的基准数据集和对等学习的源代码已在https://github.com/ NUST-Machine-Intelligence-Laboratory/weblyFG-dataset上提供。1. 介绍最近深度学习的成功表明，深度网络与丰富的标记良好的训练相结合*通讯作者。数据是细粒度识别的最有前途的方法[1，2，19，20]。然而，即使有了像Amazon Mechani- cal Turk这样的可扩展的众包平台，构建像iNat2017 [ 4 ]这样的大规模细粒度数据集仍然是一项非常困难的工作，因为区分细粒度类别之间的细微差异（例如：不同的动物[5，11]或植物[12，17]）通常需要特定领域的专业知识。为了降低手动细粒度注释的成本，已经提出了许多方法，这些方法主要集中在半监督学习上[18]。这些工作不可避免地涉及各种形式的人为干预，并且仍然是消耗劳动力的[26]。为了进一步减少手动注释以及学习更实用的细粒度模型，直接从Web图像进行训练变得越来越流行[13，14，15，16]。然而，缺乏一个基准数据集，使得它很难公平地比较这些算法的性能。这是本工作的动机，我们的目标是提供一个基准数据集，用于评估网络监督细粒度识别算法。Web监督细粒度识别包括三个挑战：（1）标签噪声-与手动标记的数据集不同我们考虑两种类型的标签噪声，我们称之具体地说，跨域噪声是图像中不属于同一细粒度域中的任何类别的部分，例如，对于鸟，它是不包含鸟的图像的分数（参见图1）。图中紫色边框的图像。1（a））。相比之下，跨类别噪声是在细粒度类别内具有错误标签的图像的部分，例如，具有错误的类别标签的鸟的图像图中红色边框的图像1（a））。根据现有的作品[24]，深度神经网络具有记忆效应，它会记忆10603加州_海鸥讴歌RL轿车2012500灰背鸥西鸥2012款别克Verano2012款福特嘉年华400300200100(a) WebFG-496中的标签噪声(b) WebFG-496中的小类间方差00 1000 2000 3000 4000 5000分类目录(c) WebiNat-5089中的类不平衡图1. WebFG-496和WebiNat-5089的示例。（a）WebFG-496中的跨域（紫色边界框）和跨类别（红色边界框）噪声。（b）由于颜色、姿势和其他因素的多样性，在WebFG-496数据集中的子类别（c）WebiNat-5089中每个类别的训练图像的分布在最大的子类别“Udea Rubigalis”中的训练图像的数量错误标记的训练数据并导致较差的泛化性能[25]。（2）类间方差小- 如图1（b）中，三个细粒度子类别具有小的类间方差，而每个子类别具有大的类内方差。针对识别属于同一个超类别的数百个子类别是一个极具挑战性的任务。（3）阶级不平衡-自然界是严重不平衡的，因为一些物种更容易被观察到[4]。如图1（c），我们收集了563个“Udea Rubigalis”的网络训练图像。而对于极端的类别不平衡是现实世界中细粒度类别的一个特性，识别模型应该能够处理它。为了解决上述问题，我们利用三个著名的细粒度数据集，即，FGVC- Aircraft [27]，CUB 200 -2011 [3]和Stanford Cars [28]，以构建新的网络监督细粒度基准数据集WebFG-496。为了扩大类别并构建更大且具有挑战性的细粒度数据集，我们重用了iNat 2017 [4]中的类别来构建网络版 iNaturalist 数据集，称为 WebiNat-5089。与手动标记的iNat 2017相比，WebiNat-5089由1，184，520个网络训练图像组成，基本上是训练图像数量的两倍（即1，184，520个）。，579，184）。此外，我们还提出了一个简单而有效的学习范式，直接从嘈杂的Web图像中训练强大的深度细粒度模型。我们的工作基于以下观察：1）深度神经网络的性能可以通过从错误分类的实例（即，，2）深度神经网络总是首先适应3）不同的网络具有不同的学习能力，并且可以通过相互交流“有用信息”来协同提高它们的性能具体来说，我们训练两个深度神经网络，并让他们相互纠正他们的分类错误。对于每个小批量的web图像，每个网络单独地前馈所有数据以单独地预测标签，基于该标签，输入数据被分成两个组Gd（具有不同预测的实例）和Gs（具有相同预测的实例）。然后，网络用Gd中的实例更新它们的参数。同时，每个网络将Gs中的小损失实例作为在新的基准数据集上的广泛实验证明了我们所提出的方法的有效性这项工作的主要贡献可概括如下：(1) 我们构建了两个网络监督的细粒度数据集，即WebFG-496和WebiNat-5089，用于对Web监督的细粒度方法进行公平的基准测试。具体来说，WebFG-496由三个子数据集组成：Web-aircraft，Web-bird，Web-car。它可以帮助研究者及时验证他们所提出的方法的有效性。大规模的WebiNat-5089包含5089个细粒度的子类别和超过110万张网络训练图像。据我们所知，它是最大的网络监督细粒度基准数据集。(2) 我们提出了一种新的深度学习范式，即。对等学习用于处理网络监督细粒度识别。我们的模型联合利用“硬”和“容易”的这种策略可以缓解MentorNet [55]中的累积错误问题和Co-teaching [30]中的共识问题，从而可以提高网络监督学习的性能。(3) 我们进行了广泛的实验，各种基线方法的基准建议的WebFG-496和WebiNat-5089数据集，以及我们的同行学习。在前-大花藓蓝蝶训练图像10604实验中，WebFG-496和WebiNat-5089的结果验证了我们的方法优于最先进的方法，消融研究证明了所提出的基准数据集的优点和我们的方法的有效性。2. 相关工作2.1. 细粒度识别数据集在过去的十年中，计算机视觉社区已经开发了许多覆盖各种元类别的细粒度数据集，例如：，飞机[27，34]，鸟类[3，35]，汽车[28，36，37，38]，狗[11，39，40]，花[12]，[2017 - 04 - 17][2017 - 04 - 18][2017 - 04 - 17][2017 -04][2017 - 04 .表1中提供了常用细粒度数据集的统计数据。与粗粒度注释相比，细粒度图像标记是一项极其困难的任务，并且只有少数领域专家能够正确地标记它们。这激发了从免费的web图像中自动学习细粒度识别模型以区分大数字的需求潜在的视觉相似的类别。然而，现有的网络监督数据集，如NUS-WIDE[46]，We- bVision [47]和OpenImages [48]，都是粗粒度数据集。需要为细粒度定制的基准网络监督数据集来公平地评估所提出的方法的性能。我们的两个基准我们监督细粒度数据集，即。、 WebFG-496 和WebiNat-5089等，可以促进本学习场景的进一步研究。2.2. Webly监督学习使用Web图像训练细粒度识别模型通常会由于标签噪声和数据偏差的存在而导致性能不佳[21，22，23]。统计学习为解决这一问题做出了重要贡献，特别是在理论方面。在这项工作中，我们的重点是基于深度学习的方法。粗略地说，这些作品可以分为四组。第一组涉及开发用于处理标签噪声的新型损失函数[31，32，33，49，50，56第二组尝试估计噪声转移矩阵[52，53]。第三种应用注意力机制来减轻噪音和数据偏差[54]。最后一组尝试清理Web数据作为预处理步骤[29，30，42，43，55]。然而，这些作品都不是专门为细粒度视觉识别而设计的我们提出的对等学习方法属于最后一组，并提出了网络监督细粒度识别。不同于现有的方法（例如，Decoupling [29]仅使用表1.流行的细粒度数据集的统计。“Supervi- sion” means thetraining data is manually labeled (“Manual”) or collected fromthe web域数据集名称#火车#类监督鸟类CUB200-2011 [3]5,994200手动NABIrds [5]23,929555手动汽车[28]第二十八话8,144196手动人口普查车[38]512,7652,675手动斯坦福犬[39]12,000120手动狗牛津宠物[40]3,68037手动DogSnap [11]4,776133手动飞机[27]第二十七话3,334100手动花[12]第102话1,020102手动食品免费WiFi [17]29,200292手动叶LeafSnap [41]23,147185手动树木城市树木[44]14,57218手动自然2017中国国际展览会[4]579,1845,089手动我们WebFG-49653,339496WebWebiNat-50891,184,5205,089Web监督细粒度识别模型。3. 数据集构建在本节中，我们将解释我们的网络监督细粒度数据集WebFG-496和WebiNat-5089的构造细节。值得注意的是，WebFG-496由三个子数据集组成：Web-aircraft、Web-bird和Web-car。细粒度分类：构建新基准数据集的第一个问题是我们将从互联网上收集的Web图像的细粒度类别。在文献中，有三个著名的手动标记的细粒度数据集，即：、FGVC-Aircraft [27]、CUB 200 -2011 [3]和Stanford Cars [28]，分别包含100种飞机、200种鸟类和196种汽车。对于我们的WebFG-496，我们遵循这些细粒度数据集，以重用它们的类别标签作为我们的目标细粒度类别。此外，为了构建一个更大，更具有挑战性的网络监督细粒度基准数据集，我们探索了iNat2017 [4]中最初提出的5089个类别，以构建我们的WebiNat-5089。测试图像：由于我们的网络监督数据集WebFG-496和WebiNat-5089中的细粒度类别来自如上所述的现有数据集。为了节省数据集构建的成本并考虑与传统细粒度方法的方便比较，我们直接将FGVC-Aircraft，CUB 200 - 2011和Stanford Cars中的测试集作为我们的WebFG的测试数据496.对于WebiNat-5089，使用iNat 2017的验证集作为测试数据。网站来源：正如[ 51 ]所指出的，不同的网络来源，如Google图像搜索引擎（GIS），Bing图像搜索引擎（BIS），Flickr，Airliners和iNatural- ist可能对数据集产生重大影响。表2总结了WebFG-496和WebiNat-5089中用于测试图像的Web源。为了减少与测试集重叠的概率，同时训练webly supervised域鲁棒的深细粒度模型，我们最终10605{∈|}{∈|}联系我们----表2.WebFG-496和WebiNat-5089中训练数据的详细构建过程 “Imbalance” is the number of images in the largest class divided by thenumber of images in the数据集子数据集类测试源检索的图像过滤破裂后重复过滤不平衡WebFG-496蹼鸟网车100200196航空公司FlickrGIS+ Flickr+BIS14,81729,21127,95914,77229,09827,89513,50318,38821,4481.21.12.3WebiNat-5089-5,089iNaturalist1,437,4831,434,0831,184,520140.8最终选择Bing图像搜索引擎（BIS）作为我们的训练图像的网络来源。收集候选训练图像：图像搜索引擎中排名靠前的图像往往具有相对较高的准确率，而排名靠后的图像通常包含越来越多的噪声。基于减少所收集的网络图像中的噪声的考虑，对于WebFG-496中的496个类别，我们将每个类别标签视为一个查询，并从BIS中抓取前150个图像。由于一些特殊类别比其他类别更难拍摄，自然世界是极不平衡的[4]，现实数据服从长尾分布。对于WebiNat-5089中的5089个类别，我们也将每个类别标签视为一个查询，但为每个查询抓取尽可能多的图像。在删除无效链接后，我们分别获得了WebFG-496的71，987张图像（14，817张飞机图像，29，211张鸟类图像和27，959张汽车图像）和WebiNat-5089的1，437，483张图像删除损坏的图像：由于我们的训练图像是直接从网络上抓取的，因此可能会包含一些损坏的图像。为了删除这些损坏的图像，我们使用Python库Pillow来检查每个收集的图像，然后将它们转换为RGB模式。无法通过Pillow打开或无法转换为RGB的图像将被视为损坏的图像并被删除。表2给出了删除损坏图像后WebFG-496和WebiNat-5089删除重复的图像：为了去除训练数据和测试数据之间的重复图像，我们利用深度卷积神经网络（CNN）进行语义信息提取。我们的重叠消除策略是在假设具有更多相似语义信息的图像更有可能是相似的，甚至是相同的。具体来说，我们首先使用在ImageNet上预训练的VGG- 16 [57]模型来提取训练和测试数据中每个图像的嵌入特征向量。在这里，我们选择最后一个最大池化层的特征图，然后执行全局平均池化，将它们转换为512-d特征向量。然后，对于每个类别的每个测试图像，我们计算该测试图像与每个训练图像之间的相似性距离。对于每个类别，我们获得训练数据和测试数据之间的最小距离，表示为θ。我们设置经验阈值因子η以将距离缩放到（1+n）×θ，并去除具有比（1 +n）×θ小的距离的web训练图像。在数据集构造中，η的值设定为0.01。如表2所示，在去除重复图像之后，我们最终获得了WebFG-496的53，339个训练图像和WebiNat-5089的1，184，520个之后，我们根据训练数据和测试数据之间的排名距离手动检查获得的图像，并留下很少的重复图像。WebiNat-5089中的类不平衡：WebiNat-5089包含2,101 种植物、 1,021 种昆虫、 289 种爬行动物等。WebiNat-5089数据集的每类图像的平均数量为232.7，而中位数为221。某些类别的图像很容易获得（例如，563图像为“Udea Rubigalis”），而其他的是硬的（例如. ，“Hordnia Atropunctata”的4个图像），使得极端类别不平衡成为属性（即，长尾）。因此，从web图像训练细粒度模型还需要考虑类不平衡问题。数据集准确度：很难手动建立细粒度Web数据的准确性，特别是对于包含超过110万个Web训练图像的WebiNat-5089。然而，我们可以通过随机抽样粗略估计WebFG-496和WebiNat-5089的训练数据的准确性对于WebFG-496，我们随机选择了100个子类别，每个子类别50张图像。对于WebiNat-5089，我们随机选择了200个子类别，每个子类别50张图像。最后，训练数据的粗略估计精度如表3所示。表3.通过WebFG-496和WebiNat-5089随机抽样估计的训练数据的粗略准确性。数据集WebiNat-5089WebFG-496网式飞机蹼鸟网车精度百分之三十六百分之七十三百分之六十五百分之六十七4. 建议的同侪学习网络培训策略如图所示。 2，我们的框架由两个网络h1和h2，相互沟通有用的信息，以提高最终的性能。具体地，假设我们有一小批数据G=（xi，yi），其中yi是图像xi的具有噪声的标签。h1和h2首先分别预测标签yi，h1和yi，h2of xi，在此基础上G被划分为Gs=（xk，yk）Gyk，h1=yk，h2（具有相同预测的实例）和Gd=（xk，yk）Gyk，h1=yk，h2（具有不同预测的实例）。受[29]的启发，我们将Gd视为10606G1（）*：y+）分类和丢弃模块更新G$⋮图像集分割模块相同预测图像⋮G：y-）=y-）* 0y-）≠y-）* 0y+）0：G$（）：0分类和丢弃模块更新G1不同预测图像Gd：−Σ联系我们Tk联系我们 ||L|∈{}‘‘⋮‘⋮‘‘0.070.11⋮0.230.780.540.050.20⋮0.14⋮0.650.89图2.我们的同侪学习模式的架构输入是一小批Web图像。 h1和h2中的每个网络分别前馈数据以分别预测标签，基于此，输入数据被分成两个集合Gs（具有相同预测的实例）和G d（具有不同预测的实例）。然后，h1和h2分别对Gs中的小损失实例进行排序，并提取小损失实例作为有用知识Gs1和Gs2。随后，h1使用G d和G s2更新其参数，而h2使用G d和G s1更新其参数。H1和 H2的组合。为了减轻Gd中标签噪声的负面影响，我们分别根据h1和h2计算的损失，选择一小部分实例Gs1和Gs2来挖掘Gsi（i1，2）由通过使用hi而具有顶部（1d（T））最小训练损失的实例组成，并且具体地被定义为：Gsi=argminGsGs：|G~s| ≥（1−d（T））|Gs|（xj，yj）∈G~sLhi（xj，yj），（一）哪里hi（xj，yj）是由hi（i1，2）计算的实例x j的训练损失，并且Gs指示Gs中的元素的数量。特别是d（T）=ξ·min{T，1}，（2）在Gd中具有标签噪声的实例。因此，我们将我们的算法称为通过相互交流细粒度模块值得注意的是，训练策略独立于骨干网络结构h1和h2。在Peer-learning网络中，我们通过使用现有的细粒度模块（例如，，B-CNN [59]，NTS-Net [6]，H-B-Pooling [7]，[10][11][12][13][14][15][16][17][18][19h1和h2的骨干网结构。为什么我们的方法是有效的？由于实例在Gd包括有偏预测（至少一个网络给出是动态控制Gsi的丢弃率最大丢弃率，以及|, where ξ is错误的预测），仅使用在Gd中的实例可能会导致错误，这些错误将Tk是在其之后d（T）不再被更新的时期的数量。动机在于，我们试图通过将d（T）设置为一个小值来在开始时利用更多的图像进行训练。此后，d（T）逐渐增加，因此我们只选择具有足够高置信度的正确标记的实例，并在网络记住它们之前丢弃噪声。在获得Gd和Gsi（i1，2）之后，我们将Gd Gs1视为由其对等网络h 1提供的用于训练h 2的同样地，采用Gd ∪ Gs2来训练h1。通过使用具有学习率λ的梯度Lhi来更新n个工作hi（i∈{1，2}）的参数θhi在下一个小批次中直接转移回其自身。这些错误将越来越多地积累，并且先前的作品，如Decoupling [29]和MentorNet [55]，不能显式地处理它们。在我们的方法中，由于两个网络具有不同的学习能力，他们可以与他们的对等网络通信通过这些交换过程，由更新与Gd引起的错误可以识别和减少对等网络mutu- ally。这就是为什么我们的方法比以前的作品，如解耦和MentorNet更强大的原因。另一方面，与更新模型的方法相比，θh1←θh1−λ·Σ（xi，yi）∈Gd∪Gs2Lh1（xi，yi），（3）仅使用“干净”样品（例如，，Co-teaching [30]），我们的方法的优点是我们还可以利用所谓的θh2 ←θh2 -λΣ（xi，yi）∈Gd∪Gs1Lh2（x i，y i）.（四）动机是，在Gd群中，仍然有许多正确分类的实例。因此，我们仍然可以学习我们的方法中的任一网络都从其对等网络学习从这些实例中提取“充分的知识G$：G1：⋮⋮⋮⋮带有噪声标签的⋮对等网络⋮⋮‘‘⋮‘⋮‘‘10607−表4.在WebFG-496数据集上比较基准方法和网络监督基线（解耦，合作教学和我们的同行学习）的分类准确率（%）类型方法骨干WebFG-496Web-Bird网络飞机网络汽车平均VGG-16 [57]-66.3468.3861.6265.45VGG-19 [57]-67.6970.9967.2168.63基准ResNet-50 [60]ResNet-101 [60]--64.4366.7460.7963.4660.6465.5161.9565.24[61]第六十一话-66.0166.0265.8765.97B-CNN [59]VGG-1666.5664.3367.4266.10分离[29]B-CNN70.5675.9775.0073.84韦布利教育学[30]B-CNN73.8572.7673.1073.24同行学习B-CNN76.4874.3878.5276.46表5.通过在WebFG-496数据集上使用不同的细粒度主干模块进行对等学习的分类准确度（%）的比较方法骨干WebFG-496[6]78.17H-B-合并[7]77.06同行学习DFL-CNN [8]76.03OPAM [9]75.32Fast-MPN-COV [10]77.10为什么我们需要用Gd更新神经网络？对于G d中的每个实例，h 1和h 2中至少有一个网络被给出了错误的预测。这些错误的预测产生了更新的模型，可以有希望地导致更好的分类性能。然而，用Gd更新神经网络h1和h2也会带来一些误差。例如，由h1和h2预测的实例x的标签分别为+1和1如果实例X的基础真值标签是+1，则h2将X视为错误预测，并且更新参数将促进h2的鲁棒性。同时，h1正确地预测了实例x的标号，但错误地认为它已被给出了一个错误的预测，因此通过将x视为一个错误的预测来更新它的参数将给h1带来错误。更糟糕的是，这些错误将被转移回来，并不断积累。为什么“有用知识”能纠正G d的错误？泛化效应[24]表明，在嘈杂的数据集上，深度神经网络将首先在初始时期学习干净和简单的模式。因此，它们可以在训练开始时通过它们的损失值过滤掉噪声实例然而，随着epoch数量的增加，深度神经网络最终会在嘈杂的标签上过拟合。我们的关键思想是在记忆这些嘈杂的标签之前将它们丢弃。在我们的方法中，我们通过参数d（T）动态地控制噪声标签的丢弃率。随着历元T的数量增加，我们逐渐增加丢弃率d（T），以便我们可以在神经网络记住它们之前保持直观地，Gs中的小损失实例（容易的实例）。表6.在WebiNat-5089数据集上比较基准和我们提出的网络监督基线同行学习的分类准确率（%）。类型方法骨干WebiNat-5089VGG-16 [57]-44.77基准[61]第六十一话-39.71ResNet-50 [60]-48.23韦布利同行学习ResNet-5054.56样本）更有可能被正确分类。另一方面，网络h1和h2具有不同的决策边界，因此具有不同的学习能力。当在嘈杂的Web图像上训练时，它们可以具有不同的能力来过滤掉嘈杂的标签。我们使用彼此的“有用知识”交叉更新神经网络。通过这些有用知识的交换过程，不同类型的错误引起的Gd可以相互识别和减少对等网络。这一过程类似于“同行审查”。当学生检查自己的试卷时，他们很难发现错误，因为他们对答案有一些个人偏见幸运的是，他们可以请同龄的同学来审阅他们的论文。5. 实验5.1. 对两个建议的数据集进行实验设置：对于WebFG-496上的基准方法，我们选择了Bilinear-CNN（B-CNN）[59]和五个深度神经网络，包括VGG-16 [57]，VGG-19 [57]，ResNet-50[60]， ResNet-101 [60]，和GoogLeNet [61].所有网络都在Ima-geNet上进行了预训练，然后在WebFG的三个子数据集上进行了微调496.具体而言，我们遵循[59]并采用两阶段培训策略。我们首先冻结卷积层参数，只优化最后一个完全连接的层。然后，我们优化的微调模型中的所有层的参数。在实验中，我们使用SGD作为优化器。第一阶段的学习率和批量大小设置为0。01和64，而在第二阶段，它们是0。00110608表7.使用（或不使用）网络图像作为数据增强的分类准确度（%）的比较。相对于基线模型的改进报告为（∆）。测试数据训练数据骨干ACA（%）改进FGVC-AircraftFGVC-AircraftWeb-aircraft + FGVC-飞机VGG-1684.888.4∆3.6CUB200-2011CUB200-2011Web-bird + CUB200-2011VGG-1677.785.7∆8.0斯坦福汽车斯坦福汽车网络汽车+斯坦福汽车VGG-1685.692.4∆6.8图3.在WebFG-496中的子数据集Web-aircraft，Web-bird和Web-car上，我们的对等学习模型（PLM），VGG-19，B-CNN，Decoupling（DP）和Co-teaching（CT）之间的分类准确率（%）比较。每个子数据集上的值以虚线绘制，平均值以实线绘制。注意，分类准确度是两阶段训练策略中的第二阶段的结果。由于我们已经在VGG-19的第二阶段中训练了60个epoch，因此我们只将我们方法的第二阶段中的前60个epoch与 VGG-19进行比较。和64.由于WebiNat-5089包含超过110万张训练图像，因此在如此大规模的数据集上需要大量的训练时间。为了高效，对于WebiNat-5089上的基准测试，我们进行三个深度网络，即，VGG- 16 [57]，GoogLeNet [61]和ResNet-50 [60] 。与 WebFG-496 类似，我们也在WebiNat-5089上对这些深度神经网络进行了微调，但采用了单阶段训练策略。除了批量大小不同（WebiNat- 5089为1024）外，其他参数相同。定量结果：WebFG-496和WebiNat-5089上的基准的实验结果呈现在表4和表6中。如表4所示，我们可以注意到，所有六个网络都达到了合理的细粒度分类精度，这验证了WebFG的可靠性496.从表6中我们可以发现，三种网络在WebiNat-5089上的性能明显低于WebFG-496。这表明WebiNat-5089比WebFG-496更具挑战性，这可能是由极端的类不平衡问题引起的。数据扩充：广泛使用的 FGVC 基准数据集（例如，，CUB 200 -2011）都受到有限的训练数据的影响，这严重阻碍了FGVC任务充分受益于深度CNN的高学习能力。作为一种新的细粒度识别数据集，证明网络监督数据可以有益于全监督数据是非常重要的。为此，我们遵循半监督方式并利用web图像（即，、Web-aircraft、Web-bird、Web-car）作为数据增强w.r.t.用于训练深度FGVC模型具体来说，通过使用我们的细粒度数据集预训练VGG-16，在不利用web数据的情况下，基线的改进如表7所示。标签平滑：为了研究使用标签平滑对网络监督的基准数据集的影响，我们通过将平滑参数设置为0.1来对VGG-16、VGG-19、RestNet-50和ResNet-101进行实验在WebFG-496上的实验结果在图中给出4.第一章从该图中，我们可以观察到：1）在三个子数据集上使用标签平滑之后，VGG-16和VGG-19的性能没有太大变化。2)当使用标签平滑时，ResNet-50在Web-aircraft和Web-bird上的性能下降，但在Web-car上的性能明显提高。3)使用标签平滑后，ResNet-101的性能在所有子数据集上都有不可测的增长。5.2. 同伴学习绩效实施详情：对于WebFG-496，我们使用预训练的VGG-16 [57]来初始化h1和h2的所有卷积层。h1和h2的网络架构是B-CNN [59]。为了避免学习两个完全相同的网络，我们在全连接层上执行“Kaiming正常初始化”，以确保h1和h2具有不同的起点。在实验中，我们设置ξ= 0。35和T k= 10作为WebFG-496上的默认值。对于模型训练，我们采用Adam优化，也采用了两阶段培训策略第一阶段的学习率和批量大小设置为10- 3和64，而在第二阶段，它们是10- 4和32。对于WebiNat-5089，我们采用预先训练的1060980757065605550网式飞机蹼鸟网车图4.在WebFG-496上使用（“之后”）标签平滑和不使用（“之前”）标签平滑之间的分类准确度（%）的比较ResNet-50 [60]初始化h1和h2。h1和h2的网络架构也是ResNet-50 。我们设置ξ = 0 。在WebiNat-5089上，T k= 3和T k=10 对于模型训练，执行单阶段训练策略以节省训练时间。学习率、批量大小和训练时间分别设置为10−3、160和60。基线：在WebFG-496上，我们将我们的同行学习与两种网络监督的最先进的基线方法进行了比较：[29]与[30]的关系。为了公平起见，我们在这两种方法中替换了基本网络，并使用与我们相同的骨干网络B-CNN[59]。对于所有其他参数，如批量大小，学习率，权重衰减，训练时期和下降率，我们都设置为与我们的Peer-learning相同此外，我们在对等学习中替换了B-CNN [59]的骨干网络，并使用SOTA细粒度模块NTS-Net [6]，H-B-Pooling [7]，DFL-CNN [8]，OPAM [9]和Fast-MPN-COV [10]进行比较。在WebiNat-5089上，我们直接将Peer-learning与基准进行了比较。原因在于，在如此大规模的数据集上训练深度模型，在计算配置下需要超过240小时：4个V100 GPU（32G）卡，批量大小为160。定量结果：实验结果示于表4、表5、表6和图3中。如表4所示，我们可以注意到，我们的对等学习大大提高了网络监督方法的性能。与Co-teaching相比，Peer-learning不仅可以利用Gs1和Gs2中的有用知识来更新网络参数，还可以利用Gd中的噪声数据来促进参数优化.与解耦相比，我们的方法中的每个网络都可以从其对等网络中学习有用的知识，以纠正更新时的错误。因此，在解耦中积累的误差可以大大减少在我们的方法。从表4和表6中，我们可以观察到我们的方法比基线网络表现得更好。与[57，60，61]相比，我们的方法维护了两个可以相互学习有用知识的网络。从表5中，我们可以看到图5.可视化的我们的Peer-learning可以与不同的SOTA细粒度模块相结合，并取得领先的结果。通过观察图。3、我们可以发现我们的方法不仅比其他方法更好，而且实现模型优化的速度也快得多。解释是，我们的方法可以逐渐丢弃噪声图像，并选择有用的样本用于训练模型。不同时期的可视化：图5分别可视化了我们的方法在第10、第20和第30个时期中探索的“容易”和“困难”示例。从图中可以看出，随着训练次数的增加，模型的识别能力也在不断提高。例如，与第10个时期相比，我们在第30个时期的模型可以识别更复杂的例子。6. 结论在这项工作中，我们研究了通过嘈杂的网络图像的细粒度识别的问题。具体来说，我们首先构建了两个基准Web监督细粒度数据集WebFG-496和WebiNat-5089。然后，我们提出了一种新的方法，称为Peer-learning，通过同时训练两个深度神经网络，这两个网络都从嘈杂的网络图像中利用并相互交流有用的大量的实验表明，我们的方法达到了最先进的性能，与现有的作品。在未来，我们计划调查类不平衡的影响，并设计一个更健壮的细粒度模型，将类不平衡考虑在内。致谢本工作得到国家自然科学基金项目（No. 61976116和 61772256 ）、中央大学基础研究基金（编号：61976116和61772256）。30920021135和30920041111），和CAAI-Huawei MindSpore开放基金（CAAIXSJLJJ- 2020- 022 A）。VGG-16 VGG-19 ResNet-50 ResNet-101之前之后之前之后之前后硬例子简单的例子第30纪元硬例子简单的例子20世纪硬例子简单的例子第十纪元10610引用[1] Xiu-Shen Wei ， Chen-Wei Xie ， Jianxin Wu ， andChunhua Shen. Mask-cnn：局部化部分和选择描述符用于细粒度鸟类分类。模式识别，76：704-714，2018。1[2] 韦锋戈、蔺相如、益州羽。弱监督互补部分模型用于自下而上的细粒度图像分类。在CVPR中，第3034- 3043页，2019年。1[3] Catherine Wah、Steve Branson、Peter Welinder、PietroPerona和Serge Belongie。加州理工学院-ucsd鸟类-200-2011数据集。CNS-TR-2011-001，第1-8页，2011年。二、三[4] Grant Van Horn、Oisin Mac Aodha、Yang Song、YinCui 、 Alex Shepard 、 Hartwig Adam 、 Pietro Perona 和Serge Be- longie。自然主义物种分类和检测数据集。在CVPR中，第8769-8778页，2018年。一、二、三、四[5] Grant Van Horn、Steve Branson、Ryan Farrell、JessieBarry、Panos Ipeirotis、Pietro Perona和Serge Belongie。与公民科学家一起构建鸟类识别APP和大规模数据集：细粒度数据集集合中的细打印。在CVPR中，第595-604页，2015年。第1、3条[6] 泽阳、天哥罗、东王、胡志强、高俊、王立伟。学习导航以进行细粒度分类。参见ECCV，第420-435页，2018年。五六八[7] Chaojian Yu ， Xinyi Zhao ， Qi Zheng ， Peng Zhang ，Xingge You.用于细粒度视觉识别的分层双线性池。参见ECCV，第574-589页，2018年。五六八[8] 王亚明、弗拉德I莫拉留和拉里S戴维斯。在CNN内学习判别滤波器组以进行细粒度识别。在CVPR中，第4148-4157页，2018年。五六八[9] 彭宇新，何祥腾，赵俊杰。用于细粒度图像分类的对象-部分注意模型。在TIP，2018年。五六八[10] Peihua Li，Jiangtao Xie，Qilong Wang，and Zilin Gao.通过迭代矩阵平方根归一化来更快地训练全局协方差池网络。在CVPR中，第947-955页，2018年。五六八[11] Jiongxin Liu ， Angjoo Kanazawa ，

下载后可阅读完整内容，剩余1页未读，立即下载