深度学习驱动的细粒度图像分类：挑战与进展

需积分: 50 200 浏览量更新于2024-08-05 收藏 2.3MB PDF 举报

"细粒度图像分类是计算机视觉领域中的一个重要课题，主要关注于区分同一类别下的不同子类，如区分不同种类的鸟类或汽车型号。由于类间相似度高和类内差异大，此类任务对算法的辨别力提出了更高的要求。深度学习，特别是卷积神经网络（CNN），在解决这一问题上展现出显著优势，能捕获更复杂的特征并提高分类准确性。本文综述了基于深度学习的细粒度图像分类方法，包括强监督和弱监督两种策略，并探讨了当前研究中的一些关键技术和模型，如YOLO、多尺度CNN和生成对抗网络（GAN）的应用。同时，文章比较了数据增强技术对提升分类性能的影响，以及在复杂场景下各种细粒度识别方法的性能。最后，作者对现有算法的性能进行了分析，指出了未来研究方向和面临的挑战。" 细粒度图像分类的关键在于深度学习模型的特征表示能力和泛化能力。传统的机器学习方法可能难以处理类间微小差异，而深度学习，尤其是CNN，可以通过多层抽象学习到更高级别的特征，有助于区分看似相似但实际上属于不同子类的图像。在强监督策略中，模型通常需要大量带有精确位置和部分标注的训练数据，以便学习每个子类的独特特征。另一方面，弱监督方法则尝试在有限或无标注数据的情况下达到较好的分类效果。 YOLO（You Only Look Once）是一种实时目标检测系统，尽管最初设计用于通用物体检测，但已被应用于细粒度图像分类，通过全局和局部特征的结合来提高识别精度。多尺度CNN则考虑了不同尺度下的图像信息，以适应不同大小和位置的细粒度特征。生成对抗网络（GAN）则通过生成新的训练样本，帮助模型学习更多的图像变体，提高泛化能力。数据增强是提高模型性能的重要手段，它可以模拟真实世界中的图像变化，增加模型的鲁棒性。文章对比了不同数据增强技术，如翻转、旋转、裁剪等，对于提升细粒度图像分类效果的作用。在复杂场景下，例如背景噪声大或光照变化多的环境，选择合适的方法和技术对识别性能至关重要。总体来说，这篇综述文章全面探讨了细粒度图像分类领域的深度学习方法，提供了当前研究趋势的概览，同时指出了未来研究的潜在方向，如更有效的标注方法、模型的轻量化以及在小样本情况下的泛化能力提升等。这对于从事相关研究的学者和开发者具有很高的参考价值。

计算机科学与探索

www.ceaj.org

Journal o f Frontier s of Computer Scie nce and Technology 计算机科学与探索 2021, 15(10)

细小的局部区域，对其进行准确的区分是算法成功

的关键。

细粒度图像分类在许多领域都有着非常普遍的

研究需求和应用场景。例如，胸部病灶的病理形态、

位置、大小等具有多样性和较大的差异性，并且一

些疾病样本的比例也不平衡，因而不同类型的胸部

疾病分类也属于细粒度图像分类问题。目前，此类

工作主要依赖于放射科医生的人工观察，易受到胸

部病理特征临床表现多样性、放射科医师阅片疲劳

和缺乏临床经验等因素影响，会造成误诊、漏诊的

现象。

在细粒度图像分类任务中，许多算法过分依赖

于人工标注信息。常用的标注信息主要是指标注框

（bounding box）以及局部区域位置信息（part locations）

等，在检测前景对象时使用标注框，可以消除背景噪

声的干扰；局部区域位置信息可以用来实现局部区

域的定位，或是姿态对齐等操作，以完成局部特征的

提取。这些人工标注信息由于获取不易，算法的实

用性较弱。现在越来越多的算法倾向于使用类别标

签等来完成分类任务。

近几年来，细粒度图像分类取得了飞速的发展，

从传统的人工提取特征及分类器设计，逐渐朝着基

于端到端的神经网络的方向发展。传统的细粒度图

像分类算法主要包括三个步骤：特征定位、特征提取

和分类器。这类算法通常先是在训练集中找到特征

点的位置信息，再用这些特征点的位置信息去提取

测试图片的局部区域，然后用人工提取的特征对局

部区域进行特征提取，最后将提取到的特征放到分

类器中。端到端细粒度图像分类算法也可以分为三

个步骤：特征区域定位、局部特征切割和分类神经网

络。图 1 是端到端的细粒度图像分类算法的典型流

程图。该算法采用共享的卷积层神经网络的底层提

取图片中的信息，将提取到的特征送入区域检测子网

络和分类子网络，然后在检测子网络中利用选择性

搜索、K- 近邻等算法进行候选区域的筛选，然后在这

些区域中利用 Fast R-CNN（fast region-c onvolut ional

neural network）等算法挑选出置信度最高的局部区

域，将这些局部区域的位置信息送入到分类子网络

中，然后利用特征图切割的方式将对应位置的特征

提取出来送入到全连接层从而得到最终的分类结果。

与传统细粒度图像分类算法相比，端到端的分

类算法特殊在于特征提取的部分，神经网络对图片

的特征信息的提取能力远远超过人工构建的特征，

神经网络在分类任务中是一个前后相同的整体，低

层的特征受到分类结果反向传播的影响，因此趋向

于寻找最有判别能力的特征。神经网络的特征提取

都是经过了大量的计算被证实对分类结果有显著影

响的特征，因此自然比人工构建的特征提取算法提

取到的特征更有判别能力。现在最常用的是卷积神

经网络（convolutio nal neural network，CNN）对图像进

行特征提取。卷积神经网络无需复杂的特征提取和

数据重建过程，且提取到的特征更具有特征表达和

判别能力，已经广泛应用于图像分类

[3-4]

、行为识别

[5-6]

、

图像描述

[7-8]

、图像检索

[9-10]

等领域。

1.2 细粒度图像数据库

细粒度图像数据集通常需要专业领域的专家知

识才能完成数据的采集和标注，因此数据集的获取

难度更大。本节介绍了几种常用的细粒度图像数据

库，并在表 1 展示了这些数据库的具体类别和大小。

Fig.1 Typical flowchart of end-to-end fine-graine d

image classificat ion algori thm

图 1 端到端的细粒度图像分类算法的典型流程图

Table 1 Fine-grained image datasets

表 1 常用细粒度图像数据库

数据库

CUB-200-2011

[11]

Car-196

[12]

FGV C-Aircraft

[13]

类别数

200

196

102

数据集大小

11 788

16 185

10 200

1832

剩余12页未读，继续阅读

syp_net

粉丝: 158

深度学习驱动的细粒度图像分类：挑战与进展

[实战]200类鸟类细粒度图像分类

旷视科技南京研究院负责人魏秀参 细粒度级别图像分析领域的现状与展望.pdf

小样本细粒度图像分类的混合注意机制

深度学习驱动的细粒度图像分类方法研究

适合细粒度图像分类的方法，以及能提升细粒度图像分类精度的具体方法，以及如何进行数据处理

深度学习驱动的细粒度图像分类研究与实现

细粒度车辆分类深度学习架构的全面评估

细粒度识别：深度学习方法与挑战

深度学习与CRC算法结合：细粒度图像分类实践

细粒度图像分类的自我监督学习方法研究

最新资源

旷视科技南京研究院负责人魏秀参细粒度级别图像分析领域的现状与展望.pdf