双流模型CVL：突破细粒度图像分类的局限

95 浏览量更新于2025-01-16 收藏 1.65MB PDF 举报

本文探讨了细粒度图像分类的挑战，主要关注类内方差大、类间方差小的问题，这是导致识别困难的关键因素。为了应对这一问题，研究者们通常采用部分检测模型来提高分类精度。然而，这种方法存在两个局限性：一是并非所有检测到的零件都对分类有帮助；二是仅依赖零件位置或属性注释无法提供足够的细粒度视觉描述。针对这些局限性，文章提出了结合视觉和语言的双流模型（CVL）。CVL模型由两个核心组成部分构成：视觉流和语言流。视觉流通过深度卷积神经网络（CNN）从原始图像中学习深层特征，而语言流则利用自然语言描述来突出图像中的关键差异性部分或特征。这种语言描述提供了识别子类别所需的详细视觉信息，能够更准确地编码显著的视觉方面。通过将这两个流结合，CVL模型能够捕获更丰富的信息，从而实现更高的分类精度。在CUB-200-2011数据集上的实验结果显示，CVL方法在与12种先进方法的比较中表现出最佳性能，验证了其有效性和优越性。细粒度图像分类在实际应用中，例如鸟类识别、花卉分类或车辆型号识别等领域，有着重要的价值。随着深度学习技术的发展，模型的性能有望持续提升，为精细化的图像识别任务提供更强大的支持。CVL模型的创新在于它整合了视觉和语言两种信息源，为解决细粒度图像分类的挑战提供了新的思路。这种跨模态的学习方法不仅提高了分类准确性，也为未来的研究打开了新的可能性，比如在更多领域中融合多模态信息进行复杂任务的处理。

展开

5994

海尔曼鸥

银鸥

灰背鸥

类间方差

西鸥

结合视觉和语言

何翔腾、彭

北京大学计算机科学与技术研究所

网址：hexiangteng@pku.edu.cn，pengyuxin@pku.edu.cn

摘要

细粒度图像分类是一个具有挑战性的任务，由于大

的类内方差和小的类间方差，旨在识别属于同一基本

层类别的数百现有的大多数细粒度图像分类方法一般

通过学习部分检测模型来获得语义部分，以提高分类

精度。尽管取得了有希望的结果，但这些方法主要有

两个局限性：（

）不是所有通过零件检测模型获得的

零件都是有益的并且对于分类是必不可少的，以及

（

）细粒度图像分类需要更详细的视觉描述，这不能

由零件位置或属性注释提供。针对上述两个局限性，

本文提出了结合视觉和语言的双流模型（

CVL

）来学

习潜在语义表征。视觉流通过深度卷积神经网络从原

始视觉信息中学习深度表示语言流利用自然语言描

述，指出每幅图像的区别性部分或特征，并提供一种

灵活而紧凑的方式来编码用于区分子类别的显著视觉

方面。由于这两个流是复杂的，因此组合这两个流可

以进一步实现更好的分类精度。在广泛使用的

CUB-

200-2011

数据集上，与

种最先进的细粒度图像分类

方法进行了比较，实验结果表明，本文提出的

CVL

方

法取得了最好的性能。

介绍

细粒度图像分类的目标是识别一些基本类别下的子

类别。近年来，由于深度神经网络的进步，细粒度图

像分类模型取得了很大进展[1，2，3，4，5]。在数据

方面，

通讯作者。

图

1. CUB-200-2011

中的示例。请注意，由于类内方差大，类

间方差小，即使对人类来说，对它们进行分类也是一项技术

上具有挑战性的任务。

对于没有经验的人来说，识别诸如鸟、花和车的基本

级别类别是容易的，但是因此，细粒度图像分类是一

项技术上具有挑战性的任务，因为类内方差很大，类

间方差很小，如图1所示。

各亚类在总体上表现一致，但在腹部颜色、趾形、

羽毛纹理等细微的局部差异上有所区别。这些细微的

差异都位于目标或其部分的区域，因此目标或其部分

的定位对于细粒度图像分类至关重要大部分学校采用

两阶段学习架构

类间方差

下载后可阅读完整内容，剩余9页未读，立即下载

身份认证购VIP最低享 7 折!

30元优惠券

cpongm

粉丝: 5

双流模型CVL：突破细粒度图像分类的局限

CVL帮助文档.rar

基于计算机视觉的高精度图像拼接.pdf

基于计算机视觉的高精度图像拼接.docx

用生成对抗网络（GAN）来恢复高分辨率（高精度）图片的源码，模型与数据集

ISP、图像质量评价数据集

帮我写基于FacNet模型和IMBD-WIKI数据集的年龄性别识别的代码，使用tensorflow框架和CNN

DWT数字水印算法具体步骤

请用pytorch库写一个人脸年龄识别

区块链技术的智能传媒平台竞争者的分析

北京大学实验室公开发布的PCB缺陷数据集怎末获取

最新资源