2009 ICCV经典: Bag of Words、部分模型与区分性方法简介

需积分: 9 2 下载量 128 浏览量 更新于2024-07-21 1 收藏 14.26MB PPTX 举报
在2009年的ICCV会议上,关于对象识别的经典方法被详细介绍了三种主要策略:Bag of Words (BoW)模型、部分与结构模型以及区分性方法。本摘要将深入探讨这些方法的原理、应用和特点。 1. Bag of Words (BoW)模型: - Bag of Words 是一种独立特征表示的方法,它关注的是图像或文档中的词汇分布,而非其语法结构。首先,通过特征检测(如SIFT特征)提取局部兴趣点,然后对每个区域进行规范化处理。接下来,将这些特征转换为特征向量,通常使用直方图来统计每个特征在图像中出现的频率,形成所谓的“词袋”(feature histogram)。词袋可以作为输入到标准分类器(如支持向量机,SVM)中的特征向量,用于识别视觉主题或进行场景分类。 2. 部分与结构模型: - 这类方法更侧重于物体的部分结构信息,认为不同的物体部分对于识别具有重要意义。例如,局部特征匹配(local feature matching)和模板匹配(template matching)技术,通过对物体的特定部分进行分析,构建部分级的描述符,有助于识别和区分不同物体。这种方法强调了局部信息在全局理解中的作用,并且可以通过组合多个部分的描述来增强模型的鲁棒性。 3. 区分性方法: - 与BoW模型关注全局特征不同,区分性方法更加注重学习特征之间的关系和上下文信息,以实现更精确的分类。这些方法可能包括深度神经网络(如卷积神经网络,CNN)、特征金字塔、或者基于判别式模型(如HOG, HOF, LBP等),它们能够捕捉到更复杂的模式,并且在训练过程中优化分类性能。这类方法在当时是相对较新的,但已经在计算机视觉领域取得了显著的进步。 总结来说,ICCV2009会议中的这些经典方法展示了不同层次和策略的物体识别处理方式,反映了那个时代计算机视觉研究的热点和趋势。BoW模型提供了一种简单而有效的基础,部分与结构模型则强调了局部特征的重要性,而区分性方法则引入了更为高级的学习技术,三者共同推动了计算机视觉领域的技术发展。后续的研究和实践通常会在这三种方法的基础上融合和创新,以适应不断变化的需求。
2023-06-07 上传

The human visual cortex is biased towards shape components while CNNs produce texture biased features. This fact may explain why the performance of CNN significantly degrades with low-labeled input data scenarios. In this paper, we propose a frequency re-calibration U-Net (FRCU-Net) for medical image segmentation. Representing an object in terms of frequency may reduce the effect of texture bias, resulting in better generalization for a low data regime. To do so, we apply the Laplacian pyramid in the bottleneck layer of the U-shaped structure. The Laplacian pyramid represents the object proposal in different frequency domains, where the high frequencies are responsible for the texture information and lower frequencies might be related to the shape. Adaptively re-calibrating these frequency representations can produce a more discriminative representation for describing the object of interest. To this end, we first propose to use a channel-wise attention mechanism to capture the relationship between the channels of a set of feature maps in one layer of the frequency pyramid. Second, the extracted features of each level of the pyramid are then combined through a non-linear function based on their impact on the final segmentation output. The proposed FRCU-Net is evaluated on five datasets ISIC 2017, ISIC 2018, the PH2, lung segmentation, and SegPC 2021 challenge datasets and compared to existing alternatives, achieving state-of-the-art results.请详细介绍这段话中的技术点和实现方式

2023-05-29 上传