深度行人识别:LSTM与三元组损失驱动的Deep-Person模型

需积分: 11 1 下载量 164 浏览量 更新于2024-09-12 收藏 2.2MB PDF 举报
本文探讨了2020年在《Pattern Recognition》杂志上发表的一篇名为“Deep-Person: Learning Discriminative Deep Features for Person Re-Identification”的研究论文。该论文由Xiang Bai等人来自华中科技大学电子与通信学院撰写,着重于解决行人再识别(Person Re-ID)问题,这是一个涉及在复杂场景下(如不准确的人体框检测、背景干扰和遮挡)识别同一人的任务。 研究的核心创新在于作者提出的Deep-Person模型,它采用了一种新颖的方法来学习深度特征。首先,他们将人体视为一系列从头到脚的身体部件,运用长短时记忆(Long Short-Term Memory, LSTM)网络来捕捉和理解这些部件之间的空间上下文关系。LSTM是一种递归神经网络,特别适合处理序列数据,这有助于整合不同部位特征之间的动态关联,提高特征的表示能力。 其次,Deep-Person模型引入了两个互补的识别分支策略。第一个是全局和局部特征的融合,通过考虑整体和部分特征的结合,提高了对行人身份的识别精度。这不仅关注单个部件的特征,还考虑了它们在整个人体结构中的相互作用。这种方法有助于减少局部信息的孤立性和增强整体特征的区分度。 第二个创新是结合了softmax识别分支和 triplet loss 排名分支。softmax通常用于多分类问题,而在 Re-ID 中,它用于计算每个实例与其他类别的相似度。而 triplet loss 是一种用于深度学习的损失函数,旨在使正样本间的距离小于负样本间的距离,从而优化特征空间中同类人物的紧凑性和异类间的分离。这两个分支的集成使得Deep-Person能够在保持精确识别的同时,强化对潜在混淆样本的区分能力。 通过这种端到端(end-to-end)的学习框架,Deep-Person能够有效地应对行人再识别中的各种挑战,比如动态变化的姿势、光照条件和环境因素。论文的实验结果显示,这种方法在多个基准数据集上的性能优于传统方法,证明了其在处理行人再识别任务中的有效性。 这篇论文通过引入LSTM和双分支结构,为行人再识别提供了一种新的深度学习方法,提升了特征的表达能力和识别性能,对于当前的计算机视觉领域具有重要的理论价值和实际应用潜力。

The human visual cortex is biased towards shape components while CNNs produce texture biased features. This fact may explain why the performance of CNN significantly degrades with low-labeled input data scenarios. In this paper, we propose a frequency re-calibration U-Net (FRCU-Net) for medical image segmentation. Representing an object in terms of frequency may reduce the effect of texture bias, resulting in better generalization for a low data regime. To do so, we apply the Laplacian pyramid in the bottleneck layer of the U-shaped structure. The Laplacian pyramid represents the object proposal in different frequency domains, where the high frequencies are responsible for the texture information and lower frequencies might be related to the shape. Adaptively re-calibrating these frequency representations can produce a more discriminative representation for describing the object of interest. To this end, we first propose to use a channel-wise attention mechanism to capture the relationship between the channels of a set of feature maps in one layer of the frequency pyramid. Second, the extracted features of each level of the pyramid are then combined through a non-linear function based on their impact on the final segmentation output. The proposed FRCU-Net is evaluated on five datasets ISIC 2017, ISIC 2018, the PH2, lung segmentation, and SegPC 2021 challenge datasets and compared to existing alternatives, achieving state-of-the-art results.请详细介绍这段话中的技术点和实现方式

2023-05-29 上传