多视图标签共享提升图像视觉表示与分类性能

需积分: 5 50 浏览量更新于2024-08-23 收藏 615KB PDF 举报

本文是一篇发表在《IEEE Transactions on Multimedia》(2018年4月刊)的研究论文，标题为“视觉表示和分类的多视图标签共享”（Multiview Label Sharing for Visual Representations and Classifications）。作者Chunjie Zhang、Jian Cheng和Qi Tian均为IEEE会士，他们提出了一个新颖的多视图标签共享方法，旨在提高图像分类的效率。在传统的图像处理中，不同的视图（如色彩、纹理和深度）可以捕捉到图像的不同方面，这些视角结合往往能提供更丰富的信息。作者认识到，有效地整合不同视图的特征对于提升分类性能至关重要。为此，他们提出了一种策略，即将各个视图线性地转换到一个共享空间中，这样可以保持每个视图内部的相似性，同时确保具有相同语义的图像在不同视图间的相似性也能得到保留。论文的核心贡献是设计了一个联合学习框架，其中包含了分类器的训练和变换矩阵的优化。该框架的目标是通过最小化分类损失函数，同时满足跨视图（inter-view）和同义视图内（intra-view）的相似性约束。跨视图约束关注的是对应视图间图像的相似度，而同义视图内约束则关注具有相同含义的图像在不同视图下的相似度保持。为了实现这一目标，作者采用了一种协同学习的方法，通过迭代优化来找到最佳的分类模型和视图转换，使得共享空间中的表示能够更好地反映图像的内在结构和类别关系。实验部分展示了这种多视图标签共享方法在实际图像分类任务中的优越性能，证明了其在提升分类准确性和泛化能力方面的有效性。这篇论文深入探讨了如何通过共享标签和整合多视图信息，提升视觉表示的学习和分类性能，为多模态数据处理和跨模态学习提供了新的视角和技术手段。这对于多媒体数据分析、计算机视觉和深度学习等领域都具有重要意义。

展开