视觉识别中的子模属性选择

需积分: 0 0 下载量 156 浏览量 更新于2024-09-07 收藏 1.03MB PDF 举报
"Submodular Attribute Selection for Visual recognition" 在视觉识别领域,低级特征往往无法充分表征图像或视频中的语义内容以及空间-时间结构。这篇由Jingjing Zheng、Zhuolin Jiang、Rama Chellappa和P. Jonathon Phillips等人共同撰写的论文,探讨了使用次模属性选择来提升视觉识别性能的方法。文章已被接受发表在未来的《IEEE Transactions on Pattern Analysis and Machine Intelligence》期刊上,但尚未进行最终编辑。 论文主要关注的是如何在现实世界的视觉识别问题中,利用更高层次的概念(即属性)来描述物体或动作。这些属性分为两类:一类是人为生成的,另一类是数据驱动的,通过从数据中使用词典学习方法提取。人为生成的属性通常基于人类的先验知识,如颜色、形状或纹理等;而数据驱动的属性则是通过算法自动学习得到的,能更贴合数据本身的特性。 次模函数在优化问题中具有重要的理论价值,特别是在信息理论和组合优化中。在本文中,作者利用次模属性选择的优势,因为次模函数具有“越早添加元素,边际增益越大”的性质,这使得在有限计算资源下,可以有效地寻找最优子集。在视觉识别任务中,这意味着可以优先选择那些对识别贡献最大的属性,从而提高模型的识别精度和效率。 作者提出了一种框架,用于从大量候选属性中选择一个子集,该子集在保持识别性能的同时,具有最小的冗余性和最大的多样性。这一过程可以通过最大化一个次模函数来实现,该函数量化了属性子集对识别性能的改善。同时,他们还考虑了属性之间的相互依赖性,通过考虑上下文信息来进一步优化选择过程。 实验部分,作者对比了他们的次模属性选择方法与其他特征选择和属性学习方法,展示了在各种视觉识别任务上,如物体分类和行为识别,其方法的优越性。此外,他们还分析了不同属性类型的影响,证明了结合人为生成和数据驱动属性的混合模型可以达到更好的效果。 这篇论文提出了一个新的视觉识别策略,通过次模属性选择来提升模型的表示能力和泛化能力。这种方法不仅在理论上富有创新,而且在实践中也显示出了良好的性能,对于视觉识别领域的研究具有重要启示。