子图驱动的高效场景图生成:可分解网方法

0 下载量 178 浏览量 更新于2024-06-20 收藏 1.01MB PDF 举报
"可分解网:基于子图的场景图生成方法"是一篇聚焦于提高场景图生成效率的创新研究。文章的主要贡献者包括李益康、欧阳万里、周波磊、石建平、张超和王晓刚,分别来自香港中文大学、悉尼大学SenseTime计算机视觉研究小组、MIT CSAIL以及商汤科技和中国北京三星通信研究所。 场景图作为一种高级别的图像理解工具,它描绘了图像中物体间的交互关系,具有结构化描述和丰富的语义信息。传统方法在处理复杂场景时可能存在结构过于复杂、推理速度缓慢或依赖外部数据的问题,限制了其在实际应用场景中的应用。本文提出了一种名为可分解网的新型方法,旨在解决这些问题。 可分解网的核心在于采用子图表示法,通过自底向上的聚类减少场景图中关系的表示,从而显著降低中间处理步骤的复杂性。这种方法通过简化场景图的结构,使得模型能够更快地进行推理。空间信息在可分解网中也得到了重视,通过空间加权消息传递(SMP)结构和空间敏感的关系推理(SRI)模块,增强了关系识别的准确性。 作者们在最新的视觉关系检测和视觉基因组数据集上进行了实验,结果显示他们的方法在准确性和速度上超越了当前最先进的技术。此外,他们还公开了实现这一方法的代码,以便其他研究人员进一步研究和利用。 视觉关系检测和场景图生成是计算机视觉领域的关键任务,它们对于图像检索、视觉问答等下游应用具有重要意义。可分解网的提出,不仅提升了场景图生成的性能,也为这些应用提供了更强的支持。 总结来说,这篇论文主要探讨了如何通过子图分解和优化的空间信息处理技术,提高场景图生成的效率与准确性,这对于推进计算机视觉领域尤其是场景理解和物体交互理解的研究具有重要的推动作用。