堆叠混合注意力与组协作学习提升无偏场景图生成性能

PDF格式 | 13.03MB | 更新于2025-01-16 | 139 浏览量 | 举报

堆叠混合注意力和组协作学习用于无偏场景图生成是一篇关注于改进场景图生成（Scene Graph Generation，SGG）性能的研究论文。SGG作为一项关键的视觉理解任务，旨在从给定的图像中识别对象并建立它们之间的关系，以形成一个简洁的图结构，这对于许多跨模态任务如检索、图像字幕生成和视觉问答至关重要。然而，当前的方法存在两大挑战：一是模态融合不足，即视觉和语言信息未能有效结合；二是关系预测存在偏差，导致生成的图缺乏全面性。该研究首先提出了一种创新的堆叠混合注意力网络（Stacked Mixed Attention Network），它通过多层次的设计，增强了模态内部的细节捕捉和模态间的交互。这个网络在编码阶段起到了重要作用，通过同时处理视觉和语言特征，促进了信息的深度融合，从而提高生成场景图的质量。针对关系预测的偏见问题，研究者们设计了一种组协作学习策略。他们注意到，现有模型在处理不平衡数据集时，尤其是关系类别分布不均时，性能受限。因此，他们采用了分组策略，训练一组专门处理不同类别关系的分类器，这些分类器能够更有效地识别各类关系。然后，通过合作优化，这些分类器在保持各自优势的同时，共同提高整体的无偏关系预测能力。在实验部分，论文在Visual Genome和GQA数据集上进行了验证，结果显示，新提出的堆叠混合注意力和组协作学习方法显著提升了无偏场景图生成的性能，不仅在无偏度量上达到新的领先水平，而且与现有基准相比，性能提升接近翻倍。这表明了该方法的有效性和实用价值。研究人员还提供了代码仓库供其他研究者参考和进一步发展，地址为<https://github.com/dongxingning/SHA-GCL-for-SGG>。这篇论文为解决场景图生成中的模态融合和关系预测偏见问题提供了一种创新方法，展示了堆叠混合注意力网络和组协作学习在提升任务性能方面的潜力，对于推动场景图生成技术向更真实、更全面的应用场景迈进具有重要意义。

109355

31347

6712

1413

333

Man Dog

Surfboard

19427

堆叠混合注意力和组协作学习用于无偏场景图生成

董兴宁1,甘田1†,宋雪萌1,吴建龙1,程远2†,聂立强1

1山东大学，2蚂蚁集团

dongxingning1998@gmail.com,gantian@sdu.edu.cn,sxmustc@gmail.com

jlwu1992@sdu.edu.cn,chengyuan.c@antgroup.com,nieliqiang@gmail.com

摘要

场景图生成通常遵循常规的编码器-解码器流程，旨在首先

对给定图像中的视觉内容进行编码，然后将其解析为一个简

洁的摘要图。现有的SGG方法通常不仅忽视了视觉和语言之

间不足的模态融合，而且由于有偏的关系预测而无法提供信

息丰富的谓词，导致SGG远离实际应用。为此，我们首先提

出了一种新颖的堆叠混合注意力网络，它促进了模态内部的

细化和模态间的交互，作为编码器。然后，我们设计了一种

创新的组协作学习策略来优化解码器。特别地，基于一个分

类器对极不平衡数据集的识别能力有限的观察，我们首先部

署了一组擅长区分不同类别子集的分类器，然后从两个方面

进行合作优化，以促进无偏的SGG。在VG和GQA数据集上

进行的实验证明，我们不仅在无偏度量上建立了新的最先进

水平，而且与两个基准相比，性能几乎翻了一番。我们的代

码可在以下网址找到：

https://github.com/dongxingning/SHA-GCL-for-SGG

1.引言

场景图生成(SGG)[41]

的目标是将所有对象及其两两关系组织成一个简洁的摘要图

。作为中间的视觉理解任务，SGG可以为各种视觉和语言任

务提供帮助，包括跨模态检索[6,11,28

]，图像字幕生成[2,10,51]和视觉问答[12,32,48

]。然而，由于不足的模态融合和有偏的关系预测，SGG在

实际应用中仍然远未令人满意。

†通讯作者。

第1组

第2组

第3组

第4组

第5组

VisualGenome数据集中的50个谓词类别

训

练

集

中

的

不

平

衡

实

例

模态内部细

化

模态内部细

化

模态间交互

视觉内容

语义线索

输入图像

图1.促进无偏SGG的两个意图。(1)

对于不足的模态融合，我们旨在增强模态内部的细化和模态间的交

互(见图的右上角)。(2)

我们将极不平衡的数据集分成一组相对平衡的组，基于这些组我们

为所有新添加的分类器配置分类空间(见图的其余部分)。

尽管明显证明将语义线索(对象类别名称的语言先验)

融入视觉内容(对象提议)可以显著提高生成能力[18,21

]，但最近的大多数方法[17,26,30,31,42,43,46

,47]

简单地通过直接求和或连接来融合这些视觉和语义特征，这

限制了模型进一步推断它们的交互信息。为了解决视觉内容

和语义线索之间这个未充分探索的不足的模态融合问题，我

们旨在通过共同探索模态内部细化和模态间交互来加强编码

器，如图1所示。为了实现这个目标，我们首先设计了自注

意力(SA)单元和交叉注意力(CA)

单元来分别捕捉模态内部和模态间的信息。然后，我们将这

两个单元组织成一个混合注意力(HA)

层，并堆叠多个HA层来构建编码器。提出的堆叠混合注意

力(SHA)

网络可以充分探索多模态交互，从而提高关系预测性能。

下载后可阅读完整内容，剩余9页未读，立即下载

cpongm

粉丝: 6

堆叠混合注意力与组协作学习提升无偏场景图生成性能

元器件PIP（堆叠封装）和PoP（堆叠组装）的比较

华为交换机堆叠实例

Qt与Java混合开发：Android无缝集成全攻略

算法选择指南：揭秘监督学习与无监督学习的对决！

图层混合模式全面解析：颜色互动的艺术

【JasperReports导出经验分享】：生成中文PDF的终极小技巧

【YOLOv8性能大测试】：不同场景下的检测效果评估指南

【自定义报告与输出】SIMCA-P 11.0版报告生成完全攻略：个性化输出结果的秘密

机器学习集成：构建智能数据处理系统的终极指南

图层与组操作：ArtCAM中文版高级项目结构管理技巧

最新资源