PE-Net: 解决SGG偏见问题的紧凑表示与原型引导网络

4 下载量 95 浏览量 更新于2024-06-22 收藏 1.85MB PPTX 举报
在"Prototype-based Embedding Network for Scene Graph Generation"这篇论文中,研究者针对场景图生成(Scene Graph Generation, SGG)领域的挑战,提出了一个创新的方法PE-Net。SGG模型通常在处理细粒度谓词时表现出偏好,忽视了类内变异和类间相似的问题。PE-Net的核心在于解决这两个问题,它通过以下三个方面进行改进: 1. **实体/谓词表示的紧凑与独特性**: PE-Net的目标是生成紧凑且独特的实体和谓词表示,这有助于捕捉关系的内在特性。它通过原型建模技术,为每个实体和谓词创建独特的表示,以便于后续的实体对与谓词的精确匹配。 2. **原型引导学习(PL)与原型正则化(PR)**: - **原型引导学习(PL)**:为了减少类内变异带来的影响,PL设计了一种策略,通过引入余弦相似度和欧氏距离的约束,促使关系表示r尽可能接近其对应谓词的原型(Wptp或c)。这有助于增强模型在处理同类别实例间的区别性。 - **原型正则化(PR)**:在处理语义重叠带来的歧义匹配问题时,PR引入了一个正则化机制。通过计算关系表示r与所有类别原型的距离,g+用于鼓励与对应原型的紧密连接,而g-则用于确保与其他类别保持适当的距离。通过构建一个三元损失函数,模型学会了如何在精确匹配和避免混淆之间找到平衡。 3. **实验结果与性能提升**: 在VisualGenome和OpenImages等数据集上,PE-Net展示了显著的性能提升,证明了其在关系识别方面的改进。该方法成功地提高了SGG模型的准确性和泛化能力,特别是在处理复杂场景和细微关系表达时。 论文的整体流程包括原型建模(生成主体、宾体和谓词的表示)以及原型引导的实体-谓词匹配。PE-Net通过这些创新策略,不仅解决了现有SGG模型中的偏见问题,还提高了模型在实际场景中的表现,为场景图生成领域的研究带来了新的视角和技术突破。