PE-Net: 解决SGG偏见问题的紧凑表示与原型引导网络
25 浏览量
更新于2024-06-22
收藏 1.85MB PPTX 举报
在"Prototype-based Embedding Network for Scene Graph Generation"这篇论文中,研究者针对场景图生成(Scene Graph Generation, SGG)领域的挑战,提出了一个创新的方法PE-Net。SGG模型通常在处理细粒度谓词时表现出偏好,忽视了类内变异和类间相似的问题。PE-Net的核心在于解决这两个问题,它通过以下三个方面进行改进:
1. **实体/谓词表示的紧凑与独特性**:
PE-Net的目标是生成紧凑且独特的实体和谓词表示,这有助于捕捉关系的内在特性。它通过原型建模技术,为每个实体和谓词创建独特的表示,以便于后续的实体对与谓词的精确匹配。
2. **原型引导学习(PL)与原型正则化(PR)**:
- **原型引导学习(PL)**:为了减少类内变异带来的影响,PL设计了一种策略,通过引入余弦相似度和欧氏距离的约束,促使关系表示r尽可能接近其对应谓词的原型(Wptp或c)。这有助于增强模型在处理同类别实例间的区别性。
- **原型正则化(PR)**:在处理语义重叠带来的歧义匹配问题时,PR引入了一个正则化机制。通过计算关系表示r与所有类别原型的距离,g+用于鼓励与对应原型的紧密连接,而g-则用于确保与其他类别保持适当的距离。通过构建一个三元损失函数,模型学会了如何在精确匹配和避免混淆之间找到平衡。
3. **实验结果与性能提升**:
在VisualGenome和OpenImages等数据集上,PE-Net展示了显著的性能提升,证明了其在关系识别方面的改进。该方法成功地提高了SGG模型的准确性和泛化能力,特别是在处理复杂场景和细微关系表达时。
论文的整体流程包括原型建模(生成主体、宾体和谓词的表示)以及原型引导的实体-谓词匹配。PE-Net通过这些创新策略,不仅解决了现有SGG模型中的偏见问题,还提高了模型在实际场景中的表现,为场景图生成领域的研究带来了新的视角和技术突破。
547 浏览量
2680 浏览量
122 浏览量
2023-08-31 上传