预期预训练:动态场景图生成的创新方法及实验

0 下载量 145 浏览量 更新于2024-06-20 收藏 1.01MB PDF 举报
本文主要探讨了"基于预期预训练的动态场景图生成方法的研究与实验"。在信息技术领域,场景图作为一种强大的工具,它将视觉关系转化为图结构,通过节点表示物体,边代表它们之间的关系,有助于跨越视觉与自然语言理解的鸿沟。静态场景图生成通常处理单一静止图像,而动态场景图生成则涉及到视频中对象关系的捕捉,这是更具挑战性的任务,因为视频中的关系会随时间变化。 文章的创新点在于,作者受到了人类能够根据先前帧推断出当前帧中视觉关系的能力的启发,提出了一种基于Transformer的预测预训练范式。这个模型通过空间编码器提取帧内的空间信息,捕捉物体的位置和特征,而渐进时间编码器则负责捕捉帧间的时间相关性,以模型化视觉关系的时间延迟。在预训练阶段,模型学习预测不同帧间的视觉关系;而在微调阶段,它结合当前帧的新信息进一步优化关系预测。 现有的动态场景图生成方法大多依赖于先进的对象检测器,如Faster R-CNN和Mask R-CNN,用于对象识别和定位。然而,这种方法仅凭单帧信息可能无法捕捉动态关系。作者的方法通过预期预训练提高了模型对动态场景中视觉关系的理解和生成能力,这在ActionGenome数据集上的实验表现出了最先进的性能。 实验结果证实了该方法的有效性,它不仅能准确地捕捉视频中物体的动态变化,还能生成连贯且符合逻辑的场景图,这对于诸如视频检索、图像字幕生成和视觉问答等任务具有重要意义。通过这项研究,作者为动态场景图生成技术的发展提供了一个新的有效框架,有望推动未来在视频理解和交互领域的应用。