自监督图对比学习提升视频问答性能:GMC框架

0 下载量 147 浏览量 更新于2024-06-28 收藏 1.54MB PDF 举报
本文主要探讨了"基于自监督图对比学习的视频问答方法"这一主题,发表在《软件学报》(ISSN:1000-9825)上,由姚暄、高君宇和徐常胜三位作者共同完成。他们关注的是视频问答这一跨模态理解任务,它要求模型在给定视频和问题时,能够通过整合和推理不同模态的信息来生成答案。随着图神经网络(GNN)在跨模态信息融合和推理中的强大表现,它们在视频问答领域已取得显著进步。 然而,现有的许多图网络方法仍存在过拟合、过平滑、弱鲁棒性和弱泛化性等问题,这限制了视频问答模型性能的进一步提升。为了克服这些挑战,作者们借鉴了预训练技术中自监督对比学习的优势,提出了一个名为GMC(Graph Model Contrastive Learning)的框架。GMC框架的核心是利用图数据增强,通过对节点和边进行操作生成不同的子样本,以此增加模型对数据多样性的理解和处理能力。 具体来说,GMC通过提升原始样本与生成子样本在图数据预测分布上的一致性,增强了模型的准确性,并提高了其鲁棒性。实验结果表明,与当前先进的视频问答模型以及不同变体模型在公开数据集上的比较,证实了GMC框架的有效性。研究采用了中图法分类号TP311进行分类,并提供了相应的中文和英文引用格式,以供学术交流和引用。 本文的贡献在于将自监督学习方法引入到视频问答任务的图网络架构中,通过图数据增强策略优化了模型性能,为解决跨模态理解任务中的问题提供了一种新颖且有效的解决方案。