问题引导的混合卷积网络在视觉问答中的应用

55 浏览量更新于2024-06-20 收藏 731KB PDF 举报

"本文提出了一种名为问题引导的混合卷积视觉问答（QGHC）网络的新方法，旨在解决多模态特征学习中视觉空间信息的丢失问题。该方法利用问题引导的卷积来捕捉文本和视觉之间的关系，同时通过组卷积减少参数数量和防止过拟合。QGHC能够生成区分度高的多模态特征，并能与现有的VQA技术如双线性池融合和基于注意力的方法结合以提升性能。实验结果在VQA数据集上证明了QGHC的有效性。" 在当前的视觉问答（VQA）领域，尽管卷积神经网络（CNN）和递归神经网络（RNN）的结合已经在文本和图像的多种任务中取得显著进展，但仍然存在挑战，尤其是如何在早期阶段有效地融合文本和视觉信息。传统的VQA方法往往在学习多模态特征时忽视了视觉空间信息，这限制了模型的理解能力和推理能力。 Peng Gao等人提出的问题引导的混合卷积（QGHC）网络，创新地解决了这个问题。QGHC的核心是问题引导的卷积内核，它能够根据输入问题自动生成，并与视觉特征进行卷积操作。这样的设计使得模型能在早期阶段就捕获到问题与图像内容之间的关联，从而增强文本和视觉信息的耦合。为了减少模型复杂性和防止过拟合，QGHC采用了组卷积，其中包含问题无关的内核和问题相关的内核。这种分组策略使得模型能够在保持高效的同时，生成具有区分性的多模态特征。此外，QGHC还能够与现有的VQA方法如双线性池融合和基于注意力机制的方法相集成，进一步提升整体性能。在实验部分，QGHC网络在VQA数据集上的表现验证了其有效性。通过与传统方法的比较，QGHC展示了其在理解和回答视觉内容相关问题方面的优势，证明了其作为VQA技术的潜在改进方向。问题引导的混合卷积视觉问答方法是多模态信息处理领域的一个重要进展，它不仅提出了新颖的卷积策略，还强调了在早期阶段融合文本和视觉信息的重要性。这一方法有望对未来的VQA研究以及更广泛的图像-文本交互任务产生积极影响。

Peng Gao，Hongsheng Li，Shuang Li，Pan Lu，Yikang Li，Steven

C.H.Hoi

语言

和VQA任务中的注意机制。注意力机制[17，41]最初被提出用

于解决语言相关的任务[16]。Xu

等人

[17]介绍了一种用于图像字幕的

注意力机制，该机制表明可以自适应地生成注意力图以用于预测字幕

词。基于[17]，Yang

等人

[18]提出堆叠多个注意力层，使得每个层可

以自适应地关注不同的区域在[19]中，提出了一种该模型生成问题注

意力和空间注意力掩模，从而可以联合选择显著词和区域，以进行更

有效的特征融合。类似地，Lu

等人

[20]采用共同注意机制来同时学习

与输入问题相关的自由形式和基于检测的图像在MCB [10]，MLB [11]

和MUTAN [12]中，采用注意力机制从输入图像中部分恢复空间信

息。提出了问题引导的注意力方法[21，17]来从问题生成注意力图。

动态网络。可以跨不同模态动态地预测网络参数。我们的方法主

要与这个方向的方法有关。在[22]中，语言被用来预测用于学习视觉

特征的全连接（FC）层的参数。然而，预测的全连接层不能捕获图

像的空间信息。为了避免引入太多的参数，他们只使用哈希函数预测

一小部分参数。然而，该策略引入了冗余，因为FC参数仅包含少量

的训练参数。在[23]中，语言用于调节可视化CNN中批归一化层的均

值和方差参数。然而，通过预测BN参数来学习两种模态之间的相互

作用具有有限的学习能力。我们与[22]和[23]进行比较我们提出的方

法表现出良好的性能。我们注意到[24]使用语言引导的卷积进行对象

跟踪。然而，它们预测了难以训练的所有参数。

深度神经网络中的组卷积。最近的研究发现，深度卷积和信道混

洗与组卷积的组合可以减少CNN中的参数数量，而不会影响最终性

能。受Xception [13]，ResNeXt [14]和ShuffleNet [25]的启发，我们将视

觉CNN内核分解为几个组。该模型通过在不同群体间重排参数，减少

了预测参数的数量注意，对于具有组卷积的现有CNN方法，卷积参数

仅通过反向传播来学习相比之下，我们的QGHC由基于语言特征预测

的问题相关内核和自由更新的问题无关内核组成

基于问题引导混合卷积的

ImageQA系统将图像和问题作为输入，并输出问题的预测答案

ImageQA算法大多依赖于深度学习

剩余16页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

问题引导的混合卷积网络在视觉问答中的应用

基于图卷积网络的视觉问答研究.pdf

基于混合卷积神经网络的人头检测方法.pdf

Out of box图卷积事实视觉问答【PDF】【PPT】+FVQA【PDF】

基于神经元转换方法的混合卷积脉冲神经网络.pdf

ica.rar_ica_f_分离卷积_卷积_卷积混合_卷积混合ICA

混合卷积神经网络的人脸验证.pdf

自适应混合卷积神经网络的雾图能见度识别.pdf

基于Java实现的数据处理与卷积视觉算法设计源码

DNA非卷积视觉技术：极速图像识别新方法

高斯核函数加速的卷积神经网络视觉跟踪方法

最新资源