自然语言引导的多模态对象识别与分割技术

82 浏览量更新于2024-06-20 收藏 1.03MB PDF 举报

"自然语言引导的多模态对象识别与分割" 自然语言引导的多模态对象识别与分割是一项技术，旨在通过自然语言描述来识别和分割图像中的特定对象实例。传统的实例分割方法通常针对预定义的语义类别，而自然语言引导的方法则允许更加灵活的分类，更接近人类的认知能力。在当前的技术中，有两种主要的解决策略。第一种是直接或递归地融合语言和视觉信息，然后通过卷积操作来定位对象。第二种策略是将自然语言表达转化为空间滤波器，其响应与图像中特定位置的对象存在相关，同样利用卷积来寻找目标对象。然而，这些方法可能无法充分利用语言的复杂性和上下文信息。提出的新型方法结合了这两种策略的优点，利用语言的递归性质，更有效地集成信息。在上采样过程中，该方法还利用下采样图像时产生的中间信息，提供更精细的分割结果。这种方法的关键在于理解和关联自然语言查询与图像内容，最终生成实例分割图。为了验证方法的有效性，研究者在四个标准数据集上对比了他们的方法与现有最先进的技术。结果显示，新方法在八个分割任务中有六个超过了之前的所有方法，证明了其优越性。关键词涉及的关键技术包括：引用表达式处理，用于实例分割的多模态交互，动态卷积过滤器，以及自然语言处理。这一领域的研究对于人工智能系统理解并响应人类语言，实现更智能的图像识别和交互具有重要意义。自然语言处理在这里起到了至关重要的作用，因为它允许系统理解和解析复杂的自然语言描述，这是传统计算机视觉方法难以实现的。动态卷积过滤器则适应性地响应语言描述，帮助确定目标对象的位置和形状。多模态交互是指视觉信息和语言信息的融合，这对于正确识别由自然语言描述的对象至关重要。这项工作推动了自然语言引导的实例分割技术的发展，为未来的智能系统提供了更强大的图像理解和处理能力，特别是在开放环境下的对象识别任务中。未来的研究可能会进一步探索如何提高自然语言理解和对象识别的准确度，以及如何在更广泛的场景和更复杂的语言描述下保持性能。

E d

，

uan

，E

ilio

，

[11，12，13，14]和视觉问答（VQA）[15，16，17，18，19]。由于视

觉和语言数据具有使它们从根本上不同的属性，

即

前者具有空间意

义，没有顺序性，后者不考虑空间，但具有顺序性，因此，对这两类

信息的最佳处理仍然是一个悬而未决的问题。因此，在这个子领域中

的每项工作都提出了解决每项任务的特定方式。

本文研究的任务在本质上最接近于基于自然语言表达的对象检

测，反映了对象检测如何产生语义分割[20]。事实上，在[3]中，使用

NLU的对象检测演变为使用引用表达式的实例分割。我们回顾了基于

自然语言表达的分割任务的最新技术[3，4][5]，突出了多模态信息融

合的主要贡献，然后将其与我们的方法进行比较。

自然语言表达式的分割

[3]

。

这项工作

通过单独的神经网络处理视觉

和自然语言信息：CNN从图像中提取视觉特征，而LSTM扫描查询。

CNN中的跨步卷积和池化操作将特征映射下采样为低分辨率输出，同

时为最后层中的神经元产生大的另外，为了明确地对空间信息进行建

模，在由CNN获得的特征图中的每个空间位置处连接相对坐标。视觉

和自然语言信息的合并

是

通过在空间位置处的

地图

上将

的输出转

换到视觉上来实现的。具有ReLU [21]非线性的卷积层用于最终分类。

损失定义为每像素加权逻辑回归损失的平均值训练具有两个阶段：低

分辨率阶段，其中地面真实掩模被下采样以具有与输出相同的维度;

以及高分辨率阶段，其训练去卷积层以对低分辨率输出进行上采样以

产生最终分割掩模[3]。这种半最终方法没有充分利用语言的顺序性

质，因为它没有利用学习的单词嵌入，它通过连接合并视觉和语言信

息，并且它使用反卷积层进行上采样，这已经被证明会在图像中引入

棋盘伪影[22]。

递归多模态交互作用

[4]

。

本文认为，分割图像的基础上，只有一

个最终的，记忆表示的句子没有充分利用的顺序性质的语言。因此，

本文提出在流水线中多次执行分割。该方法通过生成涉及视觉、空间

和语言特征的表示来在每个时间步长产生图像特征。这样的多模态表

示是通过连接在视觉表示的每个空间位置处处理查询的LSTM的隐藏

状态来获得的。分割掩模是通过将多模态LSTM（mLSTM）应用于联

合表示，然后执行常规卷积以组合由mLSTM产生的通道来获得的。

mLSTM被定义为跨空间位置和时间步长共享权重的卷积LSTM，并且

被实现为合并所有这些类型的卷积的1

剩余15页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

自然语言引导的多模态对象识别与分割技术

多模态情绪识别git代码

多模态对话情感识别最新工作

多模态情感识别技术可行性

多模态情绪识别可以应用于讯问吗？

多模态分割和多模态语义分割有什么区别

多模态情感识别系统的经济可行性

查找多模态情感识别的论文

表情与姿态的多模态情感识别 github

多模态情绪识别在讯问的应用广泛吗？

多模态情感识别开源代码

最新资源