基于多模态神经网络的形状分化语言学习

PDF格式 | 933KB | 更新于2025-01-16 | 187 浏览量 | 举报

学习语言的形状分化和多模态神经扬声器的发展在这项工作中，我们将探讨如何细粒度的差异之间的形状的共同对象是在语言中表示，接地上的2D和/或3D对象表示。我们首先建立一个大规模的，仔细控制的人类话语的数据集，其中每一个是指一个3DCAD模型的2D渲染，以便区分它从一组形状方面的相似的替代品。使用这个数据集，我们开发了神经语言理解（听）和生产（说）模型，这些模型在基础上各不相同（通过点云的纯3D形式与渲染的2D图像），捕获的实用推理的程度（例如，说话者对听者的判断），以及神经结构。 Shapeglot：学习语言的形状分化 Shapeglot是一个学习语言的形状分化模型，旨在学习语言中形状的共同对象表示。该模型使用了多模态神经扬声器来生成话语，以区分目标形状和干扰形状。该模型还可以生成看不见的对象部分的图像，并可以根据听众的注意力模块判断重要性。多模态神经扬声器多模态神经扬声器是一个基于深度学习的模型，旨在学习语言中形状的共同对象表示。该模型可以生成话语，以区分目标形状和干扰形状。该模型还可以生成看不见的对象部分的图像，并可以根据听众的注意力模块判断重要性。语言理解和生产模型语言理解和生产模型是基于深度学习的模型，旨在学习语言中形状的共同对象表示。该模型可以生成话语，以区分目标形状和干扰形状。该模型还可以生成看不见的对象部分的图像，并可以根据听众的注意力模块判断重要性。 2D和3D对象表示 2D和3D对象表示是学习语言中形状的共同对象表示的关键技术。该技术可以生成2D和3D对象的图像，并可以根据听众的注意力模块判断重要性。专注的神经专注的神经是一个基于深度学习的模型，旨在学习语言中形状的共同对象表示。该模型可以生成话语，以区分目标形状和干扰形状。该模型还可以生成看不见的对象部分的图像，并可以根据听众的注意力模块判断重要性。倾听倾听是一个基于深度学习的模型，旨在学习语言中形状的共同对象表示。该模型可以生成话语，以区分目标形状和干扰形状。该模型还可以生成看不见的对象部分的图像，并可以根据听众的注意力模块判断重要性。语用神经言语用神经言是一个基于深度学习的模型，旨在学习语言中形状的共同对象表示。该模型可以生成话语，以区分目标形状和干扰形状。该模型还可以生成看不见的对象部分的图像，并可以根据听众的注意力模块判断重要性。学习语言的形状分化和多模态神经扬声器的发展，是一个基于深度学习的模型，旨在学习语言中形状的共同对象表示。该模型可以生成话语，以区分目标形状和干扰形状。该模型还可以生成看不见的对象部分的图像，并可以根据听众的注意力模块判断重要性。

8940

细粒度区分的粒度是解决通信任务所必需的，我们构

建了两种类型的上下文：

硬

环境包括形状非常相似的

椅子，而

易

环境包括不太相似的椅子。为了以可扩展

的方式测量形状相似性，我们使用了点云自动编码器

（PC-AE）的语义丰富的潜在空间[1]。我们注意到，

点云是3D对象的内在表示，

倾斜

于颜色或纹理。在从

每个ShapeNet模型的表面提取3D点云之后，我们根据

它们的PC-AE嵌入距离计算所有模型之间的底层K-最

近邻图。对于图中度数足够高的椅子（直观上对应于

标准椅子），我们将其与四个干扰项进行对比：在潜

在空间中最接近它的两个，以及足够远的两个（参见

插图和补充材料的细节）。最后，我们注意到，我们

通过将给定上下文中的每一把椅子视为上下文的目标

（在不同的游戏中）

来抵消

所收集的话语

在我们介绍我们的神经代理之前，我们确定了我们

语料库的一些独特属性。人类在参考游戏中的表现很

高，但听众在硬环境中犯的错误明显更多（准确率

。

百分之二

对比97

。

，

。

，

001）的情况下。同

样，在困难的环境中

使用较长的话语来描述目标（平均8.4个单词对1.5个单

词）。6.1，

-35

，

p<0

。

001

）的情况下。引起了广泛

的描述，从更全面/分类的（例如，“摇椅”）常见于简

单的上下文，到更复杂和细粒度的语言，

(e.g. ‘thinner legs but without armrests’) common for有趣

的是，78%的所产生的话语包含至少一个与部位相关

的词：

背部

、

腿部

、

座椅

、

手臂

或密切相关的同义

词，例如。

扶手

。

神经监听器

开发能够推理形状相关属性的神经监听器是我们工

作的一个关键贡献。下面，我们将详细比较三种不同

的架构，突出不同正则化技术的效果，并研究用于听

力任务的3D对象的不同表示（即，2D渲染图像和3D

表面点云）的优点在下文中，我们将通信上下文的三

个对象表示为

，

}，对应的词标记化的发音为U

，

. . .

当

t∈O

时

，指定目标。我们的建议听众的启发

[26]。它需要-

将捕获每个对象的形状信息的（潜在代码）向量放置

在

中，并且将（潜在代码）向量放置在

的每个标记

中，并且输出其核心是一个多模态LSTM [16]，它接收

作为初始值的

输入（

MLP以产生单个数字（兼容性分数）。对每个对象

重

复

此操作，同时在对象之间

共享

所有网络参数。在交

叉熵损失下，将得到的三个分数进行soft-max归一化，

并与目标的地面实况指标向量进行比较。

形状编码器

我们用三个代表实验-

以捕捉潜在物体的形状。

对象：（a）预训练的点云自动编码器（PC-AE）的瓶

颈向量，（b）由在非纹理化3D对象的单视图图像上

操作的卷积网络提供的嵌入，或（c）（a）和（b）的

组合具体来说，对于（a），我们使用[1]的PC-AE架

构，使用从3D CAD模型表面提取的单类点云进行训

练，而对于（b），我们使用VGG-16 [32]倒数第二层

的激活，在 ImageNet [6] 上进行预训练，并使用

ShapeNet中的对象图像对8向分类任务进行微调。对于

每个表示，我们使用具有

范数权重正则化的全连接

（FC）层虽然在LSTM中有许多方法将基于图像的特

征与基于点云的特征结合起来，但我们发现，当我们

i）将LSTM与基于图像的代码结合起来，ii）将LSTM

的输出（在处理U之后）与基于点云的代码连接起

来，以及iii）将连接的结果馈送到产生兼容性得分的

浅MLP中时，会出现最佳性能（参见Supp.2010）以获

得管道的

视觉概述

和更多细节）。我们注意到，适当

的正则化是

至关重要的

：在 LSTM 的输入层添加

dropout，

权重正则化和dropout，

FC突出层使性能提高了

≥ 10%

。简化上下文信息

我们的基线

Listener架构（Baseline，刚刚描述过）首先对每个对

象

单独

评分，然后应用softmax标准化，

产生三个对象上的分数分布。我们还考虑了两种替代

架构，明确编码信息

的整个

上下文得分之前，一个单

一的对象。第一种替代方案（Early-Context）与所提

出的架构相同，除了用于

使

LSTM接地的代码。具体

地，如果

是第i个对象的基于图像的代码向量，则不

是使用

作为用于

的接地向量，而是引入浅卷积网络

这个网络的输出

是

地-

接收信号

（

，

）

（

，

）

其中

、

是

对称的最大

平均池函数，

|| denotes feature-wise concatenation and v

, v

are the

codes of the remaining objects. 在这里，我们使用对

称-

ric函数来诱导我们的上下文的无序性质。第二种替代

方案（

组合解释

）将

所有

三个对象的基于图像的代码

向量放入

所有实验的架构细节和超参数在补充材料中提供。

剩余11页未读，继续阅读

cpongm

粉丝: 6

基于多模态神经网络的形状分化语言学习

多模态神经影像特征学习在AD诊断中的应用

MERLOT Reserve：多模态神经脚本知识表示的突破性模型

"自然语言处理的历史与未来：从神经网络到多模态语言模型的发展

多模态神经网络在复杂大数据特征学习中的应用

基于多模态神经影像特征学习的AD多重诊断研究.docx

多模态神经网络在复杂大数据特征学习中的应用.pdf

多模态神经网络的网络舆情大数据特征识别.pdf

ChatGPT给语言大模型...和多模态大模型新的发展思路_赵朝阳.caj

多模态视觉语言表征学习研究综述

网络游戏-一种多模态神经形态网络核.zip

最新资源