理解Show Attention and Tell模型：注意力机制在图像 caption 中的应用

需积分: 0 176 浏览量更新于2024-08-05 收藏 619KB PDF 举报

"show attend and tell 模型是一种深度学习框架，用于图像描述生成任务，结合了卷积神经网络（CNN）和循环神经网络（LSTM），并利用注意力机制（attention mechanism）来优化生成的文本描述。该模型的焦点在于在生成每个词时能关注到图像的关键区域，以提高描述的准确性和丰富性。" "1. 在解码的每个时刻，attention机制会计算出一个编码向量，这个向量反映了当前时刻应该关注的图像区域。这个过程允许模型在生成不同词时动态调整其注意力，而不是仅仅依赖于全局图像特征。 2. CNN的低层卷基层被用作输出，这是因为它们的特征表示通常包含更多的局部信息，如边缘、颜色和纹理，这些信息对于描述图像的细节至关重要。然而，使用底层特征可能会损失高层语义信息，这是需要权衡的地方。通常，高层特征捕获更抽象的概念，而低层特征则更注重细节。 3. attention机制有两种主要类型：soft attention和hard attention。soft attention通过连续的权重分配来聚焦不同区域，允许平滑的注意力转移；而hard attention则在不同区域之间进行离散选择，更具挑战性，因为它涉及到采样决策。 4. NIC模型（Neural Image Caption）中的问题在于，预训练的CNN模型通常是为分类任务设计的，因此可能忽略了一些对图像描述有价值的细节，如颜色信息。这导致了图像信息的部分丢失。 5. encoder阶段，CNN提取L个D维张量，每个张量对应图像的一个区域，这些低层卷积特征可以被decoder选择性地聚焦，以关注图像的特定部分。虽然底层特征通常与局部信息关联，但高层特征包含更多全局信息，模型如何划分这两者取决于网络的设计和任务需求。 6. decoder阶段，LSTM接收到由attention机制计算的上下文向量，这是一个动态的、与时间步相关的向量，它随着解码过程不断更新，捕捉到与当前时刻生成的词对应的图像区域信息。LSTM的隐状态和细胞状态初始化也依赖于图像区域特征的平均值，然后通过全连接层（相当于多层感知机）预测词表中下一个词的概率。 7. attention机制的关键在于，它允许模型在解码过程中根据需要关注图像的不同部分，从而生成更加合理和精确的描述。在时刻t，模型会根据前一时刻的隐藏状态和当前的编码向量来确定关注的区域，这个过程通过加权求和和非线性变换来实现。 show attend and tell模型通过巧妙地融合CNN和LSTM，以及引入注意力机制，有效地解决了图像描述生成中的关键问题，即如何从复杂的视觉信息中挑选出与生成描述相关的部分。这一方法极大地提高了生成描述的质量和准确性，为后续的视觉语言研究奠定了基础。"

show attentd and tell

模

型

理

解

attention

机

制

就

是

为了

实

现

在

⽣

成

⼀个

词

时

去

关

注

当

前

所

“

应

该

”

关

注

的

显

著

（

salient

）

信

息

这

⼀

⽬的

，

⼿

段

就

是

对

输

⼊

信

息

的

各

个

局

部

赋

予

权

重

。



论

⽂

的

caption

模

型

中

：

在

解

码

的

每

个

时

刻

都

会

接

收

由

attention

机

制

所

计

算

出

的

编

码

向

量

。

使

⽤

低

层

卷

基

层

的

张

量

作

为

CNN

的

输

出

。

两

种

attention

（

soft

和

hard

）

通过

函

数

来

控

制

。

NIC

模

型

使

⽤

CNN

最

后

⼀

层

输

出

向

量

表

⽰

作

为

图

像

特

征

的

缺

点

是

丢

失

了

能

够

使

caption

变

得

更

丰

富

的

⼀

些

信

息

。

NIC

那

篇

论

⽂

提

到

，

我

们

直

接

下

载

的的

预

训

练

CNN

模

型

由

于

是

在

分

类

数

据

集

训

练

的

，

默

认

抛

弃

了

诸

如

颜

⾊

等

对

分

类

没

有

帮

助

的

特

征

，

这

就

已

经

造

成

了

图

像

信

息

的

部

分

丢

失

。



模

型

结

构

1.1 encoder

：

卷

积

特

征

在

encoder

端

，

模

型

使

⽤

CNN

来

提

取

个

维

张

量

，

每

⼀个

都

对

应

图

像

的

⼀个

区

域

：

这

⾥

的

张

量

就

是

CNN

低

层

卷

基

层

的

张

量

输

出

，

使

得

decoder

可

以

通过选

择

所

有

特

征

向

量

的

⼦

集

来

选

择

性

地

聚

焦

于

图

像

的

某

些

部

分

。

？？？

为

什

么

低

层

的

卷

基

层

输

出

代

表

的

是

图

像

的

⼀

部

分

？

不

应

该

是

代

表

着

依

次

学

习

到

的

轮

廓

，

颜

⾊

，

材

质

之

类

的

信

息

吗

，

更

⾼

层

的

才

有

图

像

的

更

精

确

的

信

息

。

所

以

这

个

低

层

和

⾼

层

该

怎

么

划分

？

1.2 decoder

：

LSTM

1.2.1 LSTM

的

输

⼊

抛

去

隐

状

态

和

词

向

量

输

⼊

不

谈

，

这

⾥

真

正

的

富

含

图

像

信

息

的

输

⼊

是

捕捉

了

特

定

区

域

视觉

信

息

的

上下

⽂

向

量

（

context vector

）

（

）

它

和

时

刻

有

关

，

是

⼀个

动

态

变

化

的

量

，

在

不

同

的

时

刻

将

会

捕捉

到

与

本

时

刻

相

对

应

的相

关

图

像

区

域

。

（

）

这

个

量

将

由

attention

机

制

计

算

得

到

，

而

且

在

每

⼀

时

刻

都

输

⼊

decoder

。

1.2.2

隐

状

态

和

细

胞

初

始

状

态

隐

状

态

和

细

胞

状

态

的

初

始

值

的

计

算

⽅

式

：

使

⽤

两个

独

⽴

的

多

层

感

知

机

，

感

知

机

的

输

⼊

是

各

个

图

像

区

域

特

征

的

平

均

：

下载后可阅读完整内容，剩余3页未读，立即下载

老许的花开

粉丝: 33
资源: 328

理解Show Attention and Tell模型：注意力机制在图像 caption 中的应用

Show and Tell 1 Student Book full.pdf

show and tell

05 show attend and tell

show_and_tell

geo-show-and-tell

show-and-tell:展示并演讲

图像描述--Show and Tell: A Neural Image Caption Generator

Show-and-Tell-Model--Pretrained

keras实现：图像描述---Show and Tell: A Neural Image Caption Generator

完整工程案例：图像描述---Show and Tell: A Neural Image Caption Generator

最新资源