条件图文嵌入网络：短语定位新方法 - CSDN文库

103 浏览量更新于2024-06-20 收藏 978KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

资源详情

资源推荐

4

B. A. Plummer等人

该网络的训练目标是

在

P、

R

和

Y

上计算的逻辑回归损失

。

对于

输入短

语和第j个区域，在它们匹配的情况下为+1，否则为-1。由于这是

一种监督学习方法，因此需要在每个数据集的注释中提供匹配的

短语和区域对在使用我们的网络产生一些度量图像区域和文本特

征之间的亲和力的分数x

ij

之后，损失由下式给出：

L

sim

（P

，

R

，

Y

）

=

Σ

l o g

（

1

+

e

x

p

（

−

y

i

j

x

i

j

））

.

（

一）

IJ

在该公式化中，容易将给定短语的多个区域考虑为正面示例，并且每

个图像使用可变数量的区域提议。这与使用softmax对区域进行评分的

竞争方法形成对比，其中交叉熵损失超过每个图像的设定数量的建议

（

例如

，[7，28，3]）。

取样短语区域训练对。继Wang

et al

.[32]中，我们将具有至少0.6个

交集的任何区域与给定短语的地面真值框的交集（IOU）作为正

例。阴性示例从具有小于0.3IOU的相同图像的区域随机采样，具有

地面实况框。我们选择两倍数量的负区域，因为我们有一个短语

的正区域如果对于图像-短语对出现太少的否定区域，则将否定示

例阈值提高到0.410U。

功能. 我们使用word2vec [23] PCA的HGLMM Fisher矢量编码[17]表示短

语，该PCA减少到6，000维。我们使用边缘框[38]生成区域提议与我

们目标数据集上的大多数最先进的方法类似，我们使用快速RCNN网

络[8]表示图像区域，该网络在PASCAL 2007和2012训练集[5]的联合上

进行了微调唯一的例外是表1（d）中报告的实验，其中我们微调了

Flickr30K实体数据集上的Fast RCNN参数（对应于图1中的VGG16框

空间位置。在[28，3，4，36]之后，我们尝试将边界框位置特征连接

到我们的区域表示。这样，我们的模型就可以学习根据短语的位置

（例如该

天空

通常出现在图像的顶部）。对于Flickr30K实体，我们对

该数据集的空间信息进行编码，如[3，4]中所定义的。对于高度

H

和

宽度

W

的图像以及具有高度

h

和宽度

w

的框，被编码为[

x

min

/W

，

y

min

/H

，

x

max

/W

，

y

max

/H

，

wh/WH

]。

为了与先前的工作[28，3，4]

进行公平比较，在ReferIt Game数据集上的实验将空间信息编码为8维

特征向量[

x

min

，

y

min

，

x

max

，

y

max

，

x

center

，

y

center

，

w

，

h

]。对于

Visual Genome，我们采用与ReferIt Game数据集相同的编码空间位置的

方法

2.2

条件图文网络

灵感来自Veit

et al

。[30]，我们修改了上一节的图文相似度模型，学习

一组条件或概念嵌入层de-code.xml

剩余15页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈