该网络的训练目标是
在
P、
R
和
Y
上计算的逻辑回归损失
。
对于
输入短
语和第j个区域,在它们匹配的情况下为+1,否则为-1。由于这是
一种监督学习方法,因此需要在每个数据集的注释中提供匹配的
短语和区域对在使用我们的网络产生一些度量图像区域和文本特
征之间的亲和力的分数x
ij
之后,损失由下式给出:
Σ
l o g
(
1
+
e
x
p
(
−
y
i
j
x
i
j
))
.
(
一)
IJ
在该公式化中,容易将给定短语的多个区域考虑为正面示例,并且每
个图像使用可变数量的区域提议。这与使用softmax对区域进行评分的
竞争方法形成对比,其中交叉熵损失超过每个图像的设定数量的建议
(
例如
,[7,28,3])。
取样短语区域训练对。继Wang
et al
.[32]中,我们将具有至少0.6个
交集的任何区域与给定短语的地面真值框的交集(IOU)作为正
例。阴性示例从具有小于0.3IOU的相同图像的区域随机采样,具有
地面实况框。我们选择两倍数量的负区域,因为我们有一个短语
的正区域如果对于图像-短语对出现太少的否定区域,则将否定示
例阈值提高到0.410U。
功能. 我们使用word2vec [23] PCA的HGLMM Fisher矢量编码[17]表示短
语,该PCA减少到6,000维。我们使用边缘框[38]生成区域提议与我
们目标数据集上的大多数最先进的方法类似,我们使用快速RCNN网
络[8]表示图像区域,该网络在PASCAL 2007和2012训练集[5]的联合上
进行了微调唯一的例外是表1(d)中报告的实验,其中我们微调了
Flickr30K实体数据集上的Fast RCNN参数(对应于图1中的VGG16框
空间位置。在[28,3,4,36]之后,我们尝试将边界框位置特征连接
到我们的区域表示。这样,我们的模型就可以学习根据短语的位置
(例如该
天空
通常出现在图像的顶部)。对于Flickr30K实体,我们对
该数据集的空间信息进行编码,如[3,4]中所定义的。对于高度
H
和
宽度
W
的图像以及具有高度
h
和宽度
w
的框,被 编码为[
x
min
/W
,
y
min
/H
,
x
max
/W
,
y
max
/H
,
wh/WH
]。
为了与先前的工作[28,3,4]
进行公平比较,在ReferIt Game数据集上的实验将空间信息编码为8维
特征向量[
x
min
,
y
min
,
x
max
,
y
max
,
x
center
,
y
center
,
w
,
h
]。 对 于
Visual Genome,我们采用与ReferIt Game数据集相同的编码空间位置的
方法
2.2
条件图文网络
灵感来自Veit
et al
。[30],我们修改了上一节的图文相似度模型,学习
一组条件或概念嵌入层de-code.xml