这两个网络是一个循环注意力建议网络(RA-CNN)和一个循环注意力建议网
络(
RA-CNN
),它迭代地细化输入的中心和规模。排序损失用于在每次迭代
时强制执行增量性能。
Zhao
等人
提出强制执行多个非重叠的注意区域[38]。整体架构包括一个注
意画布生成器,它从原始图像中提取不同区域和尺度的补丁;一个VGG-16
[27]然后使用CNN从补丁中提取特征,这些特征与长短期记忆[9]聚合,该记忆
关注补丁的非重叠区域利用每个区域中的平均预测来执行分类。类似地,在
[39]
中,他们提出了多注意力CNN(MA-CNN)来学习从VGG-19的输出中定位信
息块,并使用它们来训练部分分类器的集合。
在[12]中,他们提出从CNN的最后一层提取全局特征,就在分类器之前,并
使用它们来参与较低级别特征激活中的然后,对来自每个级别的参与激活进行
空间平均、逐通道级联,并馈送到最终分类器。与[12]的主要区别是:(i)注
意力图与基本模型并行计算,而[12]中的模型需要输出特征来计算注意力图;
(ii)WARN使用更少的参数,因此不需要放弃以获得竞争性能(这两个因素
清楚地反映在速度的增益中)
;
以及
(iii)门允许我们的模型忽略/参加不同的信息,以提高原始模型的性能,而在[12]
中,完整的输出函数被替换。结果,WARN在CIFAR10上获得了3.44%的误
差,优于
[12]同时是W/O并行化的7倍
所有先前描述的方法都涉及多级管道,并且其中大多数都使用强化学习进行
训练(这需要采样并且使它们训练起来很慢)。相比之下,STNs、FAM、[12]
中的模型和 我们的方法联合提出的关注区域,并在一个单一的通道将它们此
外,与STNs和FAM不同,我们的方法只使用一个CNN流,它可以用于预先训
练的模型,并且它比
STNs
,
FAM
和
[12]
的计算效率高得多,如下所述
3
我们的方法
我们的方法包括一个通用注意力模块,可以在每个卷积层之后添加,而不会改
变任何架构的预定义信息路径(见图
1
)。这很有帮助,因为它无缝地增强了任
何架构,如VGG和ResNet,而无需额外的监督,
即
不需要部件标签。此外,它
还允许插入任何现有的训练网络,以快速执行迁移学习方法。
注意力模块由图
2
(
a
)中描绘的三个主要子模块组成:(
i
)注意力头部
H
,
其定义特征图的最相关区域,(ii)输出头部0,其在给定被关注信息的情况下
生成假设,以及(
iii
)置信度门
G
,其输出针对被关注信息的置信度得分。