没有合适的资源?快使用搜索试试~ 我知道了~
Residual Networks的空间自适应计算时间
8101214161820222410390Residual Networks的空间自适应计算时间0Michael Figurnov 1 * Maxwell D. Collins 2 Yukun Zhu 2 Li Zhang 2 Jonathan Huang 20Dmitry Vetrov 1 , 3 Ruslan Salakhutdinov 401 National Research University Higher School of Economics 2 GoogleInc. 3 Yandex 4 Carnegie Mellon University0michael@figurnov.ru { maxwellcollins,yukun,zhl,jonathanhuang } @google.com0vetrovd@yandex.ru rsalakhu@cs.cmu.edu0摘要0本文提出了一种基于ResidualNetwork的深度学习架构,该架构动态调整图像区域执行的层数。该架构是端到端可训练的、确定性的和问题无关的。因此,它适用于各种计算机视觉问题,如图像分类、目标检测和图像分割。我们提供了实验证据,表明该模型改进了ResidualNetworks在具有挑战性的ImageNet分类和COCO目标检测数据集上的计算效率。此外,我们评估了视觉显著性数据集cat2000上的计算时间图,并发现它们与人眼注视位置有惊人的相关性。01. 引言0由于其出色的准确性,深度卷积网络在图像分类问题[23,38,39]中得到了广泛应用。近年来,深度卷积网络已成为最先进系统中的重要组成部分,用于解决各种计算机视觉问题,如目标检测[34]、图像分割[32]、图像到文本[22,42]、视觉问答[11]和图像生成[9]。它们还在非视觉领域,如自然语言处理[44]和围棋中的棋盘分析[37]中显示出惊人的效果。深度卷积网络的一个主要缺点是其巨大的计算成本。解决这个问题的一种自然方法是使用注意力来引导计算,这类似于生物视觉系统的操作方式[35]。基于瞥视的注意力模型[26,33,2,20]假设问题可以通过精心处理通常是矩形的小数量的子区域来解决0* M. Figurnov在Google实习期间完成了这项工作。0图1:左:目标检测。右:特征提取器SACT对COCO验证图像的思考成本(计算时间)图。所提出的方法学习将更多计算分配给图像的类似对象的区域。0图像。这使得这种模型不适用于多输出问题(在目标检测中生成框提议)和逐像素预测问题(图像分割,图像生成)。此外,选择瞥视位置需要设计一个单独的预测网络或启发式过程[1]。另一方面,软空间注意模型[42,36]不允许节省计算,因为它们需要在所有空间位置上评估模型以选择每个位置的注意权重。我们基于最近为递归神经网络(RNN)提出的自适应计算时间(ACT)[12]机制进行构建。我们展示了ACT可以应用于动态选择评估的Residual Network[15,16]层数的数量(ResidualNetworks和RNN之间的相似性在[29,13]中进行了探索)。接下来,我们提出了空间自适应计算时间(SACT),它在空间位置之间调整计算量。虽然我们将SACT机制用于ResidualNetworks,但它也可以潜在地用于用于视频处理的卷积LSTM[41]模型[28]。SACT是一个端到端可训练的架构,将注意力融入到ResidualNetworks中。它学习了一种确定性策略,一旦特征变得“足够好”,就会在空间位置上停止计算。由于SACT保持了图像和特征图之间的对齐,因此它非常适合于各种计算机视觉问题conv+poolimageblock 1block 2block 3residual unitsblock 4pool + fc224x224x356x56x256 28x28x51214x14x10247x7x2048x10.1F1x5F5H10.1x2F2H20.2x3F3H30.9x4F4H40.1 x1 + 0.1 x2+ 0.2 x3 + 0.6 x4 10400图2:具有101个卷积层的残差网络(ResNet)。每个残差单元包含三个卷积层。我们将自适应计算时间应用于ResNet的每个块,以学习一个依赖于图像的停止计算策略。0问题,包括多输出和逐像素预测问题。我们在ImageNet分类问题[8]上评估所提出的模型,并发现SACT优于ACT和非自适应基线。然后,我们将SACT作为FasterR-CNN目标检测流程[34]中的特征提取器,并在具有挑战性的COCO数据集[31]上展示结果。图1展示了示例检测结果和思考成本(计算时间)图。SACT在FLOPs-质量权衡方面比非自适应ResNet模型具有显著优势。最后,我们证明获得的计算时间图与人眼注视位置有很好的相关性,这表明在模型中自动产生了一个合理的注意力模型,而无需任何明确的监督。02. 方法0我们首先概述最近提出的深度卷积模型ResidualNetwork(ResNet)[15,16]。然后,我们介绍自适应计算时间模型,该模型自适应地选择ResNet中的残差单元数量。最后,我们展示如何在空间位置级别上应用这个想法,以获得空间自适应计算时间模型。02.1. 残差网络0首先我们描述了ResNet-101ImageNet分类架构(图2)。它已经扩展到目标检测[15,7]和图像分割[6]问题。我们提出的模型是通用的,可以应用于任何ResNet架构。ResNet-101的前两层是一个卷积层和一个最大池化层,它们的总步长为4。然后,将四个块序列堆叠在一起,每个块由多个堆叠的残差单元组成。ResNet-101包含四个块,分别包含3、4、23和3个单元。一个残差单元的形式为F(x) = x +f(x),其中第一项被称为快捷连接,第二项是残差函数。残差函数由三个卷积层组成:一个1×1的层用于减少通道数,一个3×3的层具有相等的输入和输出通道数,一个1×1的层用于恢复通道数。0停止分数0残差单元块0输出 输入0图3:自适应计算时间(ACT)对于一个残差单元块的计算。当累积的停止分数达到1时,计算停止。剩余的部分为 R = 1 - h1 - h2 -h3 = 0.6,评估的单元数量为 N = 4,思考成本为 ρ = N + R =4.6。参见算法1。ACT提供了一种确定性的、端到端可学习的计算量选择策略。0恢复通道数。我们在块2-4中使用预激活ResNet[16],其中每个卷积层之前都有批归一化[19]和ReLU非线性激活。块2-4中的第一个单元步长为2,并将输出通道数增加了2倍。所有其他单元的输入和输出维度相等。这个设计选择遵循VeryDeep Networks[38],确保网络中的所有单元具有相等的计算成本(除了块2-4中的第一个单元具有稍高的成本)。最后,获得的特征图通过全局平均池化层[30]和一个输出类别概率的全连接层传递。全局平均池化确保网络是完全卷积的,这意味着它可以应用于不同分辨率的图像而不改变网络的参数。02.2. 自适应计算时间0首先,我们以非正式的方式解释自适应计算时间(ACT),然后详细描述它并提供一个算法。我们在每个残差单元的输出上添加一个分支,预测一个停止分数,该分数是范围在[0,1]之间的标量值。残差单元和停止分数按顺序进行评估,如图3所示。一旦累积的停止分数达到1,该块中的所有后续残差单元将被跳过。我们将停止分布设置为评估的停止分数,最后一个值被替换为一个余数。这确保了停止分数的值的分布总和为1。然后,块的输出被重新定义为残差单元输出的加权和,其中每个单元的权重由相应的概率值给出。最后,引入了一个思考成本,它是评估的残差单元数量加上余数值。最小化思考成本会增加非最后残差单元的停止分数,使得计算更有可能提前停止。然后,思考成本乘以一个常数τ。N−1pl =plxl =plxl.(10)When differentiating ρ, we ignore the gradient of N. Also,note that R is not a continuous function of the haltingscores [25]. The discontinuities happen in the configurationsof halting scores where N changes value. Following [12],we ignore these discontinuities and find that they do notimpede training. Algorithm 1 shows the description of ACT.The partial derivative of the ponder cost w.r.t. a halting10410并添加到原始损失函数中。ACT独立地应用于每个ResNet块,并将计算代价求和。形式上,我们考虑一个由L个残差单元组成的块(粗体表示形状为Height × Width ×Channels的张量):0x 0 = input, (1)0x l = F l (x l−1) = x l−1 + f l (x l−1), l = 1 . . . L, (2)0output = x L. (3)0我们为每个残差单元引入一个停止得分hl ∈ [0,1]。我们定义hL = 1以强制在最后一个单元之后停止。0h l = H l (x l), l = 1 . . . (L − 1), (4)0h L = 1. (5)0我们选择停止得分函数作为池化特征之上的简单线性模型:0h l = H l (x l) = σ(W l pool(x l) + b l), (6)0其中pool是全局平均池化,σ(t) = 101+exp(−t)。接下来,我们确定要评估的残差单元的数量N,作为累积停止得分超过1 - ε的第一个单元的索引:0N = min n ∈ {1 . . . L} :0l =1 h l ≥ 1 - ε , (7)0其中ε是一个小常数(例如0.01),确保N可以等于1(计算在第一个单元之后停止),即使h1是一个sigmoid函数的输出,意味着h1 < 1。此外,我们定义剩余值R:0R = 1 -0l =1 h l. (8)0由于在等式(7)中定义了N,我们有0 ≤ R ≤1。接下来,我们将停止得分转换为停止分布,它是对残差单元的离散分布。其特性是从第(N+1)个单元开始的所有单元的概率为零:0h l if l < N, R if l = N, 0 if l > N.(9)0块的输出现在被定义为残差单元的输出加权平均。由于残差单元的表示是兼容的[18, 13],加权平均也产生相同类型的特征表示。xN+1, . . . , x L的值权重为零,因此可以跳过它们的评估:0算法1自适应计算时间用于一个残差单元块。ACT不需要存储中间残差单元的输出。输入:3D张量input 输入:块中的残差单元数目L输入:0 < ε < 1 输出:3D张量output 输出:计算代价ρ 1:x =input 2:c = 0 � 累积停止得分 3:R = 1 � 剩余值 4:output = 0 �块的输出 5:ρ = 0 6:for l = 1 . . . L do 7:x = Fl(x) 8:if l < Lthen 9:h = Hl(x) 10:else 11:h = 1 12:end if 13:c += h14:ρ += 1 15:if c < 1 - ε then 16:output += h ∙ x 17:R -=h 18:else 19:output += R ∙ x 20:ρ += R 21:break22:end if 23:end for 24:return output, ρ0L �0output =0N �0当微分ρ时,我们忽略N的梯度。此外,注意R不是停止得分的连续函数[25]。不连续性发生在停止得分的配置中,其中N的值发生变化。根据[12],我们忽略这些不连续性,并发现它们不会妨碍训练。算法1显示了ACT的描述。计算代价对于停止得分的偏导数w.r.t.0ρ = N + R. (11)K�k=1ρk.(13)H1F1F3H2F20.10.70.20.4⊕ �xlhl10420得分hl的导数∂ρ/∂hl =0� - 1 if l < N, 0 if l ≥ N. (12)0因此,最小化思考成本会增加h1,...,hN-1,使计算提前停止。这种效果通过原始损失函数L平衡,原始损失函数L也通过块输出的eqn.(10)依赖于停止分数。直观地说,使用的残差单元越多,输出越好,因此最小化L通常会增加最后一个使用的单元输出xN的权重R,从而减小h1,...,hN-1。ACT具有几个重要的优点。首先,它为基本模型添加了非常少的参数和计算。其次,它允许在不存储所有中间残差单元输出和停止分数的情况下“即时”计算块的输出。例如,如果停止分布是停止分数的softmax,如软注意力[42]中所做的那样,这是不可能的。第三,我们可以通过设置h1 = ... = hl-1 = 0,h l = 1来恢复具有任意常数单元数l ≤L的块。因此,ACT是标准ResNet的严格推广。我们独立地将ACT应用于每个块,然后像原始ResNet一样堆叠获得的块。下一个块的输入成为前一个块的残差单元的加权平均值,eqn.(10)。类似的连接模式在[17]中已经被探索过。我们将来自K个块的思考成本的总和ρk,k = 1 ...K添加到原始损失函数L中:0L' = L + τ0得到的损失函数L'是可微的,并且可以使用传统的反向传播进行优化。τ ≥0是一个正则化系数,用于控制原始损失函数和思考成本之间的权衡。02.3.空间自适应计算时间0在本节中,我们介绍了空间自适应计算时间(SACT)。我们通过将ACT应用于块的每个空间位置来调整每个位置的计算量,如图4所示。正如我们在实验中所展示的,SACT可以学会将计算集中在感兴趣的区域上。我们将累积停止分数小于1的空间位置定义为活动位置。因为活动位置可能有非活动的邻居,所以需要对非活动位置进行插值以评估活动位置的残差单元。我们只需复制非活动空间位置的先前值,这相当于将残差函数f(x)的值设置为0停止分数活动0非活动0残差单元块0输出输入0图4:一个残差单元块的空间自适应计算时间(SACT)。我们将ACT应用于块的每个空间位置。一旦位置的累积停止分数达到1,我们将其标记为非活动。参见算法2。SACT学会为块中的每个空间位置选择适当的计算量。0复制0残差单元0复制0残差单元0活动0非活动0感受野0图5:SACT中具有活动和非活动位置的残差单元。可以使用穿孔卷积层[10]高效地实现此变换。0全局平均池化03x3卷积0全连接0图6:SACT停止分数。停止分数通过完全卷积方式进行评估,使SACT适用于任意分辨率的图像。如果将3×3卷积权重设置为零,则SACT变为ACT。0零,如图5所示。当所有位置都变为非活动状态时,块的评估可以完全停止。此外,对空间位置的思考成本进行平均,以使其与ACT思考成本可比较。完整的算法在算法2中描述。我们将SACT的停止分数定义为0Hl(x) = σ(�Wl�x + Wl pool(x) + bl), (14)0其中�表示具有单个输出通道的3×3卷积,pool是全局平均池化(见图6)。SACT是完全卷积的,可以应用于任意大小的图像。注意,SACT是比ACT更通用的模型,因此也比标准ResNet更通用。如果我们选择�Wl =0,则所有空间位置的停止得分相同。在这种情况下,所有位置的计算同时停止,我们恢复了ACT模型。SACT只需要在活动的空间位置上评估残差函数f(x)。这可以通过以下方式进行4. ExperimentsWe first apply ACT and SACT models to the image clas-sification task for the ImageNet dataset [8]. We show thatSACT achieves a better FLOPs-accuracy trade-off than ACTby directing computation to the regions of interest. Addition-ally, SACT improves the accuracy on high-resolution imagescompared to the ResNet model. Next, we use the obtainedSACT model as a feature extractor in the Faster R-CNN ob-ject detection pipeline [34] on the COCO dataset [31]. Againwe show that we obtain significantly improved FLOPs-mAPtrade-off compared to basic ResNet models. Finally, wedemonstrate that SACT ponder cost maps correlate well with10430算法2:一个残差单元块的空间自适应计算时间输入:3D张量input 输入:块中的残差单元数量L 输入:0 < ε < 1 �输入和输出具有不同的形状输出:形状为H×W×C的3D张量output 输出:思考成本ρ 1: ˆx =input 2: X = {1..H} × {1..W} 3: 对于所有(i, j) ∈ X,执行以下操作4: aij = true � 活动标志 5: cij = 0 � 累积停止得分 6: Rij = 1 � 剩余值7: outputij = 0 � 块的输出 8: ρij = 0 � 每个位置的思考成本 9:结束循环 10: 对于l = 1..L,执行以下操作 11: 如果对于所有(i, j) ∈X,aij为false,则跳出循环 12: 结束条件判断 13: 对于所有(i, j) ∈X,执行以下操作 14: 如果aij为true,则xij = Fl(ˆx)ij 15: 否则,xij= ˆxij 16: 结束条件判断 17: 对于所有(i, j) ∈ X,执行以下操作 18:如果aij为false,则继续循环 19: 结束条件判断 20: 如果l < L,则hij= Hl(x)ij 21: 否则,hij = 1 22: 结束条件判断 23: cij += hij 24: ρij+= 1 25: 如果cij < 1 - ε,则 26: outputij += hij ∙ xij 27: Rij -=hij 28: 否则 29: outputij += Rij ∙ xij 30: ρij += Rij 31: aij = false32: 结束条件判断 33: 结束循环 34: ˆx = x 35: 结束循环 36: ρ =�(i,j) ∈ X ρij / (HW) 37: 返回output, ρ0在[10]中提出了使用穿孔卷积层来高效地进行计算(将跳过的值替换为零,而不是最近邻的值)。回想一下,残差函数由一堆1×1、3×3和1×1的卷积层组成。第一个卷积层必须在通过3×3的核对活动位置集进行膨胀后的位置上进行评估。第二和第三层只需要在活动位置上进行评估。使用穿孔卷积层的另一种方法是将停止得分图块化。假设我们0在k×k的图块中共享停止得分hl的值。例如,我们可以使用大小为k×k、步长为k的核对hl进行池化,然后将结果放大k倍。然后,图块中的所有位置都具有相同的活动标志,我们可以将残差单元密集地应用于仅活动的图块,重复使用常用的卷积例程。k应该足够大,以减少额外核调用和第一个1×1卷积的重叠计算的开销。因此,当SACT应用于高分辨率图像时,建议使用图块化。03. 相关工作0增加深度卷积网络计算效率的大部分工作都集中在静态技术上。这些技术包括卷积核的分解[21]和连接的修剪[14]。其中许多技术已经应用于标准深度架构的设计。例如,Inception[39]和ResNet[15,16]使用分解的卷积核。最近,一些研究考虑了在计算机视觉中改变计算量的问题。级联分类器[27,43]用于快速拒绝“简单”的负面提议。动态容量网络[1]对所有图像使用相同的计算量,并使用图像分类特定的启发式方法。穿孔CNN[10]在空间上变化计算量,但在图像之间不变。[3]提出使用REINFORCE训练的策略来调整全连接网络的计算量,这使得优化问题更具挑战性。BranchyNet[40]是我们最相似的方法,但只适用于分类问题。它在网络的中间层添加分类分支。一旦中间分类的熵低于某个阈值,网络的评估就会停止。我们对类似的使用ACT的类似过程进行了初步实验(使用ACT选择要评估的块数),结果表明它不如每个块使用更少的单元。the position of human eye fixations by evaluating them as avisual saliency model on the cat2000 dataset [4] without anytraining on this dataset.4.1. Image classification (ImageNet dataset)First, we train the basic ResNet-50 and ResNet-101 mod-els from scratch using asynchronous SGD with momentum(see the supplementary text for the hyperparameters). Ourmodels achieve similar performance to the reference imple-mentation1. For a single center 224 × 224 resolution crop,the reference ResNet-101 model achieves 76.4% accuracy,92.9% recall@5, while our implementation achieves 76%and 93.1%, respectively. Note that our model is the newerpre-activation ResNet [16] and the reference implementationis the post-activation ResNet [15].We use ResNet-101 as the basic architecture for ACT andSACT models. Thanks to the end-to-end differentiability anddeterministic behaviour, we find the same optimization hy-perparameters are applicable for training of ACT and SACTas for the ResNet models. However, special care needs to betaken to address the dead residual unit problem in ACT andSACT models. Since ACT and SACT are deterministic, thelast units in the blocks do not get enough training signal andtheir parameters become obsolete. As a result, the pondercost saved by not using these units overwhelms the possibleinitial gains in the original loss function and the units arenever used. We observe that while the dead residual unitscan be recovered during training, this process is very slow.Note that ACT-RNN [12] is not affected by this problemsince the parameters for all timesteps are shared.We find two techniques helpful for alleviating the deadresidual unit problem. First, we initialize the bias of thehalting scores units to a negative value to force the modelto use the last units during the initial stages of learning.We use bl = −3 in the experiments which correspondsto initially using 1/σ(bl) ≈ 21 units. Second, we use atwo-stage training procedure by initializing the ACT/SACTnetwork’s weights from the pretrained ResNet-101 model.The halting score weights are still initialized randomly. Thisgreatly simplifies learning of a reasonable halting policy inthe beginning of training.As a baseline for ACT and SACT, we consider a non-adaptive ResNet model with a similar number of floatingpoint operations. We take the average numbers of units usedin each block in the ACT or SACT model (for SACT we alsoaverage over the spatial dimensions) and round them to thenearest integers. Then, we train a ResNet model with suchnumber of units per block. We follow the two-stage trainingprocedure by initializing the network’s parameters with thethe first residual units of the full ResNet-101 in each block.This slightly improves the performance compared to usingthe random initialization.1https://github.com/KaimingHe/deep-residual-networks0. 60. 81. 01. 21. 41. 6Floating point operations×101073.073.574.074.575.075.576.076.5Validation accuracy (%)SACTSACT baselineACTACT baselineResNet-{50,101}(a) Test resolution 224 × 2241. 52. 02. 53. 03. 54. 0Floating point operations×101075.576.076.577.077.578.078.579.0Validation accuracy (%)SACTSACT baselineACTACT baselineResNet-{50,101}(b) Test resolution 352 × 352224288352416480544608Resolution717273747576777879Validation accuracy (%)SACT τ = 0. 001SACT τ = 0. 001 baselineACT τ = 0. 0005ACT τ = 0. 0005 baslineResNet-101(c) Resolution vs. accuracy0. 00. 20. 40. 60. 81. 01. 21. 4Floating point operations×1011717273747576777879Validation accuracy (%)SACT τ = 0. 001SACT τ = 0. 001 baselineACT τ = 0. 0005ACT τ = 0. 0005 baslineResNet-101(d) FLOPs vs. accuracy for varyingresolutionFigure 7: ImageNet validation set. Comparison of ResNet, ACT,SACT and the respective baselines. Error bars denote one standarddeviation across images. All models are trained with 224 × 224resolution images. SACT outperforms ACT and baselines whenapplied to images whose resolutions are higher than the trainingimages. The advantage margin grows as resolution differenceincreases.2.252.402.552.702.853.003.153.303.924.004.084.164.244.324.404.487.59.010.512.013.515.016.518.02.002.252.502.753.003.253.503.7510440图8:每个块的ponder cost maps(SACT τ =0.005,ImageNet验证图像)。请注意,第一个块对低级特征做出反应,而最后两个块则试图定位物体。0我们将ACT和SACT与ResNet-50、ResNet-101和基线模型进行比较,如图7所示。我们测量验证集中每个图像的平均浮点运算(FLOPs)数量。我们将乘法和加法视为两个浮点运算。FLOPs仅针对卷积操作进行计算(对于SACT,是perforatedconvolution),因为其他操作(非线性、池化和ACT/SACT中的输出平均)对该指标的影响很小。ACT模型使用τ∈{0.0005, 0.001, 0.005, 0.01},而SACT模型使用τ∈{0.001,0.005,0.01}。如果我们在测试时增加图像分辨率,如[16]中建议的那样,我们观察到SACT优于ACT和基线模型。令人惊讶的是,在这种情况下,SACT的准确性比ResNet-101模型更高,而计算成本更低。这种准确性的提高在基线模型或ACT模型中并不存在。我们将其归因于SACT机制提供的改进的尺度容忍性。图7(a,b)的扩展结果,包括每个块的平均残差单元数量,将在补充材料中呈现。我们将SACT的每个块的ponder cost可视化为141618202224262814161820222426281416182022242628ResNet-101 [15]10027.210450图9:ImageNet验证集。SACT(τ = 0.005)的ponder cost maps。顶部:低ponder cost(19.8-20.55),中部:平均pondercost(23.4-23.6),底部:高ponder cost(24.9-26.0)。SACT通常将计算集中在感兴趣的区域上。0热图(我们将其称为ponder costmaps)如图8所示。图9展示了总的SACT ponder costmaps的更多示例。04.2. 目标检测(COCO数据集)0受SACT在高分辨率图像分类中的成功以及忽略无信息的背景的启发,我们现在转向更难的目标检测问题。目标检测通常针对高分辨率图像进行(例如1000×600,而ImageNet分类的图像为224×224),以便检测小物体。在这种情况下,计算冗余成为一个重要问题,因为大部分图像区域通常被背景占据。我们使用FasterR-CNN目标检测流程[34],该流程由三个阶段组成。首先,图像经过特征提取器处理。这是计算开销最大的部分。其次,区域建议网络预测一定数量的类别不可知的矩形建议(通常为300个)。第三,每个建议框的特征从特征图中裁剪出来,并通过一个框分类器传递,该分类器预测该建议是否对应一个物体,该物体的类别以及细化边界。我们使用异步SGD与动量进行端到端的模型训练,使用Tensorflow的crop_and_resize操作(类似于Spatial TransformerNetwork[20])来执行区域建议的裁剪。训练的超参数在补充材料中提供。我们使用ResNet的1-3块作为特征提取器,使用第4块作为框分类器,如[15]中建议的那样。我们重用在ImageNet分类任务上预训练的模型,并对其进行微调以用于COCO检测。对于SACT,ponder cost penalty τ仅应用于特征提取器(我们使用与ImageNet分类相同的值)。我们使用COCO训练集进行训练,使用COCO验证集进行评估(而不是有时使用的合并的训练+验证集)0特征提取器FLOPs(%)mAP @ [ . 5 , . 95 ](%)0ResNet-50(我们的实现)46.6 25.56 SACT τ =0.005 56.0 ± 8.5 27.61 SACT τ = 0.001 72.4 ±8.4 29.04 ResNet-101(我们的实现)100 29.240表1:COCO验证集。使用SACT的FasterR-CNN结果。FLOPs是相对于ResNet-101的平均(±一个标准差)特征提取器浮点运算次数(1.42E+11次操作)。与使用非自适应ResNet作为特征提取器的基线相比,SACT改善了FLOPs-mAP的权衡。0在文献中的一些方法中,采用了多尺度推理、迭代框细化或全局上下文。我们发现,与使用非自适应ResNet作为特征提取器的基线相比,SACT在速度和mAP的权衡上取得了更好的效果(见表1)。SACT τ = 0 . 005模型的FLOPs计数略高于ResNet-50,并且mAP提高了2.1个点。请注意,该SACT模型优于最初报告的ResNet-101结果,即27.2的mAP[15]。图10展示了几个示例。04.3. 视觉显著性(cat2000数据集)0我们现在展示SACT思考成本图与人类注意力的相关性。为此,我们使用了一个大型的视觉显著性数据集:cat2000数据集[4]。该数据集通过向24名人类受试者展示20个场景类别的4,000张图像,并记录他们的眼睛注视位置来获取。地面真值显著性图是眼睛注
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 李兴华Java基础教程:从入门到精通
- U盘与硬盘启动安装教程:从菜鸟到专家
- C++面试宝典:动态内存管理与继承解析
- C++ STL源码深度解析:专家级剖析与关键技术
- C/C++调用DOS命令实战指南
- 神经网络补偿的多传感器航迹融合技术
- GIS中的大地坐标系与椭球体解析
- 海思Hi3515 H.264编解码处理器用户手册
- Oracle基础练习题与解答
- 谷歌地球3D建筑筛选新流程详解
- CFO与CIO携手:数据管理与企业增值的战略
- Eclipse IDE基础教程:从入门到精通
- Shell脚本专家宝典:全面学习与资源指南
- Tomcat安装指南:附带JDK配置步骤
- NA3003A电子水准仪数据格式解析与转换研究
- 自动化专业英语词汇精华:必备术语集锦
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功