深度学习中的注意力机制:从Non-local到SENet

需积分: 50 54 下载量 66 浏览量 更新于2024-07-15 4 收藏 5.84MB PPTX 举报
"这篇资源汇总了计算机视觉领域中的一些经典注意力机制,主要集中在CVPR和ICCV会议上发表的论文,包括cbam、a2net、psanet、danet、apcnet、sknet、ccnet、gcnet、annnet、ocrnet、sanet和ecanet等。这些方法主要涉及注意力机制的三种类型:空间注意力模型、通道注意力模型以及空间和通道混合注意力模型。文章特别提到了Non-local和SENet这两项在2018年CVPR会议上提出的重要工作,Non-local关注空间注意力,而SENet则强调通道注意力,并且介绍了这两个方法的具体实现细节。" 在计算机视觉领域,注意力机制是一个关键概念,它允许模型在处理图像时聚焦于最重要的部分,忽略不相关的信息,从而提高识别和分析的准确性。Non-local注意力机制,由CVPR2018的一篇论文提出,通过计算特征图中任意位置之间的相似度,捕获远程依赖,以保持更多的上下文信息。Non-local操作可以作为一种模块集成到其他网络架构中,通过f函数(如高斯函数、嵌入式高斯、点积或拼接)计算位置间的相关性,然后进行归一化。 另一方面,SENet(Squeeze-and-Excitation Networks)同样是2018年CVPR会议上的一项重要贡献,它关注的是通道注意力。SENet的基本思路是在通道维度上调整特征图的权重,通过全局平均池化(squeeze)获取全局信息,然后通过 Excitation 阶段的全连接层和激活函数来重新分配这些权重,从而使网络能更有效地关注重要的特征通道。这种特征重标定过程有助于提高模型的性能,尤其是在语义分割任务中。 上述提到的其他方法,如cbam、a2net、psanet等,都是在此基础上进一步发展和优化的注意力机制。例如,CBAM(Convolutional Block Attention Module)结合了空间和通道注意力,PSANet(Pyramid Scene Parsing Network)引入了可学习的局部注意力窗口,而SANet(Spatial Attention Network)专注于像素级别的空间注意力。这些方法的共同目标是提升模型对图像内容的理解和解析能力,特别是在复杂场景和细粒度识别任务中。通过深入研究这些注意力机制,我们可以更好地设计和优化深度学习模型,以适应各种计算机视觉应用场景。