LVT: 提升轻量化Transformer视觉性能的创新方法

0 下载量 101 浏览量 更新于2024-06-20 收藏 2.98MB PDF 举报
增强自我关注的轻量级视觉Transformer网络,或LVT,是一种针对移动设备部署优化的新型Transformer模型,旨在解决当前轻量级模型在处理图像任务时存在的局部一致性问题和密集预测不准确的问题。Transformer架构,最初由Dosovitskiy[18]引入到计算机视觉领域,通过模仿自然语言处理中的自我注意机制,实现了在图像识别、对象检测和语义分割等任务中的出色表现。 LVT的设计重点在于增强自注意力机制,以适应更浅和更薄的网络结构。针对低层次特征,LVT采用了创新的卷积自注意力(CSA)模块。与传统的融合方法不同,CSA引入了3x3大小的局部自注意力内核,在卷积层内部进行操作,增强了对底层特征的丰富和表达能力。这有助于捕捉更精确的局部特征,从而提高模型在早期阶段的表现。 在高层次特征处理上,LVT提出了递归自注意力(RASA)算法。RASA利用多尺度上下文来计算相似性映射,通过这种方式,模型能够更好地理解和整合来自不同层面的信息,进一步提升整体性能。RASA的优势在ImageNet图像识别、ADE20K语义分割以及COCO全景分割任务上得到了验证,尤其是在移动场景下的COCO全景分割任务中,LVT明显提高了标签的准确性。 LVT的编码器架构选择对于模型的整体性能至关重要,尤其是在与MobileNetV2和PVTv2-B0这样的轻量级模型比较时,LVT能够在保持相同训练和测试流程的前提下,提供显著的性能提升。这一成果表明,通过优化的自注意力机制,即使是轻量级的Transformer模型也能在移动设备上展现出强大的视觉处理能力,并且在实际应用中具有很高的实用价值。研究人员已经将LVT的代码开源,以便于学术界和业界的进一步研究和应用发展。