MobileViG: 图神经网络在移动设备的高效视觉应用

版权申诉
0 下载量 195 浏览量 更新于2024-08-04 收藏 1.19MB PDF 举报
本文档深入探讨了在移动视觉应用领域的一个新兴技术——MobileViG,这是一个基于图的稀疏注意力机制的创新解决方案,针对的是在移动设备上运行的视觉图神经网络(ViG)存在的计算成本问题。传统的计算机视觉领域,CNN和ViT模型主导着性能,但ViG由于图形结构的处理复杂性在移动设备上显得不那么高效。 作者首先回顾了人工智能和机器学习领域,尤其是卷积神经网络(CNN)和视觉Transformer的发展历程,强调了这些技术在推动计算机视觉进步中的关键作用。CNN虽然在20世纪80年代就已被提出,但真正被广泛应用于大规模图像识别任务是在AlexNet在ImageNet竞赛中的出色表现之后。后续的研究不断优化CNN的架构,提升了其准确性和效率。 本文的核心贡献是MobileViG,一个混合CNN-GNN架构,特别设计用于在移动设备上运行。作者提出了一种名为稀疏视觉图注意(SVGA)的新机制,旨在减少计算负担,使得ViG能够在移动设备上更加高效。MobileViG在多项视觉任务如图像分类、目标检测和实例分割中展示了优越的表现,例如,MobileViG-Ti模型在ImageNet-1K数据集上达到了75.7%的top-1精度,且在iPhone13 Mini的NPU上具有极低的推理延迟,优于同类MobileNetV2模型。 最强大的模型MobileViG-B实现了82.6%的top-1精度,同时保持了相对较低的2.30ms延迟,相较于EfficientFormer-L3模型,不仅速度更快,准确性也更高。这一研究结果表明,设计出适合移动设备的混合CNN-GNN架构,为在移动设备上实现快速且精准的视觉应用提供了新的可能。 作者强调,他们的工作为未来在移动设备上开发高性能视觉模型开辟了新路径,并鼓励其他研究人员在这个领域进行探索。所有相关的代码已开源,可从https://github.com/SLDGroup/MobileViG获取,这有助于社区的进一步发展和创新。