MobileViG: 图神经网络在移动设备的高效视觉应用

版权申诉

195 浏览量更新于2024-08-04 收藏 1.19MB PDF 举报

本文档深入探讨了在移动视觉应用领域的一个新兴技术——MobileViG，这是一个基于图的稀疏注意力机制的创新解决方案，针对的是在移动设备上运行的视觉图神经网络（ViG）存在的计算成本问题。传统的计算机视觉领域，CNN和ViT模型主导着性能，但ViG由于图形结构的处理复杂性在移动设备上显得不那么高效。作者首先回顾了人工智能和机器学习领域，尤其是卷积神经网络（CNN）和视觉Transformer的发展历程，强调了这些技术在推动计算机视觉进步中的关键作用。CNN虽然在20世纪80年代就已被提出，但真正被广泛应用于大规模图像识别任务是在AlexNet在ImageNet竞赛中的出色表现之后。后续的研究不断优化CNN的架构，提升了其准确性和效率。本文的核心贡献是MobileViG，一个混合CNN-GNN架构，特别设计用于在移动设备上运行。作者提出了一种名为稀疏视觉图注意（SVGA）的新机制，旨在减少计算负担，使得ViG能够在移动设备上更加高效。MobileViG在多项视觉任务如图像分类、目标检测和实例分割中展示了优越的表现，例如，MobileViG-Ti模型在ImageNet-1K数据集上达到了75.7%的top-1精度，且在iPhone13 Mini的NPU上具有极低的推理延迟，优于同类MobileNetV2模型。最强大的模型MobileViG-B实现了82.6%的top-1精度，同时保持了相对较低的2.30ms延迟，相较于EfficientFormer-L3模型，不仅速度更快，准确性也更高。这一研究结果表明，设计出适合移动设备的混合CNN-GNN架构，为在移动设备上实现快速且精准的视觉应用提供了新的可能。作者强调，他们的工作为未来在移动设备上开发高性能视觉模型开辟了新路径，并鼓励其他研究人员在这个领域进行探索。所有相关的代码已开源，可从https://github.com/SLDGroup/MobileViG获取，这有助于社区的进一步发展和创新。

AI浩

粉丝: 15w+
资源: 228

MobileViG: 图神经网络在移动设备的高效视觉应用

音视频-编解码-图像的稀疏字典及其应用.pdf

基于稀疏表示的人脸识别.pdf

论文研究-基于稀疏表示的快速.pdf

python train_sparity.py --st --sr 0.0002 --weights yolov5s.pt --data data/your_data.yaml --epochs 100 --imgsz 512 --adam ...

基于slam的三维重建_实时三维重建算法的实现--基于Kinect与单目视觉SLAM的三维重建...

基于遗传算法的平面阵列阵列稀疏(matlab程序).zip

由粗到精的三维人脸稀疏重建方法.pdf

k-svd导出稀疏基

hbase-1.2.1-bin.tar.gz

用c语言按照如下步骤完成稀疏矩阵的操作。 1.用三元组表存储以下稀疏矩阵，0 12 9 0 0 0 0， 0 0 0 0 0 0 0， -3 0 0 0 0 14 0， 0 0 24 0 0 0 0， 0 18 0 0 0 0 0 ，15 0 0 -7 0 0 0并输出（输出结果如图）；

最新资源