轻量级骨干网对比：QPS测试与性能分析

需积分: 3 86 浏览量更新于2024-08-04 1 收藏 1.97MB PDF 举报

"本文档主要探讨了轻量级骨干网在深度学习中的应用，特别是针对英伟达T4显卡的QPS（Queries Per Second，即每秒查询率）性能测试。文档列出了几种常见的轻量级骨干网络，如VGG16、ResNet18、MobileNetV1、MobileNetV2、MnasNetA1和MobileNetV3，分析了这些模型的结构特点，计算量（FLOPs和MACs）以及在性能优化上的创新点。" 深度学习中的轻量级骨干网设计是为了在保持高效率和准确性的前提下，减少计算资源的消耗，尤其适用于资源有限的设备，如移动设备或嵌入式系统。以下是对这些模型的详细分析： 1. **VGG16**：这是由牛津大学视觉几何组提出的模型，其特点是连续使用3x3的小卷积核替代大尺寸的卷积核，例如11x11、7x7和5x5，以减少参数数量，同时提高模型性能。 2. **ResNet18**：由微软研究院开发，为了解决深层神经网络中梯度消失和梯度爆炸的问题，引入了残差块，使得信号可以直接跨层传递，从而可以构建更深的网络。 3. **MobileNetV1**：谷歌提出的轻量化模型，其创新之处在于引入了深度可分离卷积，将卷积操作分为两个步骤：深度卷积（depthwise convolution）和点卷积（pointwise convolution），大大降低了计算复杂度。 4. **MobileNetV2**：对V1的改进，通过引入倒残差结构（Inverted Residuals）解决了V1中深度卷积的局限，同时使用了线性瓶颈层来解决ReLU导致的空核问题，增强了模型的性能。 5. **MnasNetA1**：使用强化学习自动搜索得到的网络结构，通过自动优化和排列组合，寻找最佳的网络配置，以平衡精度和计算效率。 6. **MobileNetV3**：基于NAS（神经网络架构搜索）的MobileNetV1和V2的结合体，进一步优化了深度可分离卷积和倒残差结构，并引入了轻量级注意力模型SE（Squeeze-and-Excitation），提高了模型的表示能力。在评估这些模型时，通常会使用FLOPs和MACs作为计算量的度量标准，这两个指标反映了模型在硬件上执行操作的复杂度。QPS则是衡量模型在特定硬件上处理任务速度的重要指标，对于实时应用尤其关键。在英伟达T4这样的GPU上进行QPS测试，可以帮助开发者根据实际需求选择最合适的轻量级骨干网络。总结来说，这些轻量级骨干网在深度学习领域扮演着重要角色，它们的结构优化和性能提升为各种资源受限的场景提供了可行且高效的解决方案。通过对比不同模型的QPS性能，开发者可以根据业务需求选择最适合的网络架构，以达到最佳的计算效率和应用性能。

轻量级Backbone调研

一、评价指标

FLOPs：模型的计算量，表示浮点运算次数

FLOPS：处理器性能的衡量指标，是“每秒所执行的浮点运算次数”的缩写

GFLOPs：1GFlops=1000MFlops

MFlops：1MFlops=1000000Flops

MACs：1MACs包含一个乘法操作与一个加法操作，大约包含2FLOPs，参考：https://zhuanlan.zhihu.com/p/570142973

GMACs：1GMACs = 1,000MACs

二、相关模型汇总

模

型

背景

VGG16

采用连续的几个 3x3 的卷积核代替 AlexNet 中的较大卷积核，

如 11 x 11，7 x 7，5 x 5。

采用多个小卷积核堆积是比直接采用一个大的卷积核效果要好，而且参数更少。

ResN

et18

当网络的层数逐步增加时，出现梯度消失和梯度爆炸等问题

下载后可阅读完整内容，剩余7页未读，立即下载

Paul-LangJun

粉丝: 149
资源: 4

轻量级骨干网对比：QPS测试与性能分析

Solon：轻量级、高性能的Java应用开发框架

C++实现的高性能轻量级键值数据库

Java新生态：轻量级架构的性能飞跃

当当开源sharding-jdbc-轻量级数据库分库分表中间件

ember-link-to-qps-bug

ug-qps-timing-analyzer-ch.pdf

qts-qps-handbook-16-1.pdf

qts-qps-handbook.pdf

linux项目工程资料-基于linux，利用c++开发的轻量级http服务器，能承受近万的QPS.zip

qps-api：Quantum Programming Studio API

最新资源