阿里专家分享：AI工程落地的挑战与策略——从服务器到嵌入式

版权申诉

152 浏览量更新于2024-06-14 收藏 2.64MB PDF 举报

《AI工程落地：挑战与策略》是一份由阿里巴巴达摩院机器智能技术系统的张洁靖（花名青神）撰写的报告，重点关注了在服务端和嵌入式AI工程落地过程中所面临的挑战以及相应的应对策略。报告首先分析了当前AI技术的发展趋势，特别提到了分布式超大规模模型，如GPT-2和阿里巴巴的PLUG，这些模型逐渐从亿级参数发展到万亿参数，反映了深度学习算法推理的巨大进步。在服务器AI和嵌入式AI之间进行了对比，强调了它们各自的特性和应用场景。服务器AI通常使用高性能的单卡GPU（如Nvidia V100或T4）进行模型运行，处理大规模、复杂的模型结构，如Resnet和BERT。而嵌入式AI则需适应移动设备（如MobileNet和ShuffleNet）和MCU（如NXP i.MX8M Plus和i.MXRT1060）级别的硬件限制，这些设备的算力低，内存有限，因此对模型的轻量化和效率要求极高。报告深入探讨了嵌入式AI移植和性能优化的重要性，例如NXPRT1060算法落地时面临的挑战，包括处理体积巨大模型的推理速度问题、稀疏化技术、低精度计算以及多卡或多机并行推理。对于移动设备，从纯CPU推理转向NPU加速器（如NXP i.MX8MPlus的NPU支持），以及对不同NPU的模型适配和利用CV硬件加速器的兼容性是关键。在编程语言和操作系统选择上，服务器AI倾向于使用CUDA、Python等高性能语言在Linux环境下工作，而嵌入式AI则可能需要C++、OpenCL等跨平台语言，且可能面临操作系统不一致的问题，如FreeRTOS和RTEMS。深度学习算法推理的主要挑战包括如何在资源受限的环境中保持高效，如何处理多模型协同、音视频编解码的需求，以及如何在MCU级别的设备上进行开发调试，这要求开发者具备丰富的嵌入式开发经验和对各种操作系统环境的支持。最后，报告对比了服务器（如Nvidia T4）与移动设备（如NXP i.MX8MPlus）以及MCU（如NXP i.MXRT1060）在硬件、功耗和成本上的差异，突出了在选择和优化AI部署时，工程师需要根据具体场景和应用需求来制定针对性的策略。《AI工程落地：挑战与策略》提供了宝贵的洞察，帮助读者理解在不同AI场景下如何平衡性能、成本和功耗，以及如何有效地解决实际工程落地中的复杂问题。

服务器和嵌入式深度学习多维度工程对比

GPU级别模型

（以

Nividia T4为例

)

移动设备级别模型

(如NXP i.MX

8M Plus)

MCU级别模型

(如NXP i.MX RT

1060)

硬件/算力/内存

FP32: 8.1TFlops

Int8: 130Tops

Mem: 16GB + 320

GB/s

Int8: 2.3Tops

Mem: 6G

Int8: 4.8GOps/s

Mem: 1M SRAM

硬件/功耗/成本

功耗: 70W

价格: 高

功耗: 3W

价格: 中

功耗: 0.35W

价格: 低

编程语言

CUDA

Python

C++

OpenCL

Java

C++

操作系统

Linux

Windows

MacOS

Android

Linux

FreeRTOS

etc.

1300

23 4.8

T4 Mobile MCU

Int8 算力(GOps/s)

0.001

T4 Mobile MCU

内存(GB)

算力和内存

剩余20页未读，继续阅读

百态老人

粉丝: 7860
资源: 2万+

阿里专家分享：AI工程落地的挑战与策略——从服务器到嵌入式

2020年人工智能落地挑战及应对策略分析

2020年AI落地挑战及应对策略分析报告

OpenMLDB：AI工程化落地的数据基石

4-3+OpenMLDB：为AI工程化落地高效供给正确数据.pdf

赵明-立体化监控中人工智能场景落地.pdf

生成技术在人工智能平台中的应用探索.pdf

AI算法评测实践与探索.pdf

流水线3.0打造DevOps落地工具链.pdf

高校课题申报：人工智能时代基于OBE模式的工程教育课程体系优化研究.pdf

智能运维场景探索与工程实践.pdf

最新资源