NVIDIA 深度学习推理平台性能研究 | 技术概述 | 4
>> 统一内存寻址和地址转换服务质量提升:
V100 统一内存寻址技术包含新的存取计数器,可更准确地将内存分页
迁移至对其读取最为频繁的处理器,同时提升处理器间共享显存范围
的效率。
>> 最大性能模式和最大效率模式:
最大性能模式下,Tesla V100 将以 300 W 的 TDP(热设计功耗)级别
运行,提供极高的数据吞吐量。在最大效率模式下,数据中心管理员
可调节 Tesla V100 加速器的功率利用率,使加速器以最佳性能功耗比
运行。
>> 协作组和新的协作启动 API:协作组是 CUDA 9 中引入的新式编程
模型,可用于组织线程通信群组。协作组允许开发者表示线程通信
粒度,帮助他们表达更丰富、更高效的并行分解方法。
>> 针对 Volta 优化的软件:Caffe2、MXNet、Microsoft Cognitive
Toolkit、PyTorch、TensorFlow 等深度学习框架新版本以及其他框架
皆可发挥出 Volta 的强大性能,缩短训练时间并获得更高的多节点
训练性能。
如需了解更多信息,请下载 《 Volta 架构白皮书 》(链接:https://www.
nvidia.com/zh-cn/data-center/volta-gpu-architecture/)
TensorRT -
可编程推理加速器
NVIDIA TensorRT
™
是一款高性能深度学习推理优化程序和运行时刻的
环境,可为深度学习应用提供低延迟、高吞吐量的推理。TensorRT 可用于
快速优化、验证和部署经训练的神经网络,从而在超大型数据中心、嵌入式
平台或汽车产品平台上开展推理工作。
在训练神经网络后,TensorRT 可作为一种运行时刻的环境用于压缩、优化
和部署该网络,同时不会产生框架开销。访问 TensorRT 的途径有三种:
描述要运行的神经网络的 C++ API、可 加 载 现 有 Caffe 或 TensorFlow 模型
的高级 Python 接 口 ,或 易 用 于 devops 环境的表现层状态转化 (REST) API
接口。TensorRT 将网络层合并与模型压缩相结合,同时执行归一化和转换
操 作 ,以 根 据 指 定 精 度( FP32、FP16 或 INT8)转 换 为 经 优 化 的 矩 阵 数 学 ,
从而减少延迟,提高吞吐量和效率。
推理计算可使用较低精度的张量运算,最大程度地减少精度损失。
Tesla V100 和 P4 加速器分别对点积运算执行 16 位浮点 (FP16) 和 8 位整数
(INT8) 指令。这样可增加模型容量、显存利用率,缩短延迟,提高吞吐量
以及效能。