NVIDIA发布Pytorch混合精度与分布式训练扩展

需积分: 38 174 浏览量更新于2024-11-06 收藏 760KB ZIP 举报

资源摘要信息:"NVIDIA开源面向精简混合精度和分布式训练的Pytorch扩展-python" 1. NVIDIA与Pytorch扩展 NVIDIA作为一个在图形处理器和人工智能领域具有深远影响力的企业，不断推动着深度学习技术的发展。这次NVIDIA开源的扩展项目是针对Pytorch深度学习框架的，主要目的是提供精简且高效的混合精度和分布式训练工具。混合精度训练是指在模型训练过程中同时使用单精度（FP32）和半精度（FP16）浮点数来加速计算并节省内存资源。分布式训练则涉及多个处理器并行计算，以加快训练速度和处理更大规模的数据集。 2. Amp：自动混合精度工具 Amp是NVIDIA提供的一个自动混合精度（Automatic Mixed Precision）工具，它允许开发者仅通过修改少量代码（通常仅3行代码）就能启用混合精度训练。这大大降低了混合精度技术的使用门槛，加速了模型的训练过程，同时减少了显存的占用。Amp提供了丰富的参数选项供用户调整，以便尝试不同的纯FP32、纯FP16以及混合模式的训练。值得注意的是，NVIDIA对于这个工具的持续更新和维护，预示了混合精度训练在未来深度学习中的重要性。 3. 分布式训练的扩展支持分布式训练能够极大地提升训练的效率和规模，尤其是当单个GPU的资源不足以处理大量数据或者模型时。NVIDIA通过apex.parallel这一扩展提供了分布式训练的支持。这不仅包括了同步和异步的数据并行处理，还包括了模型并行处理，以及梯度累积等高级特性。开发者可以利用这些工具将训练任务在多GPU甚至多节点间分配，显著加快训练速度，同时处理更复杂或更大型的模型。 4. Apex的API文档与资源为了方便开发者更好地理解和使用这些工具，NVIDIA提供了详尽的API文档。文档中不仅说明了各个函数和类的使用方法，还提供了各种示例，包括完整的Imagenet训练示例和即将推出的DCGAN（深度卷积生成对抗网络）示例。这些示例有助于用户快速上手并应用于实际项目中。此外，NVIDIA还提供了网络研讨会，进一步深化对这些工具的理解和使用。 5. 开源与社区支持开源项目的特性保证了代码的透明性和社区的合作。NVIDIA将这些工具开源，不仅有助于开发者社区的合作开发，也有利于整个行业对这些技术的深入研究和应用。同时，NVIDIA通过持续的代码更新和社区支持，确保了这些工具能够跟上技术发展的步伐，为用户提供最新的实用程序。 6. 对于机器学习的意义混合精度和分布式训练是现代机器学习尤其是深度学习中非常关键的技术。混合精度训练有助于提升模型训练速度和效率，同时降低内存消耗，这对于训练日益复杂和庞大的深度学习模型至关重要。分布式训练则让开发者可以利用更多的计算资源，缩短训练时间，使得处理大规模数据集和复杂模型成为可能。NVIDIA的这些扩展工具为机器学习社区提供了高效、易用的解决方案，极大地推动了机器学习技术的普及和应用。

收起资源包目录

NVIDIA开源面向精简混合精度和分布式训练的Pytorch扩展-python （341个子文件）

fmha_fprop_kernel_1xN_reload_v.h 13KB

additive_masked_softmax_dropout.cpp 4KB

additive_masked_softmax_dropout_cuda.cu 5KB

mlp.cpp 5KB

multi_tensor_scale_kernel.cu 4KB

transducer_joint_kernel.cu 27KB

multi_tensor_apply.cuh 5KB

ln_kernel_traits.h 910B

fmha_fprop_fp16_384_64_kernel.sm80.cu 3KB

fmha_dgrad_fp16_384_64_kernel.sm80.cu 3KB

fused_lamb_cuda_kernel.cu 8KB

softmax.h 18KB

fmha_utils.h 4KB

syncbn.cpp 6KB

mlp_cuda.cu 51KB

type_shim.h 5KB

multi_tensor_lamb.cu 12KB

layer_norm.h 23KB

layout.html 1019B

masked_softmax_dropout.cpp 4KB

gemm.h 12KB

fmha_dgrad_fp16_128_64_kernel.sm80.cu 3KB

utils.cuh 3KB

compat.h 140B

multi_tensor_lamb_stage_1.cu 4KB

flatten_unflatten.cpp 584B

fmha_dgrad_kernel_1xN_reload.h 24KB

Makefile 947B

.gitignore 31B

self_multihead_attn_bias_cuda.cu 21KB

self_multihead_attn_norm_add_cuda.cu 25KB

self_multihead_attn_cuda.cu 20KB

fmha_dgrad_fp16_512_64_kernel.sm80.cu 3KB

encdec_multihead_attn_norm_add.cpp 12KB

layer_norm_cuda_kernel.cu 24KB

batch_norm.cu 11KB

encdec_multihead_attn_norm_add_cuda.cu 30KB

ln_fwd_cuda_kernel.cu 5KB

interface.cpp 2KB

smem_tile.h 50KB

fmha_api.cpp 11KB

self_multihead_attn_norm_add.cpp 10KB

welford.cu 53KB

multi_tensor_novograd.cu 5KB

fmha_fprop_fp16_128_64_kernel.sm80.cu 3KB

multi_tensor_distopt_lamb.cpp 1KB

.gitignore 51B

gmem_tile.h 16KB

multi_tensor_lamb_stage_2.cu 3KB

self_multihead_attn_bias_additive_mask_cuda.cu 20KB

philox.h 3KB

mask.h 3KB

fmha_fprop_fp16_256_64_kernel.sm80.cu 3KB

fused_adam_cuda.cpp 5KB

.gitmodules 306B

fmha_dgrad_fp16_256_64_kernel.sm80.cu 3KB

batch_norm.h 28KB

fmha_kernel.h 4KB

ipc.cu 4KB

ln_bwd_semi_cuda_kernel.cu 16KB

multi_tensor_sgd_kernel.cu 8KB

transducer_loss.cpp 2KB

transducer_joint.cpp 2KB

layer_norm_cuda.cpp 6KB

self_multihead_attn.cpp 7KB

self_multihead_attn_bias_additive_mask.cpp 7KB

self_multihead_attn_bias.cpp 7KB

batch_norm_add_relu.cu 12KB

bottleneck.cpp 66KB

dropout.h 12KB

encdec_multihead_attn.cpp 9KB

LICENSE 1KB

xentropy_kernel.cu 24KB

amp_C_frontend.cpp 4KB

multi_tensor_distopt_adam_kernel.cu 7KB

encdec_multihead_attn_cuda.cu 25KB

multi_tensor_distopt_lamb_kernel.cu 15KB

ln_api.cpp 3KB

fused_adam_cuda_kernel.cu 34KB

transducer_loss_kernel.cu 26KB

multi_tensor_l2norm_kernel.cu 13KB

multi_tensor_adam.cu 4KB

strided_batched_gemm.h 34KB

masked_softmax_dropout_cuda.cu 6KB

fmha_fprop_kernel_1xN.h 13KB

utils.h 31KB

kernel_traits.h 5KB

multi_tensor_adagrad.cu 3KB

softmax.h 116KB

batch_norm_add_relu.h 26KB

cuda_utils.h 288B

pytorch_theme.css 2KB

nhwc_batch_norm_kernel.h 109KB

multi_tensor_axpby_kernel.cu 5KB

interface.cpp 7KB

fmha.h 3KB

multi_tensor_distopt_adam.cpp 560B

fmha_fprop_fp16_512_64_kernel.sm80.cu 3KB

Dockerfile 760B

fused_lamb_cuda.cpp 562B

共 341 条

善音

粉丝: 23
资源: 4611

NVIDIA发布Pytorch混合精度与分布式训练扩展

pytorch-distributed:pytorch 分布式训练的快速入门和基准测试

PyTorch Elastic ：PyTorch分布式训练框架-python

Pytroch深度学习分布式训练

Python-NVIDIA开源面向精简混合精度和分布式训练的Pytorch扩展

pytorch-1.2.0a0+8554416-cp36-cp36m-linux_aarch64.whl.zip

Anaconda+Pycharm环境下的PyTorch配置方法

Python库 | pythondata_cpu_mor1kx-5.0.post165-py3.8.egg

Python_KolmogorovArnold Network KAN的高效purePyTorch实现.zip

NVIDIA Jetson平台PyTorch深度学习框架部署指南

针对Jetson Nano的PyTorch和Torchvision 0.9.0发布

最新资源