Tensile：利用基准驱动提升GPU上GEMM和张量收缩的性能

需积分: 25 89 浏览量更新于2024-12-24 收藏 12.12MB ZIP 举报

资源摘要信息: "拉伸：为GEMM和张量收缩扩展GPU性能" 在深度学习与高性能计算领域中，GEMM（通用矩阵乘法）是一个极其重要的操作，它是许多复杂算法和模型的基础，比如神经网络的前向传播和反向传播计算。GEMM的性能直接影响到训练和推理的速度，因此优化GEMM算法对于提高GPU的计算效率至关重要。本资源将关注于如何利用基准驱动的后端库来扩展GPU性能，特别是针对GEMM和张量收缩操作。张量收缩是深度学习中常见的一种运算，涉及到降低张量的阶（例如，从三维收缩为二维）。它在神经网络的多种操作中扮演着关键角色，例如卷积层的输出计算、循环神经网络的时间步长计算等。张量收缩的性能优化同样对整体计算效率有显著影响。实现高效的GEMM和张量收缩需要充分考虑GPU架构的特性和优势，比如使用向量化的操作和高效利用GPU的内存层次结构。这通常涉及到底层的编程技术，如使用CUDA或OpenCL等并行计算框架。文档提及的“基准驱动的后端库”可能是指一套系统，它能够基于性能基准测试结果来自动调整和优化计算策略，以适应不同的硬件平台和计算任务。使用Python作为开发语言，可以在保持开发效率的同时，利用其丰富的科学计算库来完成复杂的数值计算。Python在机器学习领域非常流行，拥有像TensorFlow、PyTorch等强大的框架，这些框架内部就实现了高效的GEMM和其他矩阵运算。文档中的“radeon-open-compute”和“hip”标签暗示了AMD GPU硬件在本资源中的潜在应用，并可能涉及到了Radeon Open Compute (ROCm)平台和Heterogeneous-Compute Interface for Portability (HIP)工具，这些都是AMD在推动GPU开放计算领域中的技术。本资源还可能涉及到DNN（深度神经网络）和BLAS（基础线性代数子程序）的相关内容。DNN是深度学习算法的主体，而BLAS是进行科学计算的基础库，其提供的矩阵运算接口是许多高级数学库和机器学习库的底层实现。高效的GEMM实现对于BLAS库的性能至关重要。机器学习（ML）和深度学习（DL）的加速通常依赖于GPU提供的高性能计算能力，而GEMM作为DL中的核心操作，其优化对提升整体性能至关重要。对于想要深入了解和利用GPU进行科学计算的研究人员和技术人员来说，本资源提供的工具和方法将是宝贵的资源，能够帮助他们更好地理解如何通过自动化和基准测试来提升计算效率。综合以上信息，这份资源详细地探讨了GEMM和张量收缩在GPU上的性能扩展，以及相关的技术栈和工具，比如Python、AMD的GPU计算平台ROCm、HIP以及深度学习框架。此外，它还涉及了自动调优机制，这是在优化复杂硬件上运行的软件时不可或缺的一部分。通过这些技术，开发者可以构建出高性能的数值计算后端，以加速机器学习模型的训练和推理过程。

资源目录

收起资源包目录

Tensile：利用基准驱动提升GPU上GEMM和张量收缩的性能（1350个子文件）

Utils_test.cpp 3KB

TensileCreateLibrary.cmake 7KB

TestData.cpp 4KB

EmbeddedData.cpp 1KB

FindSolution.cpp 1KB

DataInitialization.cpp 17KB

deep_bench_nt_batched.csv 186B

MessagePack.cpp 5KB

TensileLibrary_gfx906.co 0B

Client.cpp 15KB

.clang-format 3KB

KernelArguments_test.cpp 5KB

DataInitialization_test.cpp 12KB

Dockerfile 1KB

KernelLanguageTypes.cpp 5KB

HipSolutionAdapter.cpp 13KB

TensileLibrary_gfx803.co 0B

DataTypes.cpp 6KB

FindHIP.cmake 4KB

EnableWarnings.cmake 9KB

KernelLanguagePredicate_test.cpp 4KB

ProgressListener.cpp 6KB

FindROCmSMI.cmake 2KB

hipModuleLoadTiming.cpp 3KB

dockerfile-tensile-rocm-terminal 2KB

PerformanceReporter.cpp 7KB

EmbeddedLibrary.cpp 2KB

ArithmeticUnitPredicate_test.cpp 4KB

TimingEvents.cpp 3KB

ContractionLibraryLoading_test.cpp 3KB

SolutionIterator.cpp 9KB

BenchmarkTimer.cpp 8KB

dockerfile-run-centos-7 2KB

AMDGPU.cpp 3KB

Utils.cpp 2KB

LibraryPerformance_test.cpp 9KB

FindOpenCL.cmake 6KB

Reference.cpp 30KB

dockerfile-tensile-hip-hcc-ctu-ubuntu-16.04 2KB

FindHCC.cmake 2KB

Tensile.cpp 4KB

winners.awk 2KB

TensileConfig.cmake 9KB

ReferenceValidator.cpp 25KB

Doxyfile 106KB

main.cpp 30KB

ContractionProblem_test.cpp 14KB

dockerfile-tensile-tuning-slurm 4KB

EmbeddedData_test.cpp 3KB

dockerfile-build-centos-7 2KB

TensileLibrary_gfx908.co 0B

TensorOps.cpp 3KB

ProjectedPerformance_test.cpp 7KB

KernelArguments.cpp 4KB

deep_bench_tn.csv 1KB

DataTypes_test.cpp 6KB

RunGEMMKernelTileSelection_test.cpp 11KB

ConvolutionProblem.cpp 26KB

ClientProblemFactory.cpp 10KB

TestData_test.cpp 2KB

Tools.cpp 4KB

TensileLibrary_gfx1010.co 0B

MetaRunListener.cpp 8KB

example_gemm_ext2-tn.cpp 8KB

HipSolutionAdapter_test.cpp 7KB

RunGEMMKernel_test.cpp 30KB

CachingLibrary_test.cpp 35KB

TensileLibrary_gfx900.co 0B

SolutionHelper.cpp 6KB

deep_bench_nn.csv 2KB

deep_bench_nt.csv 156B

dockerfile-build-ubuntu-rock 3KB

HardwareMonitor.cpp 15KB

ContractionSelectionLibrary_test.cpp 8KB

MathTemplates.cpp 20KB

ResultReporter.cpp 2KB

TensorDescriptor.cpp 4KB

YAML.cpp 118B

Debug.cpp 3KB

ResultFileReporter.cpp 11KB

TensorDescriptor_test.cpp 8KB

LLVMYAMLContraction_test.cpp 6KB

TensileLibrary_gfx1011.co 0B

ContractionFitness_test.cpp 3KB

ContractionProblem.cpp 50KB

HipHardware.cpp 2KB

HardwareMonitorListener.cpp 4KB

CSVStackFile.cpp 6KB

deep_bench_nn_batched.csv 3KB

test.cpp 2KB

dockerfile-build-nvidia-cuda-8 3KB

DeterministicModePredicate_test.cpp 3KB

ArithmeticUnitTypes.cpp 4KB

TensileConfigVersion.cmake 3KB

CopyTensor_test.cpp 2KB

ContractionSolution.cpp 46KB

Loading.cpp 4KB

.dir-locals.el 851B

deep_bench_tn_batched.csv 1KB

dockerfile-build-hip-hcc-ctu-ubuntu-16.04 2KB

共 1350 条

佳同学

粉丝: 35
资源: 4583

Tensile：利用基准驱动提升GPU上GEMM和张量收缩的性能

MIOpenGEMM_OpencL_GPU_GEMM_amd_

cublas_benchmarks：一些测试gemm和gemv性能的基准

nervana_theano:由 nervanagpu 提供的用于 GEMM 和卷积运算的快速 Maxwell 内核的基本包装器

wygemm:王毅的简单快速GEMM用于小矩阵

GEMM.rar_GEMM

tvm-使用tvm+gpu优化矩阵乘法GEMM的实现-附完整源码.zip

GemmKernels.jl:Julia中灵活高效的GEMM内核

nervana_theano: 快速Maxwell内核包装器，助力GEMM和卷积运算

Assertion failed (a_size.width == len) in cv::gemm

tensorflow1.0版本模型运行中出现error：Internal: Blas GEMM launch failed

最新资源