腾讯NCNN新进展：CUDA GPU推理支持带来性能飞跃

需积分: 49 56 浏览量更新于2024-12-15 收藏 11.71MB ZIP 举报

资源摘要信息:"ncnn-with-cuda:腾讯NCNN增加了CUDA支持" 1. NCNN框架介绍 NCNN是一个为手机端优化的神经网络前向推理框架，由腾讯研究院的多媒体实验室开发。NCNN致力于为移动设备提供高效的计算能力，从而使得深度学习在移动和嵌入式设备上得到更广泛的应用。该框架专门针对手机CPU的计算特点进行优化，使得在没有高性能GPU或云计算资源的情况下，也能流畅运行深度学习模型。 2. CUDA技术概述 CUDA（Compute Unified Device Architecture）是NVIDIA推出的一种通用并行计算架构，它使得开发者能够利用NVIDIA的GPU来解决复杂的计算问题。CUDA架构允许开发者直接在GPU上执行代码，大大提高了数据处理速度。通过CUDA，GPU可以作为并行数据处理器来执行复杂的数据计算任务，这对于科学计算、图像处理、深度学习等计算密集型任务有显著的加速作用。 3. 项目扩展——NCNN增加CUDA支持腾讯NCNN项目通过增加CUDA支持，实现了在NVIDIA GPU上的推理加速。这意味着用户可以在拥有CUDA兼容GPU的设备上，利用NCNN框架进行深度学习模型的高效推理。这在边缘计算和移动AI应用中尤其有价值，因为它能够提高处理速度和响应效率。 4. CUDA支持实现的层在NCNN框架中，已经实现了多种CUDA支持的层，包括但不限于： - AbsVal（绝对值层） - BatchNorm（批归一化层） - Bias（偏置层） - BinaryOp（二元操作层） - BNLL（双曲正切线性单元层） - Concat（连接层） - 卷积（Convolution）及其变种如深度可分离卷积（ConvolutionDepthWise） - 裁剪（Crop） - 展平（Flatten） - 内部产品（InnerProduct） - 输入（Input） - 包装（Padding） - 填充（Pack） - 合并（Merge） - 量化（Quantize） - ReLU（线性整流单元层） - 重塑（Reshape） - Softmax（归一化指数函数层） - 拆分（Split） 5. 近期发展计划该框架的开发团队正在计划进一步扩展对CUDA层的支持，包括： - Eltwise（元素操作层） - HardSigmoid（硬Sigmoid层） - HardSwish（硬Swish层） - Interp（插值层） - Scale（缩放层） - Yolov3DetectionOutput（YOLOv3检测输出层）此外，团队的目标之一是进一步优化现有的CUDA层，以期达到甚至超越Vulkan性能水平。对于那些因为缺乏某些CUDA层实现而导致执行速度下降的应用案例，团队也在努力通过优化CPU和GPU之间的数据交互来解决这个问题。 6. Develop分支与新层开发 Develop分支主要用于项目的主动开发，开发者可以在该分支上进行新功能和新层的开发工作。这为社区贡献者提供了参与NCNN项目并将其扩展到更多场景的机会。 7. C++语言的应用由于NCNN框架使用C++语言进行开发，因此它能够更好地兼容和利用NVIDIA的CUDA SDK。C++是一种支持面向对象、泛型编程和多态等编程范式的高效语言，特别适合用于开发具有高性能需求的复杂系统，如深度学习框架和工具。 8. 结语通过将CUDA支持集成到NCNN框架中，腾讯NCNN为开发者提供了一个强大的工具，以充分利用GPU的计算能力，尤其是在边缘计算和移动设备上进行深度学习任务时。这种集成不仅提高了推理效率，也扩展了NCNN的应用范围，使其在工业界和学术界得到更广泛的认可和应用。随着新的CUDA层的不断实现和现有层的优化，NCNN框架将在AI和深度学习领域发挥更大的作用。

收起资源包目录

ncnn-with-cuda:腾讯NCNN增加了CUDA支持（1187个子文件）

hisiv300.toolchain.cmake 1KB

binaryop_broadcast_pack4.comp 7KB

ncnn_generate_avx2_source.cmake 511B

convolution_pack4_1x1s1d1.comp 8KB

iosxc.toolchain.cmake 1KB

squeezenet_v1.1.param.bin 4KB

ncnn_generate_shader_comp_header.cmake 882B

padding_pack4to1.comp 11KB

permute_pack8to4.comp 8KB

reshape_pack8.comp 10KB

permute_pack8.comp 11KB

crop_pack8to4.comp 10KB

.astylerc 623B

mips64el-linux-gnuabi64.toolchain.cmake 523B

normalize_reduce_sum4_fp32_pack8.comp 14KB

packing_pack1to8_fp16_to_fp32.comp 8KB

host-c.clang.toolchain.cmake 764B

tf_types.cc 16KB

permute_pack8to1.comp 10KB

convolution_pack8_3x3s1d1_winograd23_transform_output.comp 9KB

deconvolutiondepthwise_group_pack8to4.comp 7KB

arm-linux-gnueabihf.toolchain.cmake 568B

padding_pack8.comp 13KB

iossimxc-x64.toolchain.cmake 2KB

jetson.toolchain.cmake 938B

reshape_pack4to8.comp 9KB

convolution_pack8_1x1s1d1.comp 13KB

mips-mti-linux-gnu.toolchain.cmake 790B

convolution_pack8_3x3s1d1_winograd23_gemm.comp 9KB

host-c.gcc.toolchain.cmake 758B

slice_pack1to8.comp 7KB

mipsisa32r6el-linux-gnu.toolchain.cmake 532B

padding_pack1to4.comp 11KB

pi3.toolchain.cmake 170B

himix100.toolchain.cmake 1002B

convolution_pack8_3x3s1d1_winograd23_transform_input.comp 7KB

permute_pack4to8.comp 11KB

iossimxc.toolchain.cmake 2KB

riscv32-unknown-elf.toolchain.cmake 673B

normalize_reduce_sum4_fp16_to_fp32_pack8.comp 17KB

ncnn_add_shader.cmake 1KB

host.gcc.toolchain.cmake 526B

hisiv500.toolchain.cmake 1KB

padding_pack4to8.comp 47KB

normalize_reduce_sum4_fp16_to_fp32.comp 12KB

host.gcc-m32.toolchain.cmake 478B

crop_pack4to8.comp 14KB

packing_pack8to1_fp16_to_fp32.comp 8KB

binaryop_broadcast.comp 9KB

aarch64-linux-gnu.toolchain.cmake 512B

iosxc-arm64.toolchain.cmake 1KB

host.clang-m32.toolchain.cmake 484B

convolution_pack4_3x3s1d1_winograd23_transform_output.comp 8KB

deconvolutiondepthwise_group_pack8.comp 9KB

powerpc64le-linux-gnu.toolchain.cmake 530B

convolution_pack4to8.comp 7KB

normalize_reduce_sum4_fp16_to_fp32_pack4.comp 12KB

packing_pack1to8_fp32_to_fp16.comp 8KB

squeezenet_v1.1.bin 4.71MB

.clang-format 4KB

permute_pack1to8.comp 10KB

build-android.cmd 3KB

squeezenet_v1.1.caffemodel 4.72MB

padding_pack8to4.comp 28KB

mipsisa64r6el-linux-gnuabi64.toolchain.cmake 616B

deconvolutiondepthwise_group_pack4to8.comp 8KB

mipsel-linux-gnu.toolchain.cmake 507B

arm-linux-gnueabi-c.toolchain.cmake 688B

ncnn_generate_shader_spv_header.cmake 42KB

convolutiondepthwise_group_pack4to8.comp 8KB

tf_attributes.cc 4KB

arm-linux-gnueabi.toolchain.cmake 580B

normalize_reduce_sum4_fp32.comp 11KB

ncnn_add_layer.cmake 18KB

riscv64-linux-gnu.toolchain.cmake 510B

padding_pack1to8.comp 16KB

deconvolution_pack4to8.comp 8KB

aarch64-linux-gnu-c.toolchain.cmake 620B

ncnn_generate_arm82_source.cmake 514B

packing_pack8to1_fp32_to_fp16.comp 8KB

padding_pack8to1.comp 11KB

hisiv600.toolchain.cmake 1022B

padding.comp 8KB

convolutiondepthwise_group_pack8.comp 8KB

convolution_pack8.comp 8KB

deconvolution_pack8.comp 8KB

binaryop_broadcast_pack8.comp 8KB

packing_pack8to1.comp 7KB

convolution_pack4_3x3s1d1_winograd23_transform_input.comp 7KB

permute_pack4.comp 8KB

padding_pack4.comp 12KB

ios.toolchain.cmake 21KB

deconvolutiondepthwise_group_pack4.comp 7KB

flatten_pack8.comp 8KB

run_test.cmake 275B

host.gcc-c++03.toolchain.cmake 459B

packing_pack1to8.comp 8KB

normalize_reduce_sum4_fp32_pack4.comp 11KB

riscv64-unknown-elf.toolchain.cmake 673B

himix200.toolchain.cmake 1KB

共 1187 条

步衫

粉丝: 33
资源: 4640

腾讯NCNN新进展：CUDA GPU推理支持带来性能飞跃

gpucut:使用 CUDA 通过多边形裁剪线和圆

Android人体检测

ncnn在Android的一个测试，包含了人脸检测(face detection)，人脸属性(face attributes)，人脸识别(face recognition)。-C/C++开发

realsr-ncnn-vulkan:使用ncnn库实现RealSR超分辨率

ncnn-mtcnn：这是一个基于ncnn的mtcnn项目

腾讯深度学习框架ncnn-demo-vs2015

NanoDet-ncnn-Jetson-Nano

ncnn-assets.zip

YOLOv5_NCNN-master.zip

ncnn-lib win x64 C头文件

最新资源