FPGA优化YOLOv3:提升高分辨率遥感图像棕榈树检测的精度与效率

需积分: 11 2 下载量 21 浏览量 更新于2024-08-06 收藏 5.92MB PDF 举报
本文主要探讨了FPGA在高分辨率遥感图像中棕榈树检测的应用,提出了通过算法优化和硬件加速来解决深度学习在该领域存在的准确率低和效率低的问题。研究以YOLOv3目标检测算法为研究对象,采用扩大特征选择和多尺度特征融合的策略,提升了算法对高分辨率棕榈树检测的准确性。同时,针对前向推理过程中的功耗限制,设计了一个基于SIMD的高效卷积计算引擎,实现了权重整形8位量化和计算核心复用,以达到性能优化。此外,输入模块也进行了加速改进,通过输入图片的维度变化和向量化处理,提高了总线带宽的利用率。实验结果显示,优化后的模型准确率提升至97.84%,在Intel Arria 10 FPGA平台上能达到1.4TOPS的性能,相比i9-9980XE CPU,性能提升7.51倍,能效提高33.02倍,与NVIDIA P40加速器相比,能效比也有所增加。 文章详细介绍了针对深度学习棕榈树检测的挑战,首先在算法层面,研究人员选择了YOLOv3作为基础,通过增加特征选择的范围和增强多尺度特征融合,使得算法能够更准确地识别高分辨率遥感图像中的棕榈树。这种优化策略有助于减少误检和漏检,提高棕榈树检测的精确性。 其次,为了应对功耗限制和提高推理速度,研究者设计了一个基于SIMD(单指令多数据)的卷积计算引擎。这一设计允许在8位量化权重下执行计算,减少了计算资源的消耗,同时通过计算核心的复用,进一步提升了处理效率。此外,对输入模块的优化包括将输入图像进行维度调整和向量化,以优化数据传输,充分利用总线带宽,从而加快了整个系统的运行速度。 实验结果显示,这些优化措施显著提升了模型的性能。经过算法和硬件优化的YOLOv3模型,其检测准确率达到了97.84%,在Intel Arria 10 FPGA上实现了1.4 TOPS的运算性能。相比于传统CPU(如i9-9980XE),其性能提升了7.51倍,能效提升了33.02倍,即使与专门用于推理加速的NVIDIA P40 GPU相比,该FPGA解决方案在能效方面也有1.2倍的优势。 本文通过FPGA实现的硬件加速器设计,结合深度学习算法优化,为高分辨率遥感图像中的棕榈树检测提供了一种高效且准确的解决方案。这种方法不仅提高了检测准确率,还显著降低了功耗,具有广阔的应用前景。