Winograd快速卷积：原理、挑战与进展概述

版权申诉

180 浏览量更新于2024-06-28 收藏 329KB DOCX 举报

Winograd快速卷积是一种旨在加速卷积神经网络（CNN）计算的高效算法，它最初由Winograd在1980年针对有限脉冲响应滤波提出最小滤波算法。该算法的核心思想是通过线性变换将原始卷积操作中的乘法运算减少，例如在F(2,3)的例子中，通过最小滤波方法将6次乘法降至4次，从而降低了计算复杂度。在CNN中，Winograd卷积的应用主要集中在卷积层，它通过将输入特征图和卷积核映射到特定的空间，使得原本的卷积运算变为位置相关的乘法，然后通过逆线性变换得到输出。这个过程虽然减少了乘法次数，但增加了加法运算，但通常在现代处理器上，加法的效率更高，因此整体上提升了模型的运行速度。然而，Winograd卷积并非适用于所有情况，其局限性主要表现在：它仅适用于单位步长、较小卷积核的二维卷积，对于大卷积核，可能存在数值稳定性问题；同时，优化快速卷积算子在特定硬件平台上的并行性和数据局部性方面颇具挑战；此外，Winograd卷积与深度学习模型的其他优化技术如权重剪枝和量化结合不紧密，这在资源受限或注重能耗的设备上实施时有所困难。为了克服这些难题，研究者们不断探索算法的扩展、优化和实现策略。算法拓展方面，努力寻找更广泛的适用场景，如处理不同类型的滤波器和卷积结构。在算法优化上，如何更好地利用硬件特性，比如多核并行处理和流水线设计，是关键课题。实现与应用层面，研究人员正在寻求与现有框架的无缝集成，以便在实际项目中无缝替换传统卷积运算。尽管已经取得了一些进展，但当前尚未有全面的综述文章系统地整理和总结Winograd快速卷积的相关研究成果。本文正是为了填补这一空白，从算法理论、实践优化以及未来可能的研究方向三个维度，全面回顾了Winograd卷积的发展，并为后续研究提供了有价值的参考。未来的研究可能会进一步探索如何改善Winograd算法的通用性，如何降低其与现有技术的兼容性问题，以及如何在更多元化的应用场景中挖掘其潜力。

基本的 Winograd 卷积仅支持 r=3 和 r=2 的二维卷积算子,且切片大小不超

过 6, 无法满足现代 CNN 中丰富的卷积算子类型 , 需要对其进行一般化。

Winograd 卷积的一般化主要分为四个方向,分别是支持任意维度、支持任意切

片大小、支持任意常规卷积、支持特殊卷积。

三维卷积是三维 CNN 的主要组件,常用于处理空间相关的信息。通过对一

维 Winograd 卷积进行嵌套,可以得到其二维形式,重复进行嵌套则可以得到任

意维度的 Winograd 卷积。Budden 等

[7]

给出了 N 维 Winograd 卷积的一般形式,

并将二维 Winograd 卷积视为特殊情况在 CPU 上实现,但并未实现三维的情况。

其他研究者

[8 ⇓ ⇓ ⇓ -12]

使用了同样的嵌套方法 , 并针对特定平台完成了三维

Winograd 卷积的实现。由于不同维度上算法的实现有统一性,Shen 等

[13-14]

提出

了二维、三维统一的现场可编程逻辑门阵列（ field pro-grammable gate

array,FPGA）模板实现。Deng 等

[15]

提出了可变分解方法,支持三维卷积的同时

也支持了非单位步长的卷积。

更大的切片大小会减少切片之间的重叠部分,但同时也会带来更大的数值

误差,因此在对精度要求不太严格的场合会直接使用更大的切片尺寸以提升性

能。大尺寸的卷积核也在卷积网络模型中经常出现,通常为了保持 Winograd 卷

积的精度,这里卷积也会被替换为小尺寸的卷积。Lu 等

[16]

在 FPGA 上评估了大

尺寸切片分别在 r=3 和 r=5 下的精度情况,实验表明小的切片尺寸在 r=3 时可以

保持模型的高精度。Huang 等

[17]

也完成了类似的工作。Mazaheri 等

[18]

则基于

符号编程构建了支持不同硬件后端的实现,同时也支持不同尺寸的切片。

此类直接实现的方法会在大尺寸切片和大尺寸卷积核上显著损失精度,因

此将这类卷积分解为更小的卷积成为了研究者常用的方法。Yang 等

[19]

使用分

解方法统一了常规卷积、depth-wise 卷积以及分组卷积,而大切片尺寸

[20]

、大

卷积核卷积

[21⇓ ⇓ ⇓ -25]

和非单位步长卷积

[15,20,22⇓ -24,26⇓ -28]

也都可以通过分解方法转换

为基本的 Winograd 卷积。常用的分解单元实现包括等。Liu 等

[29]

同样基于分

解方法,在 FPGA 上实现了使用相同资源支持任意卷积核大小的 Winograd 卷

积。利用大卷积核上计算的对称性,Sabir 等

[30]

使用近似计算技术支持了 r=5 大

小的卷积核。

包括空洞卷积和转置卷积在内的特殊卷积常用于图像分割、超分辨率等领

域。空洞卷积的 Winograd 形式被提出用于支持扩张为 2 和 4 的情况

[31]

,原理是

剩余17页未读，继续阅读

罗伯特之技术屋

粉丝: 4459
资源: 1万+

Winograd快速卷积：原理、挑战与进展概述

面向飞腾多核处理器的Winograd快速卷积算法优化.pdf

Winograd快速卷积算法论文的配套胶片

使用opengles实现Winograd卷积

基于Winograd算法的卷积神经网络 硬件加速研究

基于tensorflow,使用winograd算法改进深度可分离卷积

使用winograd算法改进深度可分离卷积

Coppersmith-Winograd算法的相关资料

基于tensorflow2.5,使用winograd算法编写一个可以直接插入神经网络使用的优化的深度可分离卷积模块并示例如何使用

基于tensorflow2.5,使用winograd算法编写一个可以直接插入神经网络使用的优化的深度可分离卷积模块并进行代码注释，然后示例如何在神经网络中使用

最新资源

基于Winograd算法的卷积神经网络硬件加速研究