平滑最大值单元：提高神经网络性能的激活函数

147 浏览量更新于2023-10-25 收藏 1.09MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

794平滑最大值单元：使用平滑最大值技术Koushik Biswas1，Sandeep Kumar1，2，Shilpak Banerjee3，Ashish KumarPandey11印度理工学院2德里大学Shaheed Bhagat Singh学院3印度理工学院Tirupati{koushikb，ashish.pandey}@ iiitd.ac.in，sandeepkumar@sbs.du.ac.in，shilpak@iittp.ac.in摘要深度学习研究人员对提出新的激活函数有浓厚的兴趣，这些函数可以提高神经网络的性能。一个好的激活函数的选择可以有显着的效果，提高网络的性能和训练动态。Rectified Linear Unit（ReLU）是一种流行的手工设计的激活函数，由于其简单性，它是深度学习社区中最常见的选择，尽管ReLU有一些缺点。在本文中，我们提出了两个新的激活函数的基础上的最大值函数的近似，我们称之为光滑的我们证明了SMU和SMU-1可以平滑地近似ReLU、Leaky ReLU或更一般的Maxout族，而GELU是SMU的一个特例。在CIFAR 100上，用SMU代替ReLU，Top-1分类准确率分别提高了6.22%、3.39%、3.51%和3.08分别使用ShuffleNet V2，PreActResNet-50，ResNet-50和SeNet-50模型进行数据集。此外，我们的实验评估表明，与广泛使用的激活函数相比，SMU和SMU-1在各种深度学习任务（如图像分类、对象检测、语义分割和机器翻译）中提高了网络性能。1. 介绍深度神经网络近年来出现了很多，并对我们的实际应用产生了重大影响。神经网络是深度学习的支柱。激活功能是神经网络的大脑，它在深度神经网络的有效性训练动态中起着核心作用手工设计的激活函数在神经网络模型中是相当常见的选择。ReLU [36]是一个广泛使用的手动设计的激活函数。尽管它很简单，但ReLU有一个主要的缺点，即所谓的垂死ReLU问题，其中高达50%的神经元可能在网络训练期间死亡。克服由于ReLU的缺点，近年来已经提出了大量的激活，Leaky ReLU [33] ， Parameter ReLU [12]， ELU [6]，Softplus [56]，Randomized Leaky ReLU [53]是其中的一些，尽管它们略微提高了ReLU的性能。Swish [41]是Google brain团队提出的非线性激活函数，它对ReLU有很好的改进。GELU [14]是另一个流行的平滑激活函数。可以证明Swish和GELU都是ReLU的平滑最近，已经提出了一些非线性激活，它们可以提高ReLU，Swish或GELU的性能。其中一些是手工设计的或Leaky ReLU函数的平滑近似，Mish [34]，ErfAct[2]，Pade '激活单元[35]，Orthogonal Pade'激活单元[1]是其中的一些。2. 相关工作和动机在深度神经网络中，激活在训练前是固定近年来，研究人员通过结合已知功能提出了几种激活方法。其中一些函数具有超参数或可训练参数。在可训练激活函数的情况下，在训练期间优化参数。Swish是一种流行的激活函数，可用作常量或可训练的激活函数，它在各种深度学习任务（如图像分类，对象检测，机器翻译等）中表现出良好的性能。GELU与Swish激活函数具有类似的属性，由于其在自然语言处理任务中的功效，它在深度学习社区中获得了普及。 GELU已用于BERT [8]、GPT- 2 [40]和GPT-3 [3]架构。Pade激活单元（PAU）是最近提出的，它是通过给定阶的有理多项式对Leaky ReLU函数的近似来构造的尽管PAU在图像分类问题上比ReLU、其变体和Swish提高了网络性能，但它有一个主要的缺点。PAU包含许多可训练的参数，这显著增加了网络的复杂性和计算量。795| |∫| |√→→→ ∞→| |√||√（三）2国家成本从这些工作的动机，我们提出了激活函数使用平滑最大值技术。最大-从下面近似x。该近似在实直线的紧子集上是一致的。这里，erf是高斯误差函数，定义如下：最小函数在原点是非光滑的。我们想探索最大值函数（可用作激活函数）的平滑逼近af-2xerf（x）=πe−t DT.影响网络的训练动态和性能。我们的实验评估表明，我们提出的激活函数比ReLU，Mish，Swish，GELU，PAU等相对更有效不同的深度学习任务。我们总结的文件如下：现在，在方程（1）中用xerf（µx）代替x函数，我们得到了如下的最大函数的光滑近似公式：（x1+x2）+（x1−x2）erf（µ（x1−x2））1. 我们提出了通过平滑最大值函数的激活函数。我们证明它可以近似-f1（x1，x2;µ）=.2（二）伙伴GELU，ReLU，Leaky ReLU或一般的Max-out家族。2. 我们表明，建议的功能优于广泛使用的激活函数在各种深学习任务。类似地，我们可以从方程（1）中导出最大函数的光滑逼近公式，|X|函数x2+µ2如下：（x1+x2）+μ（x1−x2）2+μ23. 平滑最大单位本文从极大值函数的光滑逼近出发，提出了光滑极大值单元（SMU）、光滑激活函数.使用的平滑近似|函数，可以找到一个通用的近似公式|function, one canfind a general approximating formula注意，作为μ，f1（x1，x2;μ）max（x1，x2）和µ0，f2（x1，x2;µ）max（x1，x2）.对于x1和x2的特定值，我们可以近似已知的激活函数。例如，考虑x1=ax，x2=bx，其中a=b在（2）中，我们得到：f（ax，bx; µ）=（a + b）x+（a-b）x erf（µ（a-b）x）。对于最大值函数，它可以平滑地逼近-1与Maxout [10]家族、ReLU、Leaky ReLU2（四）或其变体，Swish等。我们还表明，良好建立的GELU[14]功能可以得到作为SMU的特殊情况。3.1. 极大值函数的光滑逼近注意，最大值函数可以表示为以下两种不同的方式：这是Maxout族[ 10 ]中的简单情况，而通过考虑x1和x2的非线性选择可以找到更复杂的情况。我们可以类似地得到ReLU和 Leaky ReLU 的平滑近似。例如，考虑 x1=x 和x2=0，我们有ReLU的平滑近似如下：x+xerf（µx）f（x，0; µ）=.（五）12max（x，x）=.如果x1≥x2，则x12我们知道GELU [14]是一个光滑的近似，√1 2 x其他ReLU。请注意，如果我们选择µ= 1，2 在等式（5）中，我们=（x1+x2）+|x1−x2|2（一）可以恢复GELU激活功能，这也表明，GELU是ReLU的平滑近似同样，考虑x1=x和x2=αx，我们有一个光滑的近似注意，max函数在原点不可微使用平滑函数对x函数的近似，我们可以创建最大函数的近似。有许多已知的近似，|X|，但对于Leaky ReLU或Parameter ReLU，取决于α是一个超参数或可学习参数。（1 +α）x+（1−α）xerf（µ（1−α）x）在这篇文章的其余部分，我们将集中在两个具体的近似-images of x，即xerf（µx）和x2+µ2。我们注意到，使用这两个函数构造的激活-f1（x，αx;μ）=.2（六）在不同深度学习问题的标准数据集上提供了良好的性能（更多详细信息，请参见sup.js）。补充部分）。注意，x2+µ2作为µ→0近似|X|上，则x（x）。当μ→ ∞时，02f2（x1，x2;μ）=796注意，等式（5）和等式（6）从下面近似类似地，我们可以从等式（3）导出近似函数，其将从上面近似ReLU或Leaky ReLU。797→∞→∞→∞→n⊆n--联系我们图1.使用SMU（α=0）对不同µ值进行ReLU近似。作为µ，SMU平滑地逼近ReLU图2. Leaky ReLU（α=0. 25）对于不同的μ值使用SMU。 As µ，SMU顺利接近Leaky ReLU图3. SMU的一阶导数，α= 0。25和不同的μ值。对于输入变量x，方程（6）的相应导数为：并且方程（9）和（10）的梯度）对于方程（6）的参数α和μ可以计算如下：d1低点：dxf1（x，αx;µ）=2[（1 +α）+（1−α）erf（µ（1−α）x）2f1x xerf（µ（1−α）x）（1 −α）µx2e−（µ（1−α）x）222−（µ（1−α）x）α=2−2−+πµ（1−α）xed2−x]（七）（九）哪里dxerf（x）=<$π e.1 1122−（µ（1−α）x）图1、2和3显示了f1（x，0;μ）的曲线图，µ=（十）f1（x，0. 25x; μ），以及f1（x，0. 25x; µ），用于不同的µ值。从图中可以清楚地看出，作为μ，f1（x，αx; μ）根据α的值平滑地近似ReLU或LeakyReLU。我们将等式（6）中的函数称为平滑最大单元（SMU）。类似地，我们可以通过替换等式（3）中的x1=x和x2=αx来导出函数，我们称此函数为SMU-1。对于我们所有的实验，我们将使用SMU和SMU-1作为我们提出的激活函数。3.2. 通过反向传播学习激活参数可训练的激活函数参数使用反向传播[27]技术（参见[12]）根据以下公式进行更新：（8）对于单层，超参数ω是：α和μ可以是超参数，也可以是可训练参数。现在，注意具有SMU和SMU-1激活函数的神经网络类在C（K）中是稠密的，其中K是Rn的紧致子集，C（K）是K上所有连续函数的空间。这个证明是从下面的命题得出的（见[35]）。1.提案（定理1.1，Kidger和Lyons，2020 [20]）：-设ρ：RR是任何连续函数，第设Nρ表示具有激活函数ρ的神经网络类，在输入层中具有n个神经元，在输出层中具有一个神经元，并且具有任意数量的神经元的一个隐藏层设KRn是紧凑的。则Nρ在C（K）中稠密当且仅当ρ是非多项式的。4. 实验L=（八）我们报告了详细的实验评估，在接下来f（x）= 0X其中L是目标函数，ωα，μ和f（x）f1（x，αx; μ），f2（x，αx; μ）。我们在Pytorch[39] &Tensorflow-Keras [5] API中实现了前向传递，自动微分将更新参数。或者，基于CUDA [38]的实现（参见[33]）可以这篇文章的第一部分介绍了四种不同的深度学习问题，如图像分类、对象检测、语义分割和机器翻译。为了比较我们提出的激活函数的性能，我们考虑十个流行的激活函数作为基线函数。考虑以下激活来比较SMU和SMU-1的性能：ReLU [36]、Leaky ReLU [33]、ReLU 622798×××±[24]、参数化ReLU（PReLU）[12]、ELU [6]、Softplus[56] ， Swish [41] ， Mish [34] ， GELU [14] 和 PadeActivation Unit（PAU）[35]。对于所有实验，我们考虑Swish（x. Sigmoid（βx））、PReLU（max（x，ax））和PAU作为可训练激活函数。我们将Swish的可训练参数β初始化为1.0，将PReLU的a初始化为0.25。PAU函数有10个可训练参数，所有参数都按照[35]中的建议进行初始化。所有可训练参数都通过反向传播算法更新[27]。我们在以下章节中报告基线激活函数、SMU和SMU-1激活函数SMU-1是一种计算成本低的激活函数，因为它的形式简单，而与基线激活相比，它在所有实验中都能显著提高网络所有的实验都是在 NVIDIA Tesla V100 GPU 上进行的，内存为32GB。4.1. 图像分类我们在六个流行的基准数据集上报告了图像分类问题的结果： MNIST ， Fashion MNIST ， SVHN ，CIFAR10，CIFAR100和Tiny ImageNet。详细结果见以下小节。对于SMU，我们考虑α=0。25，一个恒定的超参数和μ作为可训练的参数，并初始化为1。0的情况。4.1.1MNIST、Fashion MNIST和SVHN在本节中，我们介绍了我们在 MNIST （ [29] ），Fashion MNIST（[51]）和SVHN（[37]）数据集上对SMU ， SMU-1 和其他基线激活的 MNIST 和 FashionMNIST数据库包含60k训练和10k测试28 28灰度图像。两个数据集都有十个不同的类。SVHN数据库拥有32 32RGB图像和73257训练图像和26032测试图像与10个不同的类。标准的数据增强方法，如缩放、旋转、高度移位、剪切应用于这三个数据集。我们考虑批量大小为128，初始学习率为0.01，并使用余弦退火（[31]）学习率调度器衰减学习率。我们使用随机梯度下降（[42]，[21]）优化器，具有0.9动量5e−4权重衰减，并训练了所有网络多达100个epoch。我们在表1中报告了VGG-16 [45]（具有批次归一化[19]）架构的15次不同运行平均值的结果（有关更详细的实验结果，请参见补充材料）。4.1.2CIFAR在本节中，我们报告了流行的图像分类数据集CIFAR10 [23]和CIFAR100 [23]的结果。这两个数据集都有5万张训练图像和1万张测试图像。CIFAR10有10个类，CIFAR100有100个类。在所有实验的这两个数据集中，我们考虑批量大小为128，0.01初始学习率和衰减使用余弦退火（[31]）学习率调度器的学习率，随机梯度下降（[42]，[21]）优化器具有0.9动量5e-4权重衰减，并训练所有网络多达200个epoch。我们考虑标准的数据增强方法，如水平翻转和旋转。表2和表3报告了CIFAR10 [23]和CIFAR100 [23]数据集上15次不同运行平均值的前1准确度（更多详细实验结果，请参见补充材料）。结果报告与MobileNet V1 [15]，MobileNetV2 [44]，Shuf- fleNet V1 [55]（SF V1），ShuffleNetV2 [32]，PreActRes- Net [13]，ResNet [11]，GoogleNet[47]，Inception V3 [48]，DenseNet [17]，挤压和激发网络（SeNet）[16]，SqueezeNet [18]，ResNext [52]，WideResNet [54]，Xception [4]，VGG [45]（带批量归一化[19]），AlexNet [25]、LeNet [28]和EfficientNet B0 [49]。从表2中可以清楚地看出，Top-1分类准确率提高了6.19%、6.22%、3.39%、3.51%、3.09%、3.40%当我们在CI-FAR 100数据集上分别使用ShuffleNet V2（1.0x），ShuffleNet V2（2.0x），PreActResNet-50，ResNet-50，ResNext，Xception和SeNet-50模型将ReLU替换为SMU时，则为3.08%。图4和图5显示了CIFAR100数据集上的学习曲线，其中Shuf-fleNet V2（2.0x）模型用于基线和建议的激活函数。4.1.3微型图像网络在本节中，我们报告了更具挑战性的数据集TinyImagenet [26]的分类问题结果。Tiny imagenet拥有大小为64 - 64的RGB图像，共有1，00，000张训练图像，10，000张验证图像和10，000张测试图像，共有200个类别。标准的数据增强方法，如旋转，水平翻转应用。我们考虑批量大小为64，初始学习率为0.1，每50个epoch后将学习率降低10倍。我们使用随机梯度下降（[42]，[21]）优化器，具有0.9动量5e-4权重decay，并训练所有网络多达200个epoch。使用 WideResNet 28-10 （ WRN 28-10 ） [54] 、DenseNet-121 [17]、ResNet-18和ResNet-50 [11]模型报告了结果，表4中报告了10次不同运行平均值的Top-1分类准确度所提出的函数的性能优于基线函数，并且结果是稳定的（平均标准差），并且我们在基线激活函数上得到了很好的改进。用SMU代替ReLU，我们在DenseNet-121、ResNet-18、ResNet-50和WideResNet 28-10模型上的Top-1分类准确率分别提高了2.56%、2.23%、2.31%和2.78%。4.2. 对象检测在本节中，我们报告了Pascal VOC数据集[9]上的对象检测问题的结果，其中使用了单次拍摄多次拍摄，799±激活函数MNISTFashion MNISTSVHNReLU九十九。53±0。07九十三79 ±0。15九十五97±0。14Leaky ReLU九十九。58±0。08九十三80 ±0。15九十六。02±0. 15PReLU99.55 ±0.0793.90 ±0.1796.10 ±0.16ReLU699.59 ±0.0693.93 ±0.1296.11 ±0.15ELU九十九。48±0。05九十三87 ±0 .01，P <0.05。16九十六。05±0. 17软加九十九。22±0。14九十三58 ±0。18九十五81±0。21Swish九十九。57±0。0594 17 ±0。11九十六。20±0。12Mish99.63±0.0494.25 ±0.1396.31 ±0.12格卢99.59±0.0494.22 ±0.1496.21 ±0.14Pau99.55±0.0794.09 ±0.1496.20 ±0.14SMU99.69±0.0494.48±0.1096.59±0.11SMU-199.65±0.0494.37±0.1496.43±0.14表1.比较SMU、SMU-1激活和其他MNIST、Fashion MNIST和SVHN数据集上的基线激活，以解决VGG 16架构上的图像分类问题。我们报告了15次不同运行的平均值的Top-1测试准确度（%）。表中报告了平均模型ReLUSMUSMU-1前1精度前1精度前1精度Shufflenet V2 0.5xShufflenetV21.0xShufflenetV21.5xShufflenetV22.0x62.07 ±0.2664.41 ±0.2567.20 ±0.2667.52 ±0.2566.67±0.2470.60±0.2172.68±0.1973.74±0.2065.60±0.2469.96±0.2272.05±0.2073.45±0.23PreActResNet 18PreActResNet 34PreActResNet 5073.18 ±0.2273.41 ±0.2473.89 ±0.2376.07±0.2076.21±0.2077.28±0.1775.72±0.2275.87±0.2176.85±0.20ResNet 18ResNet 34ResNet 5073.23 ±0.2673.33 ±0.2774.12 ±0.2475.22±0.2075.77±0.2077.63±0.2074.91±0.2075.59±0.2176.89±0.23SeNet 18SeNet 34SeNet 5074.77 ±0.2275.12 ±0.2276.09 ±0.2076.17±0.1776.79±0.1879.17±0.1675.44±0.2075.79±0.2178.45±0.20ResNext74.43 ±0.2277.52±0.1877.03±0.21MobileNet V1MobileNet V271.10 ±0.2674.17 ±0.2473.59±0.2276.31±0.1973.10±0.2276.03±0.19Xception71.22 ±0.2674.62±0.2374.11±0.23EffitientNet B076.60 ±0.2779.10±0.2278.77±0.23表2. SMU、SMU-1激活和其他基线激活在CIFAR 100数据集上用于图像分类问题的比较。我们报告了15次不同运行的平均值的Top-1测试准确度（%）。表中报告了平均值±Box Detector（SSD）300模型[30]，我们认为VGG- 16（具有批量归一化） [45] 是骨干网络。我们使用VOC2007和VOC2012作为训练数据，VOC2007作为测试数据集。该数据集包含20个不同的对象。我们考虑批量大小为8，初始学习率为0.001，并按照[30]中的报告衰减学习率800我们使用SGD（[42]，[21]）优化器，具有0.9动量5e-4权重衰减，并训练网络多达120000次迭代。我们不考虑任何预先训练的权重。我们在表5中报告了10次不同运行平均值的平均精密度（mAP）用SMU 代替ReLU，我们在测试数据集中的mAP提高了1%。801模型ReLUSMUSMU-1前1精度前1精度前1精度ShuffleNet V2 0.5xShuffleNetV21.0xShuffleNetV21.5xShuffleNetV22.0x88.40 ±0.2290.81 ±0.2491.21 ±0.2291.70 ±0.2090.63±0.1692.72±0.1893.42±0.1793.61±0.1490.39±0.1892.42±0.2092.27±0.1893.40±0.16PreActResNet 18PreActResNet 34PreActResNet 5093.57 ±0.2094.21 ±0.1794.30 ±0.1894.63±0.1595.12±0.1395.37±0.1194.52±0.1794.93±0.1494.94±0.12ResNet 18ResNet 34ResNet 5094.10 ±0.2094.22 ±0.1894.26 ±0.1894.78±0.1794.91±0.1695.38±0.1694.51±0.1994.77±0.1794.92±0.17SeNet 18SeNet 34SeNet 5094.29 ±0.2094.42 ±0.2094.55 ±0.1994.75±0.1795.27±0.1595.92±0.1294.56±0.1994.89±0.1795.22±0.17ResNext93.37 ±0.1894.52±0.1594.04±0.18MobileNet V1MobileNet V292.41 ±0.1494.22 ±0.1593.81±0.1195.50±0.0993.47±0.1195.27±0.10Xception90.51 ±0.2293.25±0.1792.59±0.20EffitientNet B095.10 ±0.1596.23±0.1096.11±0.12表3.SMU、SMU-1激活和CIFAR 10数据集上其他基线激活之间的比较，用于图像分类问题。我们报告了15次不同运行的平均值的Top-1测试准确度（%）。表中报告了平均值±图4.使用ShuffleNet V2（2.0x）模型在CIFAR 100数据集上训练和测试SMU、SMU-1和其他基线激活函数的前1精度曲线图5. SMU、SMU-1的前1列和试验损耗曲线和其他基线激活函数在CIFAR100数据集上使用ShuffleNet V2（2.0x）模型。802→激活函数DenseNet-121ResNet-18ResNet-50WideResNet28-10ReLU63.31 ±0.4759.12 ±0.4461.23 ±0.4663.74 ±0.40Leaky ReLU63.63 ±0.4859.40 ±0.4461.29 ±0.4463.61 ±0.42PReLU63.71 ±0.4659.59 ±0.4261.35 ±0.4463.78 ±0.44ReLU663.54 ±0.4959.49 ±0.4661.41 ±0.4463.72 ±0.43ELU63.51 ±0.4659.34 ±0.4461.49 ±0.4363.72 ±0.43软加63.01 ±0.5759.01 ±0.5760.93 ±0.5763.01 ±0.59Swish64.21 ±0.4060.05 ±0.4061.79 ±0.4164.58 ±0.41Mish64.47 ±0.4060.21 ±0.3962.07 ±0.4264.79 ±0.38格卢64.34 ±0.4260.21 ±0.4161.66 ±0.4264.39 ±0.40Pau64.04 ±0.4360.37 ±0.3961.72 ±0.4164.42 ±0.40SMU65.87±0.3761.35±0.3563.54±0.4066.52±0.35SMU-165.09±0.3860.93±0.3862.79±0.4065.25±0.37表4.在Tiny ImageNet数据集上比较SMU、SMU-1激活和其他基线激活，以解决图像分类问题。我们报告了10次不同运行的平均值的Top-1测试准确度（%）。表中报告了平均值±激活函数地图ReLU77.2 ±0.14Leaky ReLU77.2 ±0.13PReLU77.2 ±0.16ReLU677.1 ±0.15ELU75.1 ±0.18软加74.2 ±0.25Swish77.5 ±0.11Mish77.6 ± 0.11格卢77.5 ±0.12Pau77.4 ±0.14SMU78.2±0.09SMU-177.8±0.11表5.在Pascal VOC数据集上比较SMU，SMU-1激活和我们报告10次不同运行的平均值的mAP。表中报告了平均值±4.3. 语义分割在本节中，我们报告了在流行的CityScapes数据集[7]上的语义分割问题的实验结果。CityScapes [7]是一个流行的数据集，包括表6.在CityScapes数据集上比较SMU、SMU-1激活和其他基线激活，以解决语义分割问题。我们报告了10次不同运行的平均值的像素精度和mIOU表中报告了平均值±4.4. 机器翻译在本节中，我们报告机器翻译问题的结果这个问题处理的是文本或语音数据从一种语言到另一种语言在一年中不同的时间跨越50个不同城市的不同城市街道场景用于分割任务的标签注释跨越30多个类。我们认为U网模型[43]作为分割框架。该模型使用亚当优化器[22]进行训练，5e-3学习率，批量大小为32到250 epoch。我们在表6中报告了10次不同运行的像素准确度平均值和测试数据的平均交并比（mIOU）。没有任何人类的帮助WMT 2014英语德语数据集用于我们的实验。该数据库包含450万个训练句子。我们使用基于注意力的[50] 8头Transformer网络，Adam优化器[22]，0.1的辍学率[46]，并训练多达100000步。其他超参数保持相似- 如前所述[50]。我们使用BLEU评分指标在最新的2014年数据集上评估网络性能。我们报告的平均值10 dif-激活函数像素精度MiouReLU79.49 ±0.4669.31 ±0.28Leaky ReLU79.41 ±0.4169.64 ±0.42PReLU78.95 ±0.4268.88 ±0.41ReLU679.58 ±0.4169.70 ±0.42ELU79.48 ±0.5068.19 ±0.40软加78.45 ±0.5268.08 ±0.49Swish80.22 ±0.4669.81 ±0.30Mish80.59 ±0.4470.12 ±0.30格卢80.14 ±0.3769.59 ±0.40Pau79.89 ±0.3969.31 ±0.44SMU81.79±0.3671.11±0.30SMU-180.75±0.4170.55±0.30803ReLU±×基线ReLU泄漏ELU Softplus PReLU ReLU 6 Swish Mish GELU PAUSMU>基线80 80 80 80 80 77 76 77 78SMU=基线0 0 0 0 0 0 0 0SMU基线0 0 0 0 0 0 3 4 3 2<表7. SMU基线表。这些数字表示与基线激活函数在测试数据集上的表8上运行（newstest2014）。该表显示，结果在不同的运行中是稳定的（平均标准差），我们得到了大约0。与ReLU 相比， SMU的BLEU评分提高了6%激活函数BLEU分数ReLU26.2 ±0.14Leaky ReLU26.3 ±0.15PReLU26.2 ±0.18ReLU626.1 ±0.14ELU25.1 ±0.14软加23.6 ±0.18Swish26.4 ±0.11Mish26.3 ±0.12格卢26.4 ±0.15Pau26.3 ±0.15SMU26.8±0.11SMU-126.6±0.10表8.SMU，SMU-1激活和其他基线激活在WMT 2014数据集上的机器翻译问题的比较我们报告10次不同运行的平均值的BLEU评分表中报告了平均值±5. 基线表SMU和SMU-1是利用极大值函数的光滑化构造的新的激活函数. 为为了进行详细的比较，我们在前面章节中给出的表7和补充材料中报告了所有实验的总结。从表7中可以很清楚地看到，所提出的函数几乎在所有实验中都优于基线函数6. 计算时间比较在本节中，我们报告了SMU、SMU-1和基线激活函数的计算时间计算。我们在表9中报告了100次运行的平均值的结果，32 32ResNet-18 [11]模型中的RGB图像，用于向前和向后传递。实验在具有32GB RAM的NVIDIA Tesla V100GPU上进行从实验部分和表9中可以注意到，与ReLU或其变体相比，计算时间和模型性能之间的折衷很小。提议的激活显著提高了模型的性能，尽管它的计算时间略高于ReLU或其变体（由于非线性和可训练参数μ）。相比之下，计算时间与Swish、MishGELU等流行的非线性激活类似，并且比PAU好得多，而几乎在所有情况下，模型性能同时都比这四种流行的非线性激活激活功能向前传球向后传递ReLU6.43±0.31µ s6.28±0.74µ sLeaky ReLU6.49±0.41µ s6.41±0.95µ sPReLU8.20 ±1.57µ s9.26±1.86µ sReLU66.45±0.45µ s6.41±0.91µ sELU6.51±0.50µ s6.42±0.88µ s软加6.49±0.49µ s6.40±0.55µ sMish10.02± 1.79µ s11.97± 1.75µ s格卢10.75± 1.49µ s12.49± 1.77µ sSwish10.47± 1.10µ s12.61± 1.22µ sPau18.45± 3.40µ s25.99± 5.06µ sSMU10.74± 1.29µ s12.95± 1.54µ sSMU-19.68±1.81µ s11.98± 1.49µ s表9.ResNet-18模型中32×32 RGB图像的SMU和SMU-1向前和向后传递以及其他基线激活函数的对比7. 结论这项工作使用最大平滑技术来近似Leaky ReLU，这是一个完善的激活函数（在0处不可微），由两个平滑函数组成。我们称这两个函数为SMU和SMU-1，并将它们用作激活函数的潜在候选者。我们的实验评估表明，所提出的函数在众所周知的深度学习问题中击败了传统的激活函数，并有可能取代它们。804引用[1] Koushik Biswas ，Shilpak Banerjee，and Ashish KumarPandey. Mononal-Pade激活函数：可训练的激活函数，用于深度网络中的平滑和更快收敛1[2] Koushik Biswas ， Sandeep Kumar ， Shilpak Banerjee ，and Ashish Kumar Pandey. Erfact和pserf：非单调平滑可训练激活函数，2021年。1[3] 汤姆湾Brown，Benjamin Mann，Nick Ryder，MelanieSub biah ， Jared Kaplan ， Prafulla Dhariwal ， ArvindNeelakan-tan ， Pranav Shyam ， Girish Sastry ， AmandaAskell ， Sand- hini Agarwal ， Ariel Herbert-Voss ，Gretchen Krueger ， Tom Henighan ， Rewon Child ，Aditya Ramesh ， Daniel M.Ziegler 、 Jeffrey Wu 、Clemens Winter、Christopher Hesse、Mark Chen、EricSigler、Mateusz Litwin、Scott Gray、Benjamin Chess、Jack Clark、Christopher Berner、Sam McCandlish、AlecRadford、Ilya Sutskever和Dario Amodei。2020年，语言模型是少数学习者。1[4] 弗朗索瓦·肖莱。Xception：Deeplearningwithdependentlyseparable convolutions，2017年。4[5] Francois Chollet et al.K 时代 https://keras.io ，2015年。3[6] Djork-Arne 'Clevert ， Thomas Unterthiner ， and SeppHochre- iter.使用指数线性单元（elus）进行快速准确的深度网络学习，2016年。1、4[7] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele. 2016年城市场景语义理解数据集。7[8] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。Bert：深度双向转换器的语言理解预培训，2019年。1[9] 放大图片作者： Mark Everingham ， Luc Gool ，Christopher K. Williams ， John Winn ， and AndrewZisserman. pascal视觉对象类（voc）的挑战。国际计算机Vision，88（2）：303-338，June 2010. 4[10] 伊恩·JGoodfellow，David Warde-Farley，Mehdi Mirza，Aaron Courville，and Yoonge Bengio.Maxout网络，2013年。2[11] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.图像识别的深度残差学习，2015。四、八[12] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun. 深入研究整流器：在imagenet分类上超越人类水平一、三、四[13] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.深度残差网络中的身份映射，2016。4[14] 丹·亨德里克斯和凯文·金佩尔。高斯误差线性单位（gelus），2020年。一、二、四[15] Andrew G. Howard，Menglong Zhu，Bo Chen，DmitryKalenichenko，Weijun Wang，Tobias Weyand，MarcoAn- dreetto，and Hartwig Adam. Mobilenets：用于移

下载后可阅读完整内容，剩余1页未读，立即下载