没有合适的资源?快使用搜索试试~ 我知道了~
5324Serf:使用log-Softplus ERror激活函数多伦多大学多伦多大学nagsayan112358@gmail.com石溪大学stonybrook.edu* ISER Mohaligmail.com罗希特·昆杜 *UCR河滨rohit. email.ucr.edu摘要激活函数在确定训练动力学和神经网络性能方面起着关键作用。被广泛采用的激活函数ReLU尽管简单有效,但也有一些缺点,包括Dying ReLU问题。为了解决这样的问题,我们提出了一种新的激活函数,称为农奴这是自正则化和非单调的性质。和Mish一样,Serf也属于Swish函数家族。基于对不同最先进架构的计算机视觉(图像分类和对象检测)和自然语言处理(机器翻译,情感分类和多模态蕴涵)任务的几项实验,观察到Serf大大优于ReLU(基线)和其他激活功能,包括Swish和Mish,在更深的架构上具有明显更大的优势。消融研究进一步表明,基于Serf的架构在不同的场景中表现优于Swish和Mish,验证了Serf在不同深度、复杂性、优化器、学习速率、批量大小、初始化器和退出率的有效性和兼容性。最后,我们研究了Swish和Serf之间的数学关系,从而显示了Serf的一阶导数中固有的预条件函数的影响,它提供了正则化效果,使梯度更平滑,优化更快。1. 介绍激活函数是逐点函数,在神经网络中引入非线性方面起着至关重要的作用*表示平等贡献工程.在神经网络中,线性变换的输入通过激活函数,产生非线性对应物。这些非线性逐点激活函数对神经网络的性能有很大的影响。因此,选择合适的激活函数以更好地训练和提高效率一直是一个有趣的研究领域。像tanh和sigmoid这样的激活函数在以前的作品中被广泛使用[26,27,33,19]。然而,它们也有一些缺点,包括上限性。这为激活函数的定义铺平了道路,该函数被简单而有效的ReLU不仅比同时代的(sigmoid和tanh)更容易优化,而且还表现出更好的通用性和改进的收敛特性,这导致了它的广泛采用。然而,ReLU有一些缺点,包括著名的垂死ReLU现象[29,32]。任何负部分的缺失导致了这样的问题,该问题可以通过由将负输入压缩为零引起的梯度信息损失来注意。另一方面,ReLU也是不可微的,这可能导致基于梯度的优化过程中的干扰。考虑到这些,研究人员提出了各种激活函数,包括泄漏ReLU [32],PReLU[12],ELU [4],GELU [15],SELU [22],Swish[37],Mish [34],在上述激活功能中,Mish大多优于包括Swish在内的同时代产品。Mish具有连续的配置文件,与ReLU相比,它可以提供更好的信息传播它的灵感来自Swish的自门控特性。与Swish相反,Mish拥有一个预处理器,可以实现更平滑的梯度和更好的优化。5325在这项工作中,我们提出了一种新的激活函数称为Serf,它是非单调的,也是受Swish的自门控性质的启 发 。 我 们 将 Serf 定 义 为 f ( x ) =xerf ( ln ( 1+ex)),其中erf是误差函数[1]。Swish 、Mish 和Serf属于同一个像Mish一样,Serf也拥有一个预处理器,可以更好地优化,从而提高性能。我们的实验表明,我们提出的激活函数Serf在涉及不同数据集的各种任务中优于ReLU,Swish甚至Mish,这些任务包括图像分类,对象检测,图我们还对MNIST [25]和CIFAR-10数据集[24]进行了消融研究,以证明Serf优于Swish和Mish的效率。2. 相关工作最常用的激活函数之一是整流线性单位(ReLU)[35]。最初是为受限玻尔兹曼机提出的,这个激活函数因其简单和有效而获得了突出地位,并最终取代了sigmoid和tanh单位。尽管计算效率高,但它并非完全没有缺点。为了解决这些问题,引入了Leaky ReLU(LReLU),它用线性函数替换了ReLU函数的常数零部分,从而“泄漏”了与ReLU相比,LReLU表现出更优越的性能,并且当使用参数ReLU(PReLU)将负部分的斜率作为额外参数学习时,性能进一步增强[12]。然而,为了呈现LReLU和PReLU中都不存在的强正则化效应,此外,类似于ReLU,它们也是不可微的。考虑到这些方面,研究人员提出了指数线性单位(ELU)[4]和缩放指数线性单位(SELU)[22]等激活函数。ELU和SELU具有更好的收敛特性,以及在其负区域的饱和平台。然而,已经发现这些激活函数与批量归一化(BN)不兼容[18]。最后,提出了使用自选通特性Swish,其在更大程度上解决了上述缺点,同时证明了与Swish属于同一类,提出了另一种称为Mish的激活函数,其在大多数计算机视觉任务中表现与Swish相同或更好[34]。我们提出的激活函数,农奴,也是灵感来自自门控机制,因此属于类Swish函数。它已经被证明是exper-从本质上讲,我们提出的Serf在各种计算机视觉和自然语言处理任务中优于其他激活功能3. 农奴3.1. 动机激活函数在神经网络中引入了非线性ReLU是神经网络中使用最广泛的激活函数然而,它有几个缺点,最明显的一个是垂死的ReLU现象。这个问题源于ReLU激活函数中缺少的负值部分,它将负值限制为零。同时,ReLU不是连续可微的。此外,ReLU是一个非负函数。这产生了非零平均值问题,其中平均激活大于零。这样的问题对于网络融合是不期望的[4]。为了在一定程度上解决这些上述问题,最近出现了几种新的激活函数,包括泄漏ReLU、ELU、Swish等。Swish似乎是激活函数的理想候选者,该激活函数具有包括非单调性和同时保持小的负权重以保持平滑轮廓的能力的特性。与Swish类似,GELU等激活函数[15]特别是在计算机可视化(ViT [7]和MLP混合器[43])以及自然语言处理(GPT-2 [36]和GPT-3 [3])领域中使用的基于Transformer的体系结构中,另一个由于其在最先进的分类和对象检测任务中的性能而变得突出的激活功能Mish起源于Swish,并通过对导致Swish功效的属性进行系统分析而发展。从Mish的发展中得到灵感,我们提出了一个激活函数,称为Serf。农奴被定义为:f(x)=xerf(ln(1 +ex))(1)3.2. 性能农奴在下面有界,在上面无界。Serf是光滑的、非单调的和可微的。它还保留了一小部分负权重. Serf受到Swish和Mish的启发,其中自选通属性已被用于将输入的非线性函数的输出与相同的非调制输入相乘。自选通是有利的,因为它只需要一个单标量输入,而正常选通需要多个双标量输入[37]。• 上 无界性: 激活 功能就像tanh和sigmoid具有上界。初始化-5326X2√图1.Swish、Mish和Serf的激活函数(左)、一阶导数(中)和二阶导数(右)。应该发生在这些激活函数的线性区域这种性质是不可取的,因为它导致饱和,而训练由于接近零gra-[10]。ReLU是无界的上面试图避免饱和问题。这是一个重要的特性,可以在ReLU函数的所有后继函数中注意到,如leakyReLU,GELU,Swish,Mish等。Serf也具有此功能,其正侧为输入的近似线性函数(参见图1)。这使得Serf成为激活函数的良好候选者。• 下界性:激活函数必须满足下界,以提供强正则化效应。然而,在ReLU激活函数中,接收负输入的神经元将始终输出零,最终变得死亡或不活动,因此无用。这被称为垂死的ReLU现象[29,32]。它通常发生在学习率很高或者存在很大的负偏差时。通过保留一小部分负面信息,Serf进一步缓解了上述问题-更多地导致更好的表现力和改进 的 梯 度 流 。 Serf 的 负 界 约 为 0.3484 ( 见 图1)。• 可微性:与ReLU不同,Serf是连续可微的。这是有益的,因为它避免了在基于梯度的优化期间的奇异性和任何伴随的• 预处理:Serf与Swish密切相关,可以在其一阶导数中注意到。Serf的一阶导数如下:图2.带有ReLU(左)和Serf(右)激活的随机初始化6层神经网络的输出景观。这里,σ是S形函数,p(x)是预条件函数。预处理器使梯度更平滑,以前已广泛用于优化问题。对称正定矩阵的逆已被用作梯度下降情况下的预条件。这种预条件的应用使目标函数更平滑,从而提高收敛速度[2]。因此,在Serf的情况下,由这种预条件子贡献的强正则化效应使得梯度更平滑并且优化更快,从而优于在实验中可以注意到的Swish。Mish也有一个preconditioner,这使得它比Swish表现得更好。Mish 和Swish之间的区别在于,在Serf中我们使用了错误函数(erf),而在Mish中使用了tanh函数。然而,在大多数实验中,农奴的表现都优于米什.我们推测,Serff′(x)=2e−ln((1+e))xσ(x)+π=p(x)swish(x)+f(x)xf(x)(二)• 平滑性:平滑的损失景观表明更容易优化,局部最优值更少,因此泛化能力更好,最大限度地减少了初始化和学习率的影响。一个范围的输出景观5327图2中显示了一个带有ReLU和Serf激活函数的值得注意的是,产出景观是损失景观的指示。我们随机初始化一个6层的神经网络,其中我们传递网格中每个点的x和y对于ReLU激活函数,神经网络的输出景观与Serf相比具有急剧的转变。与ReLU相比,这符合Serf的增强性能。请参阅第5节以了解更深入的分析。4. 实验在本节中,我们将演示和比较我们提出的激活函数Serf在不同的图像、序列和图形数据集的最新架构中用于不同任务时的性能报告的所有评分均为3次不同运行的平均值,以确保结果的实验在具有32GB RAM的NVIDIA Tesla V100上进行我们评估了从传统图像分类到机器翻译的多个任务我们也方法ReLU Mish 农奴(我们的)SqueezeNet84.1485.9886.32ResNet-5086.5487.0388.07WideResnet-50-286.3986.5786.73ShuffleNet-v283.9384.0784.55ResNeXt-50(32× 4d)inception-V387.2590.9387.9791.5588.4992.89DenseNet-12188.5989.0589.07MobileNet-v285.7486.3986.61EfficientNet-B0(Swish)78.2678.0278.41表1. CIFAR-10上不同激活函数的不同最新方法的前1%准确度值方法ReLUMish农奴(我们的)Resnet-16474.5575.0275.13宽Resnet-28-1076.3277.0377.54DenseNet-40-1273.6873.9174.16inception-V371.5472.3872.95表2. CIFAR-100上不同激活函数的不同最新方法的前1%准确度值执行一组消融以测量激活函数的基础上的不同配置的超参数。4.1. 图像分类对于图像分类,我们考虑了不同的模型激活前1%访问前5%访问MLP混合机GELU 64.1496.71农奴ReLU 79.05 97.72CIFAR-10、CIFAR-100和ImageNet上应用的标准架构。实验已经被分开AC-CCT米什80.0298.70农奴根据体系结构和数据集的类型。CIFAR-10/100:我们考虑了不同的深度学习架构(对于 CIFAR-10 : SqueezeNet [17] , Resnet-50 [13] ,WideResnet-50-2 [46],ShuffleNet-v2 [30],ResNeXt-50 [45] 、 Inception-v3 [41] 、 DenseNet-121[16] 、 MobileNet-v2 [40] 和 EfficientNet-B0 [42]; 对 于CIFAR- 100:[46]第十四章:一个人的世界40-12 [16],Inception-v3 [41]),具有三个不同的激活功能,即ReLU(基线),Mish和Serf(建议)。这已经在CIFAR-10和CIFAR-100数据集上的图像分类任务中完成,对于每个网络,我们只改变了激活函数,并保持每个其他参数不变,以便进行公平的比较。表1和表2显示,在CIFAR-10和CIFAR-100数据集的实验中使用的所有架构中,Serf始终优于ReLU和Mish激活函数我们还使用了两种最新的架构,即MLP混频器[43]和紧凑卷积变换器(CCT)[11],并评估了这些架构的性能表3.在CIFAR-10测试数据集上针对GELU(SOTA)和Serf激活函数训练MLP-Mixer 10个历元以及针对CIFAR-10测试数 据 集 上 的 ReLU 、 Mish 和 Serf 函 数 训 练 紧 凑 卷 积Transformer(CCT)50个历元后的前1和前5%准确度值(分类)缩短训练时间。我们已经在CIFAR-10上对MLP混音器进行了培训和评估,并提供了两种不同的激活功能,GELU(MLP混音器的标准)和Serf。Top-1%和Top-5%准确度值(见表3)表明,Serf我们还在CIFAR-10上使用三种不同的激活函数(ReLU、Mish和Serf)训练和评估了CCT。在这种情况下,Serf明显优于ReLU(基线)和Mish(见表3)。结果表明,对于基于Transformer的体系结构,SerfImageNet:最先进的ImageNet[5]分类架构利用ReLU[35]激活函数。为了便于比较,我们选择了3种广泛使用的AR-532891.7175.34农奴(我们的)93.1976.81农奴(我们的)91.8375.60农奴(我们的)模型激活前1%访问前5%访问Resnet-50ReLU 74.16 90.28ResNeXt-50ReLU 75.84 92.32EfficientNet-B0Swish 75.42 91.55表4. ImageNet数据集上的前1%和前5%准确度值。架 构, 即 Resnet-50 [13], ResNeXt-50 [45], 最后 是Efficient-Net B 0 [42] 。 然 而 , 需 要 注 意 的 是 ,Efficient-B 0的基线激活函数是Swish [37]。表4中的结果表明,我们的激活函数在所有3种情况下都优于基线,这表明Serf即使在ImageNet这样的大型数据集上也能很好地工作。4.2. 对象检测目标检测被认为是视觉场景理解的重要任务之一。在我们的案例中,我们考虑了Pascal VOC和MS-COCO数据集,用于使用YOLOv 3 [38]和微型YOLOv 3架构的对象检测任务。我们已经针对Leaky ReLU对Serf进行了评估,Leaky ReLU是YOLOv3框架所固有的为了公平比较,我们只改变了激活函数,保持其他超参数固定,如[38]所述。表5中的平均精度(MAP)分数清楚 地 表 明 , 我 们 提 出 的 Serf 在 Pascal VOC 和 MS-COCO数据集的对象检测任务中优于基于基线泄漏ReLU的数据集模型激活MAP@.5MAP@.5:.95YOLOv3LeakyReLU 74.0 47.3(基线)、米什和农奴(拟议)。所有训练参数和超参数都与[21]中提到的相同,以进行公平比较。表.图6显示,在三个不同的数据集上,Serf的表现与ReLU和Mish激活函数相同或更好,从而表明所提出的激活函数的多功能性。数据集ReLU Mish 农奴(我们的)科拉81.581.781.7CiteSeer70.371.371.7PubMed79.079.379.4表6.在CORA、CITESEER和PUBMED上针对不同激活函数的不同GNN半监督节点分类方法的前1%准确度值。4.4.机器翻译,情感分类,多模态蕴涵在本节中,我们已经证明了我们提出的Serf激活函数在机器翻译和情感分类任务中的有效性我们考虑了三种不同的架构和数据集。对 于 机 器 翻 译 , 我 们 使 用 了 基 于 序 列 到 序 列Transformer [44]编码器-解码器的模型,该模型在Multi30 k数据集上训练(20个epoch)用于德语-英语翻译[9]。出于比较的目的,我们考虑了ReLU、GELU、Mish和Serf(提出),并观察到Serf优于表7中所示的BLEU评分所建议的其余三个激活函数对于情感分类,我们考虑了两个数据集,即imdb电影评论情感和Pol EmoVOC农奴(我们的)YOLOv3 TinyLeakyReLU 50.3 21.9农奴(我们的)LeakyReLU 51.2 32.52.0情感数据集。对于imdb电影评论发送数据集[31],我们考虑了:(i)一个简单的架构,由一个带有文本嵌入层的1D conv网组成,我们使用三种不同的激活来训练它。YOLOv3Coco农奴(我们的)函数,并注意到Serf优于其他两个激活函数(ReLU和Mish),这表明YOLOv3 TinyLeakyReLU 32.7 15.2农奴(我们的)33.515.5表5. Pascal VOC和MS-COCO数据集上不同对象检测模型的平均精度得分。LeakyReLU是YOLO框架的一部分。4.3.半监督节点分类根据[21]中的实现概述,我们考虑了3个不同的数据集,即CITESEER,CORA和PUBMED,用于使用三个不同的激活函数进行半监督节点分类,即ReLUSerf也适用于简单的架构(见表8),以及(ii)4层Transformer模型,我们还为三个激活函数中的每一个训练了20个epoch,最终获得了所提出的Serf函数的最佳结果(见表8)。对于Pol Emo 2.0情感数据库[23],我们使用了一个基于BERT的模型[6],该模型具有两个不同激活函数Mish和Serf的分类头。精确度、召回率和F1分数表明,在这项任务中,Serf的表现与Mish相当或更好(见表9)。对于多模态蕴涵任务,我们使用了多模态蕴涵数据库,最近由5329Google Research1.我们使用了原始BERT模型的一个较小的变体。用于此目的的代码可在2.我们使用了两个激活函数进行比较:GELU和Serf。表10显示了5次运行(每次训练10个epoch)的平均测试数据集的准确度准确度值表明,在这种情况下,Serf评分ReLU格卢Mish 农奴(我们的)Bleu35.5535.6235.3636.06表 7. Multi30k 测 试 数 据 集 上 不 同 激 活 函 数 的 seq2seqTransformer模型(训练20个epoch后)的BLEU评分。模型ReLUMish农奴(我们的)带有文本嵌入的1D转换85.3685.9986.184层Transformer模型88.8288.9989.03表8.在imdb电影评论情感数据集上,带有文本嵌入层和4层Transformer 模 型 的 1D Conv Net 的 前 1% 准 确 度 值 , 用 于ReLU,Mish和Serf激活精度召回F1得分Mish0.83740.83290.8346农奴(我们的)0.83770.83300.8342表9.在Pol Emo 2.0情感数据库上使用BERT进行情感分类的不同激活函数的精度,召回率和F1分数公制GELU 农奴(我们的)平均准确度85.2885.42表10.基于GELU和Serf的多模态蕴涵任务架构的平均准确度值4.5. 消融模型超参数在神经网络的训练和优化中起着重要的作用,因此对网络的泛化能力有直接的影响。这些超参数包括网络深度、网络宽度、权重初始化类型、丢弃率、批量大小、学习率和优化器。在这里,我们分析和比较了不同的超参数对我们选择的网络的影响,这些网络具有三种不同的激活函数,即Swish,Mish和Serf。为此,我们使用了MNIST1https://github.com/google-research-datasets/recognizing-multimodal-蕴涵2https://github.com/sayakpaul/Multimodal-Entailment-Baseline网站4.5.1MNIST• 密集单元:密集单元的数量是指密集层中存在的神经元的数量。在这种情况下,我们使用了一个4层架构,其中一个密集层后面是批处理规范化层和SGD [39]作为优化器。我们观察到,随着密集单元数量的增加,模型复杂度增加,Serf优于Swish和Mish(图3)。这表明Serf可以很好地处理复杂的模型。这在其他实验中也被注意到• 丢失率:随着丢失率的增加,所有三个激活函数的整体性能都会下降,但是,Serf的性能下降相对小于Swish和Mish(图3)。• 初始化器:Serf的性能比Swish和Mish都好,除了随机统一初始化(图3)。这表明,农奴是一个更好的候选人相比,它的同时代人。• 学习率:在不同的学习率下,Serf的表现优于Swish和Mish(图3)。特别是,在学习率较高的情况下,Swish中的退化相当明显,而Mish和Serf中的退化则不那么明显。在这种情况下,我们使用SGD [39]作为优化器• 优化器:在这种情况下,使用不同的优化器,Serf的整体性能等于或略优于Swish和Mish(图3)。在Adagrad优化器[8]的情况下,可以注意到所有三个激活函数的• 层数:在这种情况下,每个密集层后面都有一个Batch Normalization层。随着密集层数量的增加,模型变得复杂,优化变得困难。所有三种不同激活函数的性能退化符合上述事实。然而,与Swish和Mish相比,Serf保持了显着更高的准确性(图3)。3 .第三章。4.5.2CIFAR-10我们使用了一个ResNet-18模型,它有一个密集层和一个串联的分类头结果是通过多次运行20个epoch来训练模型获得的,这给出了一个不错的收敛点。• 批量大小:我们观察到,随着训练批量大小的减少,所有竞争激活函数的性能都会下降(图4),但是,Serf保持不变3代码:https://anonymous.4open.science/r/农奴-3630/5330图3. MNIST数据集的消融。上图:Swish、Mish和Serf的测试精度与密集单元(左)、丢失率(中)和初始化器(右)。底部:测试精度与学习率(左),优化器(中)和层数(右)的Swish,Mish和Serf。在所有批量的所有三个位置中的更好位置。亚当[20]在这里被用作优化器。• 优化器:在这种情况下,使用不同的优化器,Serf的整体性能等于或略优于Swish和Mish(图4)。在[8]和SGD优化器[39]的情况下,可以注意到所有三个激活函数的• 学习率:观察到Serf在除0.1之外的所有评估的学习率上都表现得更好或等于Mish和Swish,其中与其他两个激活函数相比,在Serf中观察到更陡峭的下降(图4)。亚当[20]在这里被用作优化器。(BN)与激活函数结合使用考虑到最佳实践,即归一化输入,BN试图保持平均输出接近0,输出标准差接近1。这确保了几乎87%的值在平均值的1.5标准差内。考虑到图1中的这个范围,我们可以观察到Serf的一阶导数位于Mish之上,Mish位于Swish之上。因此,我们可以认为Serf的一阶导数是Mish的μ(>1)倍。因此,Serf的有效学习率增加,从而导致更快和更好的收敛。此外,来自等式(2)的预处理器等式可以重写为:2(ln(1+ex))2−(ln(1+e))e+ 15. 分析通常,激活函数的一阶导数是重新定义的。g(x)=πeσ(x)e2(ln(1+ex))−1(3)例如,在基于随机梯度的优化方案中,可用于参数更新一个Gradi的价值-f′(x)=g(x)Mish(x)+f(x)X(四)环境署在这方面发挥重要作用。参数的最终更新取决于该值乘以确定收敛速度的学习速率。此外,在深度神经网络中,批量归一化其中g(x)充当预处理器。Mish已经被证明对Swish有一种预调节作用,这实际上有助于表现。在这里,同样地,我们表明,农奴有一个预处理效果超过米什使X25331≥图4. CIFAR-10数据集的消融。针对Swish、Mish和Serf测试精度与批量大小(左)、优化器(中)和学习速率(右)。梯度甚至更平滑,从而提供更强的正则化效果。来自等式(2)的相同p(x)(Serf over Swish的预处理器)也可以重写为:p(x)=r(x)<$(x)(5)激活前向传递后向传递ReLU 5.41± 0.42 µs 5.72± 1.59 µsLeakyReLU 5.63± 0.74 µs 6.08± 0.89 µsGELU 8.91± 1.22 µs 9.31± 1.56 µsSwish 8.52± 1.37 µs 10.85± 2.23 µsr(x)=e(−ln(1+ex))2(ln(1+ex))2e2ln(1+ex)+e−2ln(1+ex)+22<$π搅拌器7.59± 2.66 µs 9.03± 2.92 µs农奴(我们的)7.62± 1.54 µs 10.91± 1.68 µs表11.不同激活e=2π. (1 +ex)2+(1 +ex)−2+2PreActResnet-18模型中32× 32× 3输入的函数e(ln(1+ex))2≥2<$π(2 + 2)(杨氏edness,lower boundary,non-monotonicity and smooth-4≥2<$π(自e>1个(ln(1+ex))2≥1)这是激活函数所期望针对多个不同任务的不同数据集,采用不同的最先进架构的实验结果表明,所提出的Serf优于基准ReLU其中,r(x)是Mish在Swish上的预条件子,r(x)1(在工作范围内),这表明p(x)更好。6. 计算时间效率我们对社区中使用的主要激活函数进行了计算效率研究。表11中给出的结果表明,尽管Serf在各种任务中具有优异的性能,但与ReLU相比,Serf的计算时间更多,而与GELU,Mish和Swish相当。我们使用了NVIDIA Tesla V100 GPU和32 GB RAM的系统来执行这些实验。7. 结论和未来工作在本文中,我们提出了一种新的激活函数,它已证明的性质,如上无界,性能以及其他激活功能,如Swish,Mish和GELU的优势很大。结果可以用所需的超参数来改进,所述超参数可以用超参数搜索获得。农奴开辟了大量的机会,移动到-前进。未来可能的工作包括:(1)理解预条件子作为正则化子的重要性和贡献,以及如何修改它对最终结果产生影响;这可以导致更有效的激活函数的开发,(2)如[28]所示的Serf的概率版本的开发和探索,(3) 开发参数化的Serf,如PReLU,以及最后(4)将Serf与用于诸如图像超分辨率、图像重建等任务的其他当代激活函数的性能进行比较。总的来说,Serf是一个简单,有效和通用的激活函数,可以集成到任何神经网络中,以获得更好的训练和性能增益。.Σ5332引用[1] 拉里·C·安德鲁斯工程师专用数学函数,第49卷。SpiePress,1998.[2] 欠阿克塞尔松和冈希尔德·林斯科格的关于预条件共轭梯 度 法 的 收 敛 速 度 。 Numerische Mathematik , 48(5):499[3] Tom B Brown,Benjamin Mann,Nick Ryder,MelanieSub biah , Jared Kaplan , Prafulla Dhariwal , ArvindNeelakan tan ,Pranav Shyam ,Girish Sastry ,AmandaAskell,et al.语言模型是很少机会的学习者。arXiv预印本arXiv:2005.14165,2020。[4] Djork-Arne 'Clevert , Thomas Unterthiner , and SeppHochre- iter.通过指数线性单元(elus)进行快速准确的深 度 网 络 学 习 。 arXiv 预 印 本 arXiv : 1511.07289 ,2015。[5] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议,第248-255页[6] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。Bert:用于语言理解的深度双向变换器的预训练。arXiv预印本arXiv:1810.04805,2018。[7] AlexeyDosovitskiy,LucasBeyer,AlexanderKolesnikov,Dirk Weissenborn,Xiaohua Zhai,ThomasUnterthiner , Mostafa Dehghani , Matthias Minderer ,Georg Heigold,Sylvain Gelly,et al.一张图片相当于16x16个单词:用于大规模图像识别的变换器. arXiv预印本arXiv:2010.11929,2020。[8] John Duchi,Elad Hazan,and Yoram Singer.在线学习和随机优化的自适应次梯度方法。Journal of MachineLearning Research,12(7),2011.[9] Desmond Elliott , Stella Frank , Khalil Sima'an , andLucia Specia. Multi 30 k:多语言英语-德语图像描述。第五届视觉与语言研讨会论文集,第70-74页。计算语言学协会,2016年。[10] 泽维尔·格洛特和约舒亚·本吉奥了解训练深度前馈神经网络 的困 难。 在第十 三届 人工 智能 和统 计 集, 第249JMLR Work-shop and Conference Proceedings,2010.[11] Ali Hassani、Steven Walton、Nikhil Shah、AbulikemuAbuduweili、Jiachen Li和Humphrey Shi。借助紧凑型变压器摆脱大数据模式arXiv预印本arXiv:2104.05704,2021。[12] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun. 深入研究整流器:超越人类对imagenet分类的水平。在IEEE计算机视觉国际会议论文集,第1026-1034页[13] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition,第770-778页[14] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.深度剩余网络中的身份映射在欧洲计算机视觉会议,第630-645页。施普林格,2016年。[15] 丹·亨德里克斯和凯文·金佩尔。高斯误差线性单位(gelus)。arXiv预印本arXiv:1606.08415,2016。[16] Gao Huang,Zhuang Liu,Laurens Van Der Maaten,andKilian Q Weinberger.密集连接的卷积网络。在IEEE计算机视觉和模式识别会议论文集,第4700-4708页[17] Forrest N Iandola、Song Han、Matthew W Moskewicz、Khalid Ashraf 、 William J Dally 和 Kurt Keutzer 。Squeezenet:Alexnet级精度,参数减少50倍,…0.5 mb模型大小。arXiv预印本arXiv:1602.07360,2016.[18] Sergey Ioffe和Christian Szegedy。批次标准化:通过减少内部协变量偏移来加速深度网络训练。在机器学习国际会议上,第448-456页。PMLR,2015.[19] KevinJarrett 、 KorayKavukcuoglu 、 Marc'AurelioRanzato和Yann LeCun。对象识别的最佳多级架构是什么在2009年IEEE第12届计算机视觉国际上,第2146-2153页IEEE,2009年。[20] Diederik P Kingma和Jimmy Ba。Adam:随机最佳化的方法。arXiv预印本arXiv:1412.6980,2014。[21] Thomas N Kipf和Max Welling使用图卷积网络的半监督分类。arXiv预印本arXiv:1609.02907,2016。[22] GunterKlambauer, ThomasUnterthiner, AndreasMayr,andSepp Hochreiter.自规范化神经网络在第31届神经信息处理系统国际会议的会议论文集,第972-981页[23] JanKoc on' ,MonikaZa s'k o-Ziel in' ska , 和PiotrMijorkowsk i。Polemo 2.0情感分析数据集。2019年。[24] Alex Krizhevsky Vinod Nair和Geoffrey Hinton。加拿大高级研究所。[25] 杨乐存。mnist手写数字数据库。http://yann. 乐村1998年。[26] Yann LeCun,Bernhard Boser,John S Denker,DonnieHenderson,Richard E Howard,Wayne Hubbard,andLawrence D Jackel.应用于手写体邮政编码识别的反向传播。神经计算,1(4):541[27] YannLeCun,Le'onBottou,YoelmanBengio和PatrickHaffner。基于梯度的学习应用于文档识别。Proceedings of the IEEE,86(11):2278[28] Joonho Lee,Kumar Shridhar,Hideaki Hayashi,BrianKenji Iwana , Seokjun Kang , and Seiichi Uchida.Probact:深度神经网络的概率激活函数。arXiv预印本arXiv:1905.10761,5:13,2019。[29] Lu Lu , Yeonjong Shin , Yanhui Su , and George EmKarni- adakis.正在死亡的relu和初始化:理论和数值例子。arXiv预印本arXiv:1903.06733,2019。[30] 马宁宁,张翔宇,郑海涛,孙健。Shufflenet v2:高效CNN 架 构 设 计 实 用 指 南 在 欧 洲 计 算 机 视 觉 会 议(ECCV)的会议记录中,第116-131页5333[31] 安德鲁湖,加-地Raymond E. Maas彼得·戴利放大图片作者:Andrew Y. Ng和Christopher Potts。学习用于情感分析的词向量。计算语言学协会第49届年会论文集:人类语言技术,第142计算机语言学协会[32] Andrew L Maas,Awni Y Hannun,Andrew Y Ng,等.整流器的非线性改善了神经网络声学模型。在Proc.icml,第30卷,第3页中。Citeseer,2013.[33] 何塞米拉和弗朗西斯科桑多瓦尔。从自然到人工神经计算:人工神经网络国际研讨会,西班牙马拉加-托雷莫利诺斯,1995年6 月7-9日:会议记录,第930 卷。Springer Science Business
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功