基于DFT的变换不变池层视觉分类

200 浏览量更新于2023-10-13 收藏 1.23MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

基于DFT的变换不变池层视觉分类Jongbin Ryu1，Ming-Hsuan Yang2，Jongwoo Lim11汉阳大学加州大学伯克利分校抽象。我们提出了一种新的基于离散傅立叶变换的池层卷积神经网络。DFT幅度池化取代卷积层和全连接层之间的传统最大/平均池化层，以基于傅里叶变换的移位定理保留平移不变性和形状保持（知道形状差异）特性。由于能够处理图像错位，同时保持重要的结构信息在池化阶段，DFT幅度池化提高了分类精度显着。此外，我们提出了DFT+方法集成网络使用中间卷积层输出。使用 ImageNet ， CUB 2010-2011 ， MITIndoors，Caltech 101，FMD和DTD数据集在各种分类任务上对所提出的方法进行了广泛评估 AlexNet 、 VGG-VD 16 、Inception-v3和ResNet被用作基础网络，在其上实现DFT和DFT+方法。实验结果表明，所提出的方法提高了在所有网络和数据集的分类性能1介绍卷积神经网络（CNN）已被广泛用于许多视觉任务。在这些网络中，输入图像首先依次用多个卷积层进行滤波，这在区分和突出的模式下给出高响应许多CNN，例如，AlexNet [1]和VGG-VD [2]将卷积结果直接馈送到全连接（FC）层，以便使用soft-max层进行分类。这些完全连接的层不丢弃任何信息并且对输入激活特征图的形状/空间信息进行编码。然而，卷积响应不仅由图像内容确定，而且还受图像中目标对象的位置、大小和取向的影响。为了解决这种未对准问题，最近几种CNN模型，例如，GoogleNet [3]、ResNet [4]和Inception [5]使用平均池化层。这些模型的结构在图1的顶部两行中示出。1.一、它被放置在卷积层和全连接层之间，通过对每个通道中的卷积输出进行平均，将多通道2D响应图转换为1D特征向量通道式平均忽略激活通讯作者。2J. Ryu，M.- H. Yang和J. Lim图1：CNN最后几层的特征图。最上面两行：常规布局，不具有和具有平均池化。底部两行：所提出的DFT幅度池化。DFT将逐通道变换应用于输入特征图，并将幅度用于下一个全连接层。注意，DFT幅度中的左上单元与平均值相同，因为DFT中的第一元素是信号的平均幅度这里，C表示特征图的通道的数量。输入特征图中的神经元。虽然模型对未对准变得不那么敏感，但卷积输出的形状和空间分布不会传递到完全连接的层。图2示出了CNN中的平移不变性和形状保持以及特性的示例。对于没有平均池化的CNN，FC层对于具有相同激活次数的不同形状和转换输入给出所有不同的输出（最顶行）。当使用平均池化层时，输入中的平移被忽略，但是它不能区分具有相同激活量的不同模式（第二行）。无论是在没有平均池化的情况下还是在具有平均池化的情况下，平移不变性和形状保持属性都不会同时被保持。理想情况下，池化层应该能够处理这种图像错位，并保留卷积层的突出信号分布虽然它可能看起来，这两个属性是不相容的，我们表明，建议的新的DFT幅度池保留这两个属性，从而显着提高分类性能傅里叶变换的移位定理[6]表明，如果两个信号的振幅和频率（形状）相同，则两个信号的傅里叶系数的大小相同，而不管相移（平移）如何。在DFT幅度池化中，2D-DFT（离散傅里叶变换）被应用于输入特征图的每个通道，并且幅度被用作到全连接层的输入（图1的底部行）。①的人。此外，通过丢弃高频系数，可以保持关键的形状信息，使噪声的影响最小化，并且减少数量基于DFT的变换不变池层视觉分类3图2：具有和不具有平均池化的DFT幅度的比较。中间行显示了卷积层的特征图，其中所有三个具有相同的激活量，并且前两个具有相同的形状但处于不同的位置。直接连接到该输入的全连接层的输出将为所有三个输入输出不同的值，无法捕获具有相同形状的前两个在中间添加平均池化使得所有三个输出相同，因此它实现了平移不变性，但无法区分最后一个和前两个。另一方面，所提出的池化输出DFT的幅度，并且因此输入模式中的平移被有效地忽略，并且输出根据输入形状而变化。在下面的全连接层中的参数。值得注意的是，平均池化响应与DFT（DC部分）的第一系数相同因此，DFT幅度是平均池化响应的超集，并且如果使用所有系数，则它可以与直接链接到FC层一样有表达力。为了进一步提高性能，我们提出了DFT+方法，该方法集成了来自中间卷积层的响应中间层的输出大小比最后一个卷积层的输出大小大得多，但是DFT可以选择有效的傅立叶系数，仅用于匹配最终输出的类似4J. Ryu，M.- H. Yang和J. Lim为了评估所提出的算法的性能，我们进行了广泛的实验与各种基准数据库和基础网络。我们表明，DFT和DFT+方法一致，显着提高了国家的最先进的基线算法在不同类型的分类任务。我们在这项工作中做出了以下贡献(i) 我们提出了一种新的DFT幅度池的基础上的傅里叶变换的二维移位定理。它保留了传统方法不能同时满足的平移不变性和保形性因此，DFT幅度对图像未对准以及噪声更鲁棒，并且它取代平均池化，因为其输出包含更多信息。(ii) 我们建议DFT+方法，这是一个合奏方案的中间卷积层。由于输出特征尺寸可以通过裁剪DFT中的高频部分来调整，因此它有助于处理更高分辨率的中间级输出，并且还有助于减少后续层中的参数(iii) 使用各种基准数据集（ ImageNet ， CUB ， MIT Indoors ， Caltech101 ， FMD 和 DTD ）和许多基础 CNN （ AlexNet ， VGG-VD ，Inception-v3和ResNet）进行的广泛实验表明，DFT和DFT+方法在所有设置中显着提高了分类准确性。2相关工作CNN最广泛使用的应用之一是ImageNet数据集上的对象识别任务[1，2，3，4，5]。受成功的启发，CNN已被应用于其他识别任务，如场景[7，8]和细粒度对象识别[9，10，11]，以及其他任务，如对象检测[12，13，14]和图像分割[15，16，17]。我们讨论了这些CNN的重要操作，并将这项工作放在适当的背景下。2.1变换不变量池除了丰富的分层特征表示之外，CNN成功的原因之一是对某些对象变形的鲁棒性为了对未对准和变形的进一步鲁棒性，可以选择首先找到图像中的目标位置并仅聚焦于那些区域例如，在更快的R-CNN [13]模型中，区域建议网络评估激活图中的滑动虽然它能够处理不确定的对象位置和离群背景区域，这种方法需要高的计算负荷。此外，即使有良好的对象提议，也难以通过诸如图像扭曲的预处理步骤来有效地处理真实图像中的未对准相反，已经开发了许多方法来考虑网络内的空间变化。基于DFT的变换不变池层视觉分类5最大或平均池化层是为此目的而开发的[5，4，18]。两个池化层通过取平均值或最大值将每个通道中的2D输入特征图减少为标量值。实现平移不变性的另一种方法是无序池化，其生成对输入特征图中的激活位置不敏感的特征向量。Gong等[19]提出了多尺度无序池化图像分类方法Cimpoi等人[20]通过将Fisher向量[21]应用于最后一个卷积层输出来开发一种无序池化方法双线性池[9]被提出来通过特征映射上的外积操作对无序特征进行编码。Simon等人提出的用于细粒度对象识别的α池化方法。[22]结合了平均和双线性池方案以形成无序特征。矩阵反向传播[23]被提出来训练基于高阶池化的神经网络的整个层Gao等人[24]提出了减少传统双线性池化维度的紧凑双线性核池[25]被提出来通过快速傅里叶变换方法对高阶信息进行虽然上述方法已被证明是有效的，形状信息保持和平移不变的属性是不能同时满足在池。[26]提出了使用DFT算法的频谱合并方法该方法对输入特征图进行变换，裁剪变换后的特征图低频部分的系数，然后进行逆变换得到原始信号域的输出合并特征图。他们使用DFT来减少特征图的大小，因此他们可以保留形状信息，但这样做不考虑平移属性。然而，在这项工作中，所提出的方法输出的特征映射满足这两个属性的DFT的移位定理。2.2使用多卷积层的已经开发了许多方法来使用来自多卷积层的中间特征以获得性能增益[27]。hypercolumn [28]通过上采样方法对多卷积层的整体输出进行了表征，并在此基础上做出了决定。对于图像分割，全卷积网络（FCN）[15]通过上采样方法组合多个卷积层的输出。在这项工作中，我们提出了DFT+方法，通过使用DFT集成中间层功能，并实现进一步的性能改善。3该算法在这一节中，我们讨论了傅里叶变换的二维移位定理，并提出了DFT幅度池方法。3.1DFT的二维移位定理傅里叶变换的移位定理[6]描述了一维空间中对于具有相同幅度和6J. Ryu，M.- H. Yang和J. LimK1122k1，k2频率不同但相位不同时，它们的傅里叶系数的大小相同。假设通过傅里叶变换将输入信号fn转换为FkFk=NΣ−1fnn=0·e-j2πkn/N，形状相同但相移θ的输入信号可以表示为fn−θ，其傅立叶变换输出表示为Fk−θ。这里，移位定理的关键特征是Fk−θ的幅度与Fk的幅度相同，这意味着幅度对相位差是不变对于相移信号，我们有Fk−θ=NΣ−1n=0fn−θ·e−j2πkn/N=NΣ−1NΣ−1−θfmm=− θ·e−j2πk（m+θ）/N=e−j2πθk/Nfmm=0·e−j2 πkm/N = e−j2 πθk/N·F。由于e−j2πθk/N·ej2πθk/N= 1，我们有|为|Fk|.|.（一）移位定理可以容易地扩展到2D信号。等式2的移位相位θ1D中的1被2D中的（θ1，θ2）替换。这两个相位参数表示图像空间中的2D平移，并且我们可以示出扩展1D移位定理的以下等式，即，Fk −θ，k −θ = e−j2π（θ1 k1/N1 +θ2 k2/N2）·F .由于e−j2π（θ1k1/N1+θ2k2/N2）·ej2π（θ1k1/N1+θ2k2/N2）=1，我们有|为|Fk 1，k 2|.|.（二）Eq.的性质2是至关重要的，因为DFT对于2D信号的转换版本输出相同的幅度值。3.2DFT幅度池层DFT幅度池化中的主要阶段在图1的底行中示出。1.一、卷积层生成M×M×C特征图，其中M由输入图像的空间分辨率和卷积滤波器大小确定。M×M特征图表示每个通道中的神经元激活，并且它编码包括形状和位置的视觉属性，这些属性可以用于区分不同的对象类别。平均池化或最大池化去除了位置依赖性，但同时，它丢弃了有价值的形状信息。在DFT幅度池化中，将2D-DFT应用于输入特征图的每个通道，并且将所得傅立叶系数裁剪为N×N基于DFT的变换不变池层视觉分类7图3：DFT幅度池化使用的示例。它取代了ResNet [4]的平均池化层，并插入VGG-VD 16 [2]的最后一个卷积层和第一个fc 4096层之间。通过切断高频分量，其中N是用于控制尺寸的用户指定参数。然后将剩余的低频系数馈送到下一个全连接层。如第3.1节所示，DFT轮询系数的幅度是平移不变的，并且通过使用DFT的更多池化系数，所提出的方法可以将输入信号中的更多形状信息传播到下一个全连接层。因此，DFT幅度池可以实现平移不变性和形状保持特性，这似乎是不相容的。事实上，DFT取代平均池化，因为信号的平均值被包括在DFT池化幅度中。如前所述，我们可以通过仅选择傅立叶系数的低频部分来减小DFT幅度的合并特征大小。这是我们的方法的优点之一，因为我们可以减少参数完全连接层，而不会丢失太多空间信息。实际上，考虑到性能增益，DFT幅度池化的额外计算开销可以忽略不计（表1和表2）。计算开销和参数数量的详细信息在补充材料中解释3.3DFT+中的后期融合在典型的CNN中，仅最终卷积层的输出用于分类。然而，中间卷积层包含丰富的视觉信息，其可以利用最终层的输出来简化存储。在[29]中，SVM分类器输出与空间和时间网络的响应相组合，其中这两个网络是单独训练的。[29]我曾为他做过一件事。8J. Ryu，M.- H. Yang和J. Lim图4：用于ResNet的DFT+使用的示例。DFT幅度池化、全连接和softmax层连同批次归一化一起被添加到中间卷积层。SVM用于后期融合。融合方法来组合多个中间层的输出。通过DFT、全连接、批量归一化和softmax层分别处理中间层卷积特征图，以生成中间层概率分类估计。在融合层中，所有来自中间层和最后层被矢量化和连接，并且矢量上的SVM确定最终决策。此外，我们使用一组中间层，以纳入更多和更丰富的视觉信息。网络中的中间卷积层根据其输出特征图的空间分辨率（M×M）每个层组由多个相同大小的卷积层组成，并且根据融合水平，在训练和测试中使用不同数量的组这项工作的实施可在http://cvlab.hanyang.ac.kr/project/eccv_2018_DFT.html 上获得。在下面的部分中，我们提出了详细的实验设置和广泛的实验结果显示DFT幅度池的有效性。基于DFT的变换不变池层视觉分类94实验结果我们评估的DFT和DFT+方法的性能上的大规模ImageNet [35]数据集和CUB [36]， MIT67 [33]以及Caltech 101 [37]数据集。 AlexNet [1]，VGG-VD 16 [2]，Inception-v3 [5]，ResNet-50，ResNet-101和ResNet-152[4]被用作基线算法。为了显示所提出的方法的有效性，我们只取代池层在每个基线算法的DFT幅度池和比较的分类精度。当网络不具有平均池化层时，例如，在AlexNet和VGG中，DFT幅度池化被插入在最终卷积层和第一个全连接层之间。DFT+使用中间层输出，其被馈送到单独的DFT幅度池化和全连接层中以生成概率类标签估计。然后使用线性SVM组合通过中间和最终DFT幅度池化的估计以用于最终分类。在DFT+方法中在这项工作中，使用了三种不同数量的中间层的设置。 DFT+1方法仅使用位于最后一层附近的一组中间层。 DFT+2方法使用两个中间层组，DFT+3方法使用三个中间层组。图3和图4示出了DFT和DFT+meth〇d的网络结构和设置。为了进行性能评估，DFT和DFT+方法与相应的基线网络进行了比较。对于DFT+，我们还构建和评估平均值+，其中，平均值+是使用平均值点的系统结构的一个示例。除非另有说明，否则N被设置为基础网络的最后一个卷积层的大小（6、7或8）。表1：在Ima-geNet上从头开始训练的网络的分类误差（top1/top5误差）。DFT和DFT+方法都显著地改善了基线w或k，而平均值+doe并没有在很大程度上改善累积量。AlexNet VGG-VD16 ResNet-50方法（无AP）（无AP）（含-AP）基线41.12/19.0829.09/ 9.9725.15/ 7.78DFT40.23/18.1227.28/ 9.1024.37/ 7.45-0.89/-0.96-1.81/-0.87-0.78/-0.33DFT+39.80/18.3227.07/ 9.0224.10/ 7.31-1.32/-0.76-2.02/-0.95-1.05/-0.47averag e+41.09/19.5328.97/ 9.9125.13/ 7.77-0.03/ +0.45-0.12/-0.06-0.02/-0.0110J. Ryu，M.- H. Yang和J. Lim表2：将性能转移到不同域的分类精度DFT幅度合并结果和DFT+方法的最佳结果被标记为粗体。除了Caltech 101-AlexNet和DFT+外，DFT方法的精度在所有情况下都得到了提高更多详情请参见第4.2数据网络基地DFTDFT+1平均值+1DFT+2平均值+2DFT+3平均值+3AlexNet 64.968.1 68.764.9 68.5 64.7 68.6 64.9VGG-VD16 75.079.679.7 75.0 79.9 74.880.175.0启动-v3 80.180.982.2 80.482.4 80.2 82.0 80.2ResNet-50 77.581.0 81.8 77.7 82.0 77.982.777.8电话：+86-0510- 88888888传真：+86-0510-88888888电话：+86-10 - 88888888传真：+86-10-88888888AlexNet 59.259.4 59.959.3 59.6 58.959.959.0VGG-VD16 72.272.674.2 73.1 74.6 72.875.273.1启动-v3 73.273.476.9 74.577.3 74.5 74.3 73.9ResNet-50 73.074.8 76.975.0 76.3 75.2 75.9 75.0ResNet-101 73.376.076.1 75.176.975.2 76.6 74.9ResNet-152 73.575.376.4 75.576.575.3 76.3 74.9AlexNet 88.187.488.1 88.0 88.2 88.188.3 88.1VGG-VD16 93.293.293.4 93.3 93.4 93.293.693.2Inception-v3 94.094.1 95.294.2 95.1 94.2 94.5 94.0ResNet-50 93.293.9 94.6 93.594.893.3 94.7 93.5ResNet-101 93.194.294.0 93.4 94.2 93.394.493.2ResNet-152 93.294.094.3 93.794.793.7 94.4 93.34.1ImageNet上的视觉分类我们使用AlexNet、VGG-VD 16和ResNet-50作为基线算法，并使用ImageNet数据库从头开始创建了四个变量（baselinenewithnochange、DFT、DFT+和daverage+），在这个实验中，DFT+只将倒数第二个卷积层与最后一层融合，我们使用两个softmax响应的加权和，而不是使用SVM。表1示出了DFT幅度池化将分类误差减少0。78比1 百分之八十一。此外，DFT+方法通过以下步骤进一步减小误差：1 .一、05比2 02%，三个网络。另一方面，A-池化+方法几乎没有降低分类错误率。实验结果表明，DFT方法对平均池化（有AP）或直接连接到全连接层（无AP）表现良好。此外，DFT+通过利用来自中间层的特征在提高分类性能方面是有效的MIT室内加州理工101幼崽基于DFT的变换不变池层视觉分类114.2转移到其他域转移的CNN模型已被应用于许多特定领域的分类任务，如场景分类和细粒度对象识别。在以下实验中，我们评估泛化能力，即，关于池化层，网络可以被转移到其他域的程度如何。 baseline 、 DFT 和DFT+mehodsaretuned 使用CUB （细粒度）、 MIT Indoor （场景）和Caltech 101（对象）数据集，使用划分训练样本和测试样本的标准协议。作为预训练模型，我们使用AlexNet，VGG-VD 16和ResNet-50网络，这些网络使用第4.1节中的ImageNet从头开始训练。对于Inception-v3，ResNet-101和ResNet-152，使用原始工作中的预训练模型。此外，原始网络中的soft-max和最终卷积层针对转移域进行了修改表2显示，DFT幅度池在所有网络中的性能都优于基线算法，除了Caltech101数据集上的AlexNet的一种情况。相比之下，A池+模型没有改善结果。4.3与最新方法的我们还将提出的基于DFT的方法与最先进的方法进行比较，例如具有CNN特征[20]的Fisher向量（FV）[21]，双线性池[9，34]，紧凑双线性池[24]和纹理特征描述符e。g.Deep-TEN [30]。报告了单个图像尺度的结果，用于在获得的R e s Ne t -50的Dep-TENmuli和FVmuli的结果上进行公平比较表3：DFT和DFT+方法与最新方法的比较。DFT和DFT+methods提供了一种可用于恢复对象状态的功能。DFT+methodimprovesspreusedonResNet-50，并且在大多数情况下还增强了使用VGG-VD 16的最先进方法的性能，而我们仅使用单个224 × 224输入图像。所有情况下的FV结果由[30]重现，并且通过[34]获得FMD [31]，DTD [32]和MITIndoor [33]上的B-CNN [9]以及VGG-VD 16标有 * 的数字是448 × 448输入图像的结果。在各种实验设置下的更多结果显示在补充材料中。VGG-VD 16方法数据集加州理工MITResNet-50方法数据集加州理工MITFMD DTD101CUB室内FMD101室内FV 75.0 - 83.0-67.8第78章. 2-761B-CNN 77.8 69.6-84.0∗ ∗72.8∗Deep-TEN 80.2 85.3 71.3B-CNNcompact - 六十四点五-84.072.7Deep-TEN多78.8-76.2DFT78.8 72.4 93.279.6七十二点六DFT79.293.974.8DFT+80.0 73.2 93.680.175.2DFT+81.2 94.876.912J. Ryu，M.- H. Yang和J. Lim在多尺度设置上所有方法的输入图像分辨率为224 × 224，除了使用448 × 448幅图像的B-CNN和组合B-CN N组合池化方法之外。表3的结果表明，DFT和DFT+方法在大多数情况下提高了现有技术方法的分类准确度。 DFT和DFT+方法并不增强分类算法，其中仅使用如B-CNN和B-CNN与VGG-VD 16的比较，与我们的实现相比，其使用更大的输入图像。在其他情况下，DFT+mhdperforms可用于在不同的poo lingmeds中执行不同的转换形式。特别地，对于Caltech101，DFT+meth〇dim将分类准确度提高约10%。这是因为先前的池化方法被设计为考虑图像的无序属性。虽然考虑到无序属性对细粒度识别数据集（ CUB 2000-2201 ）给出了很好的结果，但它对对象图像数据集（Caltech 101）无效。由于形状信息（即对象部分的顺序）对于识别对象图像非常有用，因此无序池化并不能提高Caltech 101数据集的性能。然而，DFT和DFT+方法通过还保留对象图像的形状信息来获得良好的性能因此，该结果也验证了所提出的方法对于深度神经网络架构的泛化能力。表4：DFT和DFT+方法相对于合并大小的实验结果。随着池大小的增加，性能趋于变得更好，但可以看出，N=4足以显著改善基线方法。数据集网络基地DFTDFT+3N=2N=4充分 N=2N=4充分Alexnet64.967.967.968.168.268.468.6VGG-VD 1675.079.078.979.678.979.080.1Inception v380.178.379.180.980.380.782.0幼崽ResNet-5077.576.278.281.078.781.182.7ResNet-10180.481.782.482.182.183.182.9ResNet-15281.482.683.183.782.783.383.8Alexnet59.259.459.359.461.261.659.9VGG-VD 1672.275.274.172.675.575.475.2Inception v373.372.872.073.474.874.174.3MIT室内ResNet-5073.073.573.874.876.075.675.9ResNet-10173.374.075.476.074.576.276.6ResNet-15273.573.475.675.374.076.376.3Alexnet88.187.487.387.488.087.988.3VGG-VD 1693.292.592.993.292.693.693.6Inception v394.093.193.094.194.093.894.5加州理工101ResNet-5093.292.892.893.993.293.394.7ResNet-10193.193.494.094.293.593.794.3基于DFT的变换不变池层视觉分类13(a) VGG-VD16（b）ResNet-101图5：在Cal t e c h 101上的veragee+3和DFT+3方法中平均与DFT幅度池化的性能比较。从中间softmax层独立地获得所述rep或tedclasif icat i cion准确度值。5讨论为了进一步评估DFT幅度池化，关于在表4中进行了合并大小。它表明，小的池大小也提高了基线方法的性能。图5示出了在后期融合之前通过DFT幅度和平均池化层的各个中间层的分类准确度DFT方法优于平均池化，并且在较低层中的性能差距比较高层大得多众所周知，更高级别的输出包含更抽象和更鲁棒的信息，但中间卷积层也编码更详细和更高级别无法捕获的判别特征结果与补充材料中的发现一致，即DFT方法对空间变形和未对准具有鲁棒性，这在网络中的较低层（即，空间变形和未对准与比语义特征更低级特征有关）。由于通过DFT方法从较低层估计的类别比通过平均池化方案估计的类别信息更多，因此DFT+与基线或平均池化方案相比实现更多的性能增益。可以通过使用DFT+方法中的DFT来增强使用中间层输出的系综的性能DFT+方法还可以用于通过在反向传播中向中间层提供额外的梯度来其中一个例子是GoogleNet [3]的辅助softmax层，它有助于反向传播在训练中保持稳定。在GoogleNet中，具有平均池化层的辅助softmax在训练期间被添加到中间卷积层。因此，所提出的DFT+方法可用于帮助训练深度网络。另一个感兴趣的问题是深度网络是否可以在不添加DFT函数的情况下学习平移不变性DFT幅度14J. Ryu，M.- H. Yang和J. Lim表5：可学习DFT与基线DFT的比较（topl/top5误差）。分类误差是在AlexNet上测量的，使用ImageNet从头开始学习。基线DFTDFT可学习池化显式地执行2D-DFT运算，但是由于DFT函数本身可以表示为实部和虚部的一系列卷积（称为DFT可学习的），因此可以学习这样的网络以实现相同的目标。为了解决这个问题，我们设计了两个DFT可学习而不是显式DFT函数，其中一个是用2D-DFT的正确参数初始化的，另一个是用随机值初始化的。AlexNet用于本实验，使用ImageNet训练DFT可学习。结果如表5所示。虽然这两个DFT可学习的网络实现了较低的分类误差比基线方法，其性能比所提出的DFT幅度池。这些结果表明，虽然DFT学习可以从数据中学习，但这种方法的表现不如所提出的模型，其中明确考虑了平移不变性和形状保持因子。6结论在本文中，我们提出了一种新的DFT幅度池保持变换不变性和形状保持性能，以及利用它的集成方法。DFT幅度池化通过除了信号的平均之外还包括DFT池化系数的形状信息来扩展常规平均池化通过替换池化层，所提出的模型可以很容易地与现有的最先进的CNN模型相结合为了进一步提高性能，所提出的DFT+方法采用集成方案以通过DFT幅度谱使用中间和最终卷积层输出两者。基于DFT和DFT+的方法所显示的Exteivexerimentalresults在许多分类任务中实现了相对于常规算法的显著改进确认这项工作得到了基础科学研究计划的部分支持，该计划通过韩国教育部资助的韩国国家研究基金会（NRF）（NRF-2017 R1 A6 A3 A11031193），下一代信息计算开发计划通过科学部资助的NRF，ICT（NRF-2017 M3 C4A7069366）和NSF CAREER Grant #1149783。二维DFT初始化随机初始化41.12/19.0840.23/18.1240.64/18.7640.71/18.87基于DFT的变换不变池层视觉分类15引用1. Krizhevsky，A.，萨茨克弗岛Hinton，G.E.：Imagenet分类与深度卷积神经网络。在：神经信息处理系统。（2012年）2. 西蒙尼扬，K.，齐瑟曼，A.：用于大规模图像识别的深度卷积网络。Arxiv（2014）3. 塞格迪角刘伟，Jia，Y.，Sermanet，P.，Reed，S.，Anguelov，D.，Erhan，D.，凡-霍克，Rabinovich，A.：更深的回旋。IEEE计算机视觉与模式识别会议。（2015年）4. 他，K.，张，X.，Ren，S.，孙杰：用于图像识别的深度残差学习IEEE计算机视觉与模式识别会议。（2016年）5. 塞格迪角Vanhoucke，V.，Ioffe，S.，Shlens，J.，Wojna，Z.：重新思考计算机视觉的初始架构。在：IEEE计算机视觉和图形学会议上。（2016）28186. R.N. Bracewell Bracewell，R.N.：傅里叶变换及其应用。第31999卷。03The Dog（1986）7. Zhou ， B. ，（ 1991 年），中国地质大学， Lapedriza ， A. 肖， J. ，Torralba，A.，Oliva，A.：使用地点数据库学习用于场景识别的深度In：Neural Information ProcessingSystem.（201 4）4878. 赫兰茨湖江，S.，李X：使用cnns的场景识别：对象、尺度和数据集偏差。IEEE计算机视觉与模式识别会议。（2016）5719. Lin，T.Y.，RoyChowdhury，A. Maji，S.：用于细粒度视觉识别的双线性cnn模型。IEEE International Conference on Computer Vision （2015年）10. Krause，J.，Jin，H.，杨杰，李菲菲：无需零件注释的细粒度识别。IEEE计算机视觉与模式识别会议。（2015）554611. 张，X.，Xiong，H.，周文，林伟，Tian，Q.：为细粒度图像识别挑选深度滤波器响应。IEEE计算机视觉与模式识别会议。（2016年）12. 格尔希克河Donahue，J.，Darrell，T.，Malik，J.：丰富的特征层次结构，用于精确的对象检测和语义分割。在： IEEE 会议上的CommputerrVision andPatterrn Re cognitio n。（2014）58013. Girshick，R.：快速R-CNN。IEEE International Conference on Computer Vision（2015）144014. Redmon，J.，Divvala，S.，格尔希克河Farhadi，A.：你只看一次：统一的实时物体检测。在：IEEE计算机视觉和模式识别会议上。（2016）77915. 朗J Shelhamer，E.，达雷尔，T.：用于语义分段的全卷积网络。IEEE计算机视觉与模式识别会议（2015）343116. Chen， L.C.，帕潘德里欧，G.，科基诺斯岛墨菲K Yuille，A.L.：Deeplab：使用深度卷积网、无环卷积和全连接的crfs进行语义图像分割。Arxiv（2016）17. 刘志，Li，X.，Luo，P.，Loy，C.C.，唐X：基于深度解析网络的语义图像分割IEEE International Conference on Computer Vision（2015年）18. Toli as，G.，西瑞河，我走了H ：PARTICULAR E T RIEVA L ITEGAX-PO O L I N N A激活。Arxiv（2015）19. Gong，Y.，Wang，L.，美国，Guo，R.，Lazebnik，S.：深度卷积激活特征的多尺度无序池化欧洲计算机视觉会议。（2014）39216J. Ryu，M.- H. Yang和J. Lim20. Cimpoi，M.，Maji，S.，Vedaldi，A.：用于纹理识别和分割的深度滤波器组。IEEE计算机视觉与模式识别会议（2015）382821. Perronnin，F.，舞蹈，C.：基于视觉词汇的Fisher核图像分类。IEEE计算机视觉与模式识别会议。（2007年）22. Simon，M.，Rodner，E.，高，Y.，Darrell，T.，Denzler，J.：广义无序池执行隐式显著匹配。Arxiv（2017）23. 约内斯库角Vantzos岛Sminchisescu，C.：具有结构化层的深度网络的矩阵反向传播。在：IEEE计算机视觉国际会议上。（2015）296524. 高，Y.，Beijbom，O.，Zhang，N.，达雷尔，T.：紧凑的双线性池。在：IEEE ConferenceonComuterVisonandPater nRec o gniton中。（2016）31725. 崔，Y.，Zhou，F.，中国科学院院士，王杰，Liu，X.，中国科学院院士，Lin，Y.，（1996年），Belongie，S.J.：卷积神经网络的核池。IEEE计算机视觉与模式识别会议。（2017年）26. 里佩尔岛Snoek，J.，Adams，R.P.：卷积神经网络工作的谱表示。 In：新形式的生产系统。（2015）244927. 郑湖，赵玉，王，S.，王杰，Tian，Q.：cnn专题转移的良好实践。Arxiv（2016）28. Hariharan，B. Ar bel'aez，P.， Gir shi ck，R.， Malik，J. ：用于分段和细粒度定位的Hype rcolums。IEEE计算机视觉与模式识别会议。（2015年）29. 西蒙尼扬，K.，齐瑟曼，A.：用于动作识别的双流卷积网络。 In：新形式的生产系统。（2014）56830. 张洪，Xue，J.，Dana，K.：深度十：纹理编码网络。IEEE计算机视觉与模式识别会议。（2017年）31. 沙兰湖Rosenholtz，R. Adelson，E.：材料感知：你能从一个玻璃杯里看到什么？J〇unal〇fVis〇n9（8）（2009）78432. Cimpoi，M.，Maji，S.，科基诺斯岛Mohamed，S.，Vedaldi，A.：描述野外的纹理。IEEE计算机视觉与模式识别会议。（2014）360633. Quattoni，A.，Torralba，A.：识别室内场景。IEEE计算机视觉与模式识别会议。（二零零九年）34. Lin，T.Y.，Maji，S.：可视化和理解深层纹理表示。在：IEEEConfe renceonCo m uterVisionandPater nRecognition中。（20 16）279135. Russakovsky，O.，Deng，J.，Su，H.，Krause，J.，Satheesh，S.，妈妈，S.，黄志，Karpathy，A.，Khosla，A. Bernstein，M.等：Imagenet大规模视觉识别技术。InternalJour nalofComuterVison115（3）（2015）21136. Wah，C.，Branson，S.，Welinder，P. Perona，P.，Belongie，S.：加州理工学院-ucsd鸟类-200-2011数据集。技术报告（2011年）37. Fei-Fei，L.费格斯河Perona，P.：从几个训练示例中学习生成视觉模型：在 101 个对象类别上测试的增量贝叶斯方法 C 〇 m

下载后可阅读完整内容，剩余1页未读，立即下载