一阶散射变换在CNN处理中的应用及其在图像分类和检测任务中的性能优势

130 浏览量更新于2023-10-13 收藏 676KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

用一阶散射变换EdouardOyallon，1，4，5Eugene Belilovsky，2Sergey Zagoruyko，3MichalValko41CentraleSupelec，UivrsiteParis-Saclayy2蒙特利尔大学MILA3柳树- Inria Paris，4 SequeL- Inria Lille，5 GALEN- 因里亚·萨克雷抽象。我们研究了一阶散射变换作为减少卷积神经网络（CNN）处理的信号的候选数据。我们展示了理论和经验证据，在自然图像和足够小的平移不变性的情况下，这种变换形式保留了分类所需的大部分信号信息，同时大大降低了空间分辨率和总信号大小。我们证明了将CNN与这种表示进行级联与ImageNet分类模型（通常用于下游任务，如ResNet-50）相当。随后，我们将训练好的混合ImageNet模型作为检测系统的基础模型，该系统通常具有较大的图像输入。在Pascal VOC和COCO检测任务中，与直接在输入图像上训练的模型相比，我们证明了推理速度和训练内存消耗的改进。关键词：CNN，SIFT，图像描述符，一阶散射1介绍用于监督视觉任务的卷积神经网络（CNN）经常从可以任意大的原始图像[1]中学习。用于CNN处理的空间维度和总信号大小的有效减小是困难的。一种方法是在监督CNN的训练过程中学习这种降维。事实上，标准CNN的第一层通常扮演这个角色，并通过池化或步幅运算符降低图像的空间分辨率。然而，它们通常保持输入层大小，甚至通过扩展通道的数量来增加输入层大小。这些池化函数可以对应于线性池化，诸如小波池化[2]、谱池化[3]、平均池化或非线性池化，诸如小波池化[4]或最大池化。例如，AlexNet [5]，VGG [6]或ResNet [7]的两个第一层分别将分辨率降低23，21和22，而层的维度增加1倍。二五3和1。分别3。由于卷积的复杂性是二次的，因此这种空间大小的减小对于计算原因是重要的在空间尺寸上是线性的，而在通道数量上是线性的。这表明减少后续CNN层的输入大小需要仔细设计。在2E. Oyallon，E.Belilovsky，S.Zagoruyko，M.Valko在这项工作中，我们（a）分析了一种通用方法，该方法在没有学习的情况下减少了输入大小和分辨率，（b）表明它保留了足够的信息和结构，允许应用CNN在分类和检测上获得有竞争力的性能。自然图像有很多冗余，可以通过找到一个帧来获得稀疏表示[8，9]。例如，分段平滑信号的小波自然图像）导致多尺度和稀疏表示[10]。这个事实可以用于压缩算法[11]。由于在这种情况下，大部分信息对应于仅几个小波系数，因此可以应用变换编码来选择它们并最终量化信号，这因此是更紧凑的表示。然而，这导致可变的信号大小，因此该方法不适用于需要恒定大小输入的CNN。另一种方法是选择这些系数的子集，其将是线性投影。然而，线性投影将意味着不可避免地丢失重要的判别信息，这对于视觉应用是不期望的因此，我们建议使用一个非线性算子来减少信号的大小，我们证明这样的建设。先前的工作已经提出将预定义的特征输入到CNN或神经网络中。例如，[12]提出在Fisher向量上应用深度神经网络这种方法依赖于在不规则的空间位置处提取重叠的描述符，例如SIFT，因此不允许固定大小的输出。此外，在这些模型中使用的特征增加了信号大小。在[13]中，小波表示在不同的层阶段组合，类似于DenseNet [14]。[15]提出应用2D Haar变换，其导致子采样表示因子为21，但限于此分辨率。与我们的工作同时，[16]提出在原始DCT之上训练CNN，通过降低空间分辨率来提高推理速度，但这种变换是正交的，因此保留了输入大小。此外，[17]提出将二阶散射系数输入到CNN，称为混合散射网络，这导致了像ImageNet这样的数据集的竞争性能。散射变换是基于小波变换的级联和空间平均的模非线性的非线性这导致信号的空间分辨率降低。然而，尽管二阶散射表示更具鉴别力，但它产生比原始输入大小更大的信号。在这项工作中，我们还将预定义的特征输入到CNN中，但明确的目标是在初始阶段产生一个仍然适合CNN处理的压缩表示。特别是，我们表明，一阶散射表示是一个自然的候选人，几个视觉任务。该描述符导致大规模分类和检测的高精度，同时它可以比其二阶对应物更快地计算，因为它需要更少的卷积。如[18]中所解释的，该描述符类似于在许多经典图像分类和检测系统中用作特征提取器的SIFT和DAISY描述符[19，20]。在本文中，我们表明，在混合网络的情况下[17，12]，使用一阶散射用一阶散射变换压缩CNN的输入3仅可以具有相对于二阶和可能更高阶的有利性质。我们的论文的核心是一阶散射和CNN相结合的分析和理由。我们支持它与理论和数值参数。在第2节中，我们证明了具有小尺度不变性的一阶散射在保留重要属性的同时降低了空间分辨率和信号首先，我们从第2.1节中的维度缩减视图激发一阶散射。然后，在第2.2节中，我们通过仅使用一阶散射的合成信号和自然图像的良好重建来说明可忽略的信息损失接下来，在第3节中，我们将在具有挑战性的数据集上进行实验1我们在第3.1节中展示了迁移学习中常用的ImageNet模型的竞争性能。在第3.2节中，我们在COCO和Pascal VOC检测任务中展示了这些基础网络可以在推理速度和内存消耗与准确性方面有所改善2一阶散射在本节中，我们从压缩的角度出发，激发了一阶散射变换的构建事实上，散射变换传统上被构建为保留高频信息的表示，同时构建稳定的不变量w.r.t.平移和变形。虽然使用相同的我们从理论上和数值上表明，一阶散射变换建立有限的不变性平移，减少了输入信号的大小，保留了大部分所需的信息来区分和重建自然图像。还应注意，该表示能够区分自然图像的空间和频率变化。在此部分中，我们都使用G′ab或小波[21]，因为其他分析比较简单，而为了进行比较，我们将使用改进的G′ab或小波，即简单的Morlet小波[17]。我们表明，一阶散射变换不会失去显着的信号特征的自然图像，通过提供重建的例子，通过均方误差最小化。特别是，我们证明了这个属性的高斯斑点作为一个简化的代理自然图像。2.1空间分辨率定义散射一阶变换[22]由母小波和低通滤波器φ定义。输入信号X通过从Φ获得的扩张的带通小波的集合进行滤波，随后是模数，并且最后通过Φ的扩张进行平均。我们选择的小波分解信号的基础上，其中瞬态结构的信号表示更紧凑。我们描述了每个过滤器的建设，并证明每个运营商的必要性1个代码可在https://github.com/edouardoyallon/pyscatlight上获得4E. Oyallon，E.Belilovsky，S.Zagoruyko，M.Valko0^122S0j，θ22j−θ2j22J2J00J0首先，让我们固定一个整数J，它指定低通滤波器的窗口长度。对于类似的应用程序，我们使用了SiderGa´b或Filter s [21]。由于Heisenberg不确定性原理[9]，该滤波器在频率和空间平面之间提供了良好的局部化折衷。因此，具有κ（ω），e−2σ2ω2对于固定带宽σ0和区分角度的倾斜s，我们设置为ω=（ω1，ω2），^（ω），κ..ω，ω2Σ−ωΣ和φ（ω），κ（ω）。频率平面（并且特别是半径为π的镜像频率圆）需要被滤波器的支撑覆盖以避免信息损失。这个问题可以通过欧氏群通过旋转r-θ对ψ的作用来解决并且膨胀j≤J，ψ（u）=1ψ。RuΣ和φ（u）=1φ。uΣ·在这种情况下，每个小波ψj，θ具有1/（2 jσ0）的带宽，并且其中心频率为2jr-θω0。如果滤波器作为一个复合空间在空间域中向上扩展，那么由于奈奎斯特原理，我们可以减少结果的空间采样。我的电脑在工作。我们将其应用于Ga′b或Filter s的c e中。正如我们将看到的，这种频率上的局部化也是基本的，因为它允许以获得平滑的包络。对参数j ≤ J和θ ∈ Θ进行离散化并且调整σ0使得小波变换保留x的所有能量，特征在于ε≥0，.ψ^（ω）。 +。φ（ω）。 ≤1+ε。j≤J，θ∈Θ因此，变换是双李普希兹变换，并且ε 〇的幅度确定小波变换的条件。理想设置是ε〇= 0，对于该理想设置，变换是等距的，其给出信号的一对一映射，同时预处理是2-范数。使用由模数所遵循的数字滤波器进行卷积去除了信号的相位，并且因此应当导致信息的丢失。事实上，[23]证明了可以从其小波变换的模重建信号，直到用柯西小波进行全局平移。此外，存在重建算法[24]，具有稳定性保证并扩展到其他类别的小波。因此，如果适当地应用，小波变换的模不会导致显著的损失。Ad-2000，[22]证明了这种表示对变形是稳定的，这允许在许多视觉应用中方便地构建变形的不变量。我们现在解释降维是如何发生的。Jj，θ用一阶散射变换压缩CNN的输入5^由J参数化的散射一阶变换S[22]为2，定义为Sx（u）=.|φJ（2 J u），x|⋆φJ(2Ju),x⋆φJ(2Ju)Σθ∈Θ，j≤J。低通滤波器φJ建立了一个变换，该变换对于平移直到2J是局部不变的。因此，它将信号的空间采样减少了2J的因子。这也意味着当由N2个系数表示的长度为N的离散化图像被低通滤波器ΦJ滤波时，信号由N2/2个系数表示。因此，用于表示Sx的系数的数量为N2（1+|Θ|J）22J·在我们的例子中，我们使用|Θ|= 8，因为它允许获得频率平面的良好覆盖，并且因此，如果J≥3。低通滤波意味着必要的信息损失，因为它丢弃了一些高频结构并且仅保留低频，这使得低通滤波器的性能降低。对平移更不敏感。评估这种压缩表示的质量是至关重要的，以便验证有足够的信息可用于监督分类器，如CNN，这是我们下一步要做的通过模保存信号信息我们评估由于低通滤波而导致的信息损失，该低通滤波捕获位于低频域中的信号属性注意，如果小波模表示的傅里叶变换位于φJ的带宽中所包括的紧致域中，则不会有信息损失。不幸的是，这种特性在实践中得不到保证。与信号x卷积时，Gab或wavelet均不适用于x，而其特征在于，所得包络更平滑[25，9，26，22，27]。信号的平滑包络意味着低通滤波器可以捕获并保留其能量的重要部分[22]。此外，在x上的逐点规律性的有限假设下，如果信号不为零，则可以量化这种平滑性，如[27]中所做的那样非正式地，对于一个跨-lationxa（u），x（u−a）bya ofx，这意味着如果a 1，则我们暗示|（u）≈| x ψ|（u）。|(u).在这里，我们简单地给出一些显式常数w.r.t.对平移的稳定性，对ψ的逆运算的稳定性。我认为，Ga′b或滤波器的集中式故障诊断技术是基于集中式故障诊断ω0，η0>0，|ψ（ω）|≤ε。一阶散射包含更多的信息，如果模算子平滑的信号。为此，我们表征的稳定性w.r.t.Ga′b或wavelet s的c as e翻译。在特定的情况下，我们提供了以下内容，即Lipshitz约束w.r.t. 翻译.2在下文中，我们省略依赖性w.r.t.标度J6E. Oyallon，E.Belilovsky，S.Zagoruyko，M.Valko˜˜.00（ω）dω。T T22Pro position1. 对于一个ysignalx∈2，不xa其中ε是ε阶的项。证据观察到x ψ − e不 xψ=∫。.eT −e.T（ω）x^.−iω0a一−iω a−iω0a--（ω）dω通过Parseval恒等式≤4ε2x2+∫。（e−iωa−e−iωa）ψ^（ω）.. X^。(notex→eix是1-Lipschitz，因此我们应用Cauchy-Schwartz不等式）≤x2。4ε2+εa<$2η2<$。求平方根就完成了证明。当x（u）=δ0时，对于Ga′b或wa值，我们不认为这是一个等优的问题不是0中的狄拉克，则|eiω0aψ（a）−ψ（0）|∼ ǁxǁǁaǁη0.观察到扩张母小波ψ到ψj相当于将带宽η0扩展到2−jη0。除此之外，Ga´b或L-Feuence更可能是翻译不变量命题1刻画了Lipschitz稳定性w.r.t.翻译和独立性在于，在更本地化的数据库中，更多的翻译是基于签名的。这样，我们将Ga′b或W a视为具有光滑模的小波变换的一个重要条件，并对x进行了有限的假设。不应仅使用多个带Ga´b或多个带Dilatedon e的w avelets，因为这将导致更多的过滤器。此外，[22]表明这些滤波器对变形更不稳定，例如如膨胀，这对于视觉应用是不希望的尽管平移的稳定性，但不能保证一阶散射保留信号的完整能量。下一节通过基于高斯斑点的图像模型和自然图像的重建算法来表征这种能量损失。2.2信息损失我们现在以两种方式描述自然图像的信息损失首先，我们从其一阶散射系数执行图像的经验重建，如在[28，29]中针对二阶所做的，并且观察到对于自然图像，我们确实可以获得一阶散射的有效重建这是相关信号信息被保存的强指示其次，我们考虑一个通用的信号模型，并表明，对于相对较低的尺度因子J，实际上实现了重建。2ǁω−ω0ǁ<η02用一阶散射变换压缩CNN的输入7˜˜˜˜˜(a) 中间：PSNR≈ 26dB，右侧：PSNR≈ 20dB(b) 中间：PSNR≈ 23dB，右侧：PSNR≈ 19dB图1：根据一阶散射系数J = 3、4及其PSNR重建的图像。颜色通道可能会略微平移，从而导致伪影。（左）原始图像x（中）从Sx，J=3重建x 3（右）从Sx，J = 4重建x 4。这表明，即使是复杂的图像可以重建为J = 3，而除以2 3的空间分辨率。重建根据[28，29]，我们提出从S_fr_t或D_fr_s_t重建输入图像X，通过2-范数最小化xJ= infSx − Sy。（一）y我们使用梯度下降，因为所有的运营商是弱可微的，我们分析重建的信号。图1比较了尺度J= 3和J= 4的自然图像与一阶散射的重建在我们的实验中，我们使用初始的ADAM对该重建进行优化。在103次迭代中学习率为10，每2×102次迭代学习率降低10。我们根据相对误差来测量原始图像X错误J（x）=SxJ−Sx·斯克什换句话说，我们评估图像的散射表示与其重建的接近程度。我们停止优化程序，只要我们8E. Oyallon，E.Belilovsky，S.Zagoruyko，M.Valko^~。Σ得到errJ（x）2× 10−3。在J= 3的情况下，观察到信号的重要和高频结构以及它们的空间定位被保留。相反，当J= 4时，精细尺度结构既不好这表明J≥4可能不是S的良好尺度候选。现在，我们在基于斑点的模型上更精确地描述这种损失高斯斑点模型一般信号的散射系数的显式计算是困难的，因为模是一个非线性算子，通常会导致非解析表达式。因此，我们考虑一类简化的信号[30]，其计算是精确的和分析的。对于对称矩阵Σ，我们考虑非归一化信号不，e−ωΣωx^Σ（ω）。图2示出了属于该类别的若干信号这样的信号对应于图2中的斑点或线，这在自然图像中很常见[31]。我们应用我们的重建算法，我们解释为什么重建是具有挑战性的。特别是，我们证明了以下命题，来自高斯之间的卷积，并允许计算其一阶散射系数。直观地说，这个命题说，对于一个特定类别的信号，我们可以得到他们的准确重建从他们的一阶散射系数。注意，对于大的J值，重建在数值上是不可行的。第二个提案。对于任何对称Σ、j和θ，|（u）∝。|(u)∝. xΣ|ψj，θ|Σ（u）。Prof. 在不损失任何一般性的情况下，我们提供了对于ψ^（ω），e− Γω−b2，其中Γ是可逆的且b∈R2。然后，|ψ|（ω）∝ e那么根据定义−ǁΓωǁ2 .设∆（u），xΣψ（u）.∆^（ω）∝e−ωT（Σ + Γ T Γ）ω+2ωT Γ b。当ΓTΓ0时，我们可以设置b，Σ+ΓTΓ−1Γb。然后，结果来自应用于以下的逆傅里叶变换：−（ω−~b）T（Σ+ΓTΓ）（ω−~b）∆^（ω）∝e.因此，一阶散射系数由下式给出：01- 02 - 03张晓波（|ψj，θ|φJ），xΣφJ}θ∈Θ，j≤J.一阶散射系数的简单反演将是一个具有|ψj，θ|φJ，其中hi ch is undertu tutuyporlyconitiond用一阶散射变换压缩CNN的输入9(a) 椭圆(b) 小斑点(c) 线图2：xΣ类型的不同信号的重建。（左）原始图像（中）J= 3时的重建（右）J= 4因为这个滤波器是低通滤波器。然而，由于在梯度计算期间存在模数，求解优化（1对于J≤3，可以恢复原始信号，如图2所示。然而，由于我们在重建期间观察到的平均φJ，J≥4缺乏空间定位实验这证实了我们对本文剩余部分的J= 3的选择3数值实验我们使用一阶散射输出作为CNN的输入进行数值实验。我们的实验旨在验证一阶散射可以保留关键信号信息，并突出它的实际意义。特别是，我们发现，我们获得的性能接近一些最先进的系统，同时提高了推理速度和内存消耗在训练过程中由光年。10E. Oyallon，E.Belilovsky，S.Zagoruyko，M.Valko3.1ImageNet分类实验我们首先描述了我们的图像分类实验上具有挑战性的Im-ageNet数据集。我们的每一个实验都是使用标准的超参数进行的，而没有对我们的混合架构进行特定的调整。没有对一阶散射输入进行广泛的架构搜索，我们相信这些结果可以通过与为自然图像开发的架构和超参数相匹配的资源来改进ImageNet ILSVRC2012是一个具有挑战性的分类数据集。它由1k个类组成，1. 200万张大型彩色图像用于训练，40万张图像用于测试。我们证明，我们的表示不会失去重要的分类信息，通过在ImageNet上获得有竞争力的性能。我们遵循标准程序培训程序[32，17，7]。具体来说，我们采用标准的数据增强和作物输入图像的大小为2242。第一阶散射然后进一步将其减小到28× 28的尺寸我们训练我们的CNN通过随机梯度下降（SGD），动量为0.9，权重衰减为10- 4，批量大小为256张图像，训练了90个epoch。我们将学习率降低0。每30个时期1次。在测试时，我们将图像重新缩放为2562，并裁剪大小为2242的图像。为了构建我们的散射混合网络，我们保持接近原始CNN参考模型。特别是，我们从ResNets [7]和WideResNets [32]模型中构建模型。典型的ResNet由初始层和后续层组成K=4时，可以通过[n1，. . . .，nK]residualbl ock s，其中指定每一层群组中的块的数目。此外，该宽缓冲区是一个约束和等式[w1，. . . ，wK]。类似于[17]，应用初始卷积层以将信道的数量从3 X（1 + 8J）= 75增加到W1。在块的初始层应用步长2k≥2，以降低空间分辨率。残差块中的每一者含有两个卷积运算符，除非应用步长2以替换恒等映射，在这种情况下有三个卷积算子，如[7]中所在下文中，我们将ScatResNet-L称为具有L个卷积运算符的架构正如所讨论的，我们使用J= 3，如[17]中所做的那样在我们的第一个实验中，我们的目标是直接与使用二阶散射的[17因此，我们使用在散射输入上应用K= 2层组而不是典型的4层组的相同结构。这种架构被称为ScatResNet-10 [17]，具有[2 ， 2]层宽度[256， 512]。在这两种情况下，参数的数量大约为12M请注意，参数的数量仅在输入通道的初始数量发生变化时才发生变化表1报告了1阶和2阶散射的相似精度，这表明如果有足够的数据可用并且平移J具有小的不变性，则对于自然图像分类，2阶不会提供可以由CNN利用的更多信息。现在，我们证明了散射一阶变换在应用更复杂的网络时会继续扩展。注意，这在合理时间内的二阶散射是不可能的在我们的例子中，我们避免了计算许多卷积。扩展到这些现代网络用一阶散射变换压缩CNN的输入11允许我们将后续部分中的散射应用于需要ImageNet基础网络的常见计算机视觉任务，并且较小的输入大小导致速度和内存的增益。我们构建的模型是基于ResNet 50架构的ScatResNet-50和基于宽ResNet的WideScatResNet-50-2，该宽ResNet扩展了通道宽度并导致了竞争性性能[32]。由于散射输入以低得多的分辨率开始，因此我们绕过典型ResNet的第一组，其通常由K= 4个层组组成，并将组的数量减少到K=3。典型的ResNet50具有分布在4个层组中的16个残差块。我们保持相同数量的-如在ResNet50中那样对残差块和由此的层进行处理，使用[5，8 ， 3] 块在三个组正如在其非散射模拟中，我们应用瓶颈块 [7] 。ScatResNet-50和WideScatResNet-50-2的块的宽度分别为[128， 256， 512]和[256， 512， 1024]，这与它们的非散射对应物的组2到4的宽度相匹配。表1 ：ImageNet 上的准确性。请注意，基于散射的模型的输入大小为28×28×75，而普通ImageNet模型的训练大小为224×224×3。架构前1前5#参数订单1，2 + ScatResNet-10 [17]68.788.612.8M订单1 + ScatResNet-1067.787.711.4M订单1 + ScatResNet-5074.592.027.8M订单1 + WideScatResNet-50-276.292.8107.2MResNet-50（pytorch）76.192.925.6MResNet-101（pytorch）77.493.645.4MVGG-16 [6]68.588.7138MResNet-50 [7]75.392.225.6MResNet-10176.492.945.4MWideResNet50-2 [32]77.994.068.9MResNet-15277.093.360.2M表1表明，这些架构获得的性能可以与其各自的参考架构进行分类竞争。我们将使用与我们相同的程序训练的参考模型进行比较。3我们还比较了这些模型和几个相关模型的已发表结果。我们评估了ScatResNet-50模型的内存和速度，并将其与表2的前两行中的参考模型ResNet-50和下一个最大的ResNet模型ResNet-101进行比较。我们的比较是在单个GPU上完成的。与[16，33]一样，我们从编码中评估CNN的推理时间。对于内存，我们考虑在训练期间的内存使用，因为我们相信散射模型对于使用较少资源的训练是有用的我们发现3http://pytorch.org/docs/0.3.0/torchvision/models.html12E. Oyallon，E.Belilovsky，S.Zagoruyko，M.Valko我们的散射模型具有良好的性能，在内存和速度的使用相比，其非散射类似物。事实上，作为下一步，我们使用ScatResNet-50网络在检测任务的准确性，速度和内存方面取得了很大的改进，这表明ScatResNet-50功能也适用于检测。表2：ImageNet分类大小（224x224）和检测规模800px的速度和内存消耗。我们比较了不同模型之间学习的CNN的推理速度，以及检测模型的特征提取的推理速度。为了评估内存，我们确定了在单个GPU上训练的最大批量大小。我们使用单个11GB Ti 1080 GPU进行所有比较。架构分类模型检测模型Speed Max im.速度Max im.(64图像）ImageNet （4张图片） Coco订单1 + ScatResNet-500.0721750.0739ResNet-500.0951200.1047ResNet-1010.158700.18223.2检测实验最后，我们将我们的混合体系结构检测。我们的实验和超参数基于[34]的Faster-RCNN实现所指示的那些，而没有对数据集进行任何特定的调整。我们考虑了VOC 07和COCO，并采用ScatResNet-50网络作为我们模型的基础。我们在区域建议网络和检测网络之间共享第二层的输出，它们保持固定。每个输出神经元的感受野对应于162，其类似于[35，7，36]。接下来的层将针对检测任务进行微调，并馈送到分类和盒回归层，如[35]所示，以及[36]中所做的区域建议网络与[7，36]类似，我们修复了所有批次归一化[37]层，包括运行均值和偏差。Pascal VOC07Pascal VOC2007 [38] 由 10k 个图像组成，平均分为训练（“train+val”）和测试，大约有25k个注释。我们选择了与[34]中使用的相同的超参数。我们使用的初始学习率为10- 3，在epoch 5中下降了10，我们报告了epoch 6的准确性在表3中，在测试集上。在训练过程中，图像被翻转并以0.5和2之间的比率重新缩放，使得较小的尺寸为600px，如[7，36]。用于检测的训练程序通常变化很大。这包括批量大小、不同参数的权重衰减以及训练次数用一阶散射变换压缩CNN的输入13Faster-RCNN VGG-16 [34] 70.2Faster-RCNN Order 1 + ScatResNet-50（我们的）Faster-RCNN ResNet-50（我们的）Faster-RCNN ResNet-表3：Pascal VOC7数据集的平均精密度一阶散射允许优于相关模型。地图架构七十三点三七十点五七十二点五时代等。由于这种不一致性，我们训练自己的基线模型。我们使用作为pytorch[39]中torchvision包的一部分提供的ResNet-50和ResNet-101的训练基础网络表3报告了ScatResNet模型与ResNet50和ResNet101模型在此任务上的比较。结果清楚地表明，我们的架构和基础网络导致一个更好的性能方面的mAP。在这个特定的数据集上，也许是由于其较小的尺寸，我们发现混合模型甚至可以优于具有更强基础网络的模型[17]，即ScatResNet-50的性能高于基于ResNet 101的模型。在表2的后两行中，我们显示了不同模型的存储器和速度基本网络特征提取器的推理速度被显示，对于内存，我们显示了mAP与速度和mAP与这里的存储器消耗显然有利于基于散射的模型。我们现在考虑在COCO数据集上进行此任务的更大规模版本表4：COCO 2015 minival的平均精密度。我们的方法相对于流行的方法获得有竞争力的性能。地图架构三十二点二31.0三十四点五二十九点二四十一点八COCO我们同样在COCO数据集上部署ScatResNet-50 [41]。该检测数据集比PASCAL VOC07更难。它有120k图像，其中我们使用115k进行训练，5k用于验证（minival），有80个不同的类别。我们将继续遵循[34]和他们的承诺Faster-RCNN Order 1 + ScatResNet-50Faster-RCNNResNet-50（我们的） Faster-RCNNResNet-101（我们的）Faster-RCNN VGG-16探测器[40]14E. Oyallon，E.Belilovsky，S.Zagoruyko，M.Valko培训和评估协议。具体来说，我们训练Faster-RCNN网络6个epoch，初始学习率为8 × 10 −3，乘以因子0。1在epoch 4。我们使用800 px的最小尺寸，和类似的规模八月-心理状态w.r.t. Pascal VOC07.我们在4个GPU上使用8个批量，并再次训练所有3个模型ScatResNet-50，ResNet-50和ResNet-101。在测试时，我们将最大大小限制为1200px，如[34]所示，以允许在单个GPU上进行评估。表4报告了我们的模型与其非杂合对照相比的mAP。该分数经由IoU阈值上的标准平均值[0. 5，0。95]。我们的架构精度介于ResNet-50和ResNet-101之间。观察表2，在mAP与速度和mAP与这里的存储器消耗仍然支持基于散射的模型。结果表明，基于散射的模型甚至在复杂的接近最先进的模型中也是有利的。我们鼓励未来的工作相结合的散射- ING基于模型与最先进的架构和管道。4结论我们考虑的问题，压缩输入图像，同时保留必要的据我们所知，这个问题还没有得到有效的解决方案。我们激励使用的一阶散射作为候选人执行的信号减少。我们首先完善几个理论结果的稳定性，相对于翻译的一阶散射。Ga´b的最大使用量使捕获的数据具有显著的特征。然后，我们表明，无论是在分析模型和实验，recrusic- tion是可能的。我们在具有挑战性的图像分类和检测数据集ImageNet和COCO上进行了实验，表明可以在一阶散射的基础上构建接近最先进性能的这项工作开辟了道路上的转换，建立压缩的输入表示的研究。最后，我们煽动研究家庭的小波，可以增加分辨率降低，并确定我们的结果gener- alizes到其他类别的信号。致谢 E. Oyallon 得到了NVIDIA 的GPU 捐赠的支持，并得到了Inria DPEI（AAR 2017POD057）与CWI合作的S. Zagoruyko得到了DGA RAPID项目DRAAF的支持本研究还得到了欧洲CHIST-ERA项目DELTA、法国高等教育和研究部、 Nord-Pas-de-Calais RegionalCouncil 、 InriandOtto-von-Guericke-Universita¨tMagdeburgassociated-team北欧项目Allocate以及法国国家研究机构项目ExTra- Learn（n.ANR-14-CE 24 -0010-01）和BoB（n.ANR-16-CE 23 -0003）的支持。用一阶散射变换压缩CNN的输入15引用1. LeCun，Y.，Kavukcuoglu，K.，法拉贝特角等：卷积网络及其在视觉中的应用。在：电路与系统国际研讨会。（2010）2532. Williams，T. Li，R.：卷积神经网络的小波池。国际学习表征会议. （2018年）3. 里佩尔岛Snoek，J.，Adams，R.P.：卷积神经网络工作的谱表示。 In：NeuralInfrmatinPr oces （2015）24494. Le，Q.V.：使用大规模无监督学习构建高级特征。在：声学，语音和信号处理国际会议。（2013）85955. Krizhevsky，A.，萨茨克弗岛Hinton，G.E.：基于深度卷积神经网络的ImageNet分类。在：神经信息处理系统。（2012）10976. 西蒙尼扬，K.，齐瑟曼，A.：用于大规模图像识别的深度卷积网络。ArXiv：1409.1556（2014）7. 他，K.，张，X.，Ren，S.，孙杰：用于图像识别的深度残差学习。C〇mputerVisinandPater nRecognition（2016）7708. 福赛斯地方检察官Ponce，J.：计算机视觉：现代的方法。Prentice Hall专业技术参考（2002）9. Mallat，S.：信号处理的小波之旅。 03 The Chief（1999）10. Mallat，S.，Hwang，W.L.：小波奇异性检测与处理。T·T·E·R·38（2）（1992）617- 643中描述的方法11. Skodras，A.，Christopoulos，C.，Ebrahimi，T.：jpeg 2000静态图像压缩。SignalProocesisingMaagaziene18（5）（2001）3612. Perronnin，F.，Larlus，D.：Fisher向量满足神经网络：一种混合分类算法。 Iη：C〇mputerVisisinandPater nRecognitin。（201 5）374313. Fujieda，S.，Takayama，K.，Hachisuka，T.：用于纹理分类的小波卷积神经1707.07394（2017）14. Huang，G.，刘志，Weinberger，K.Q.，van der Maaten，L.：密集连接的卷积网络。计算机视觉与模式识别。（2017年）15. Levinskis ， A. ：基于小波变换的卷积神经网络特征约简。ElektronikairElektrotech nika19（3）（20 13）6116. 盖根湖Sergeev，A.，刘，R.，Yosinski，J.：更快的神经网络直接从JPEG。上一篇：国际学习代表研讨会。（2018年）17. Oyallon，E.，Belilovsky，E.，Zagoruyko，S.：扩展散射变换：深度混合网络。国际计算机视觉会议（International Conference on ComputerVision）（2017年）18. Bruna，J.，Mallat，S.：不变散射卷积网络。Transactions onPatternAnalysis andMac hi neIntellige35（8）（2013）187219. S'anchez，J.， Per〇 nnin，F.， M.sink，T.， Ver beek，J. ：Imagec lasificatinthfisher vector：理论和实践国际计算机视觉杂志105（3）（2013）222-24520. Morel，J.M.，Yu，G.：ASIFT：一个新的完全仿射不变图像合成框架。医学科学杂志2（2）（2009）43821. Olshausen，文学士，菲尔德，D.J.：通过学习自然图像的稀疏代码来获得简单细胞感受野特性Nature 381（6583）（1996）60722. Mallat，S.：群不变散射纯粹与应用数学通讯65（10）（2012）133116E. Oyallon，E.Belilovsky，S.Zagoruyko，M.Valko23. Mallat，S.，Waldspurger，I.：基于柯西小波变换的相位恢复。J〇urnalofForrieAnalysis andA pplicati〇 ns21（6）（2015）125124. 我是说，D' A 是我的朋友 A我会的 S ： Phaser ec over y y ，maxcutandcmplexemidefi t e p r a m itepramg. MathemalPrograming149（1-2）（2015）4725. Krajsek，K.，梅斯特， R.：可操纵和正交滤波器的统一理论。In：AdvancesinComputerGraphicsandComputerVision. （2007年）20126. 所以你来了 R ： Oandelettesanalytiquueesetmono g`enespourlarepr´esentationdesim-agescoleur. 第50集9.6The Universe'sUniverse（2012）27. Delprat ， N. ，是的 BGuillemmanin ， P. ， Kronland-Martinet ， R. ，Tchamitchian，P.，Torresani，B.：渐近小波和Gabor分析：瞬时频率的提取。T.R.38（2）（1992）644- 664中描述的方法28. Bruna，J.，Mallat，S.：具有散射时刻的音频纹理合成arXiv：1311.0407（2013）29. Brunna，J. ：为注册表查找表项。PhDthesis，E´colPolytech-03 The Dog（2013）30. Lindeberg，T.：具有自动尺度选择的特征检测。国际压缩机杂志30（2）（1998）7931. Lowe，D.G.：从尺度不变的关键点中提取独特的图像特征。Interna-tionlJour nalofComuterVison60（2）（20 04）9132. Zagoruyko，S.，Komodakis，N.：广残的关系网。在：英国机器视觉会议。（2016年）33. 托尔法松河Mentzer，F

下载后可阅读完整内容，剩余1页未读，立即下载