多维张量分解方法降低高阶CNN的参数数量与内存需求

93 浏览量更新于2023-10-25 收藏 839KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1分解高阶CNN应用于时空情感估计让·科赛菲Nvidia安托万·托瓦苏尔三星AI中心蒂莫西·霍斯佩达莱斯阿德里安·布拉特三星AI中心Maja PanticYannis Panagakis雅典大学三星AI中心伦敦帝国理工学院摘要使用时空（即，3D）或更高阶的多维卷积在为了缓解这种情况，一种方法是将低秩张量分解应用于卷积核，以压缩网络并减少其参数数量或者，可以直接设计新的卷积块（如MobileNet）在本文中，我们统一了这两种方法，提出了一个张量分解框架的有效多维（可分）卷积的高阶。有趣的是，所提出的框架实现了新的高阶转导，允许在给定域上训练网络（例如，2D图像或一般的N维数据），并使用转换来推广到更高阶的数据，如视频（或一般的（N+K）我们提出的方法，创造 CP 高阶卷积（ HO-CPConv），时空的面部情感分析。现有的面部情感模型大多集中在静态图像上，而忽略了所有的时间信息。这是由于上面提到的训练3D卷积网络的负担以及缺乏由专家注释的大量视频数据我们通过我们提出的框架解决这两个问题初始训练首先在静态图像上进行，然后使用转导来推广到时域。我们在三个具有挑战性的大规模影响估计数据集Af- fectNet，SEWA和AFEW-VA上表现出卓越的性能。共同第一作者。[2] Jean Kossaifi、Yannis Panagakis和Maja Pantic分别就职于三星人工智能中心、剑桥大学和伦敦帝国理工学院。1. 介绍随着深度卷积神经网络取得前所未有的成功，人们开始寻求训练更深的网络。然而，虽然更深的神经网络在适当训练时会提供更好的性能，但这种深度也会转化为内存和计算量大的模型，通常具有数千万个参数。这在训练高阶卷积网络时尤其如此-例如。三阶（3D）视频。然而，这样的模型是必要的，在时空域中执行预测，并在许多应用中是至关重要的，包括动作识别和情感识别。在本文中，我们离开传统的方法，并提出了一种新的因式分解多维卷积块，通过有效地使用数据中的结构，实现卓越的性能此外，我们的模型可以首先在图像域上进行训练，然后无缝扩展以将性能转移到时域。这种新的转导方法是可能的，我们提出的块的结构。此外，它允许大幅减少参数数量，同时提高性能和计算效率，并且可以应用于现有的时空网络架构，如ResNet3D [47]。我们的方法利用CP张量分解，以便分别学习3D卷积的解纠缠的空间和时间信息。这在很大程度上提高了准确性，同时减少了时空架构的参数数量，并极大地促进了对视频数据的训练。总之，我们做出以下贡献：• 我们表明，许多深网架构改进，如MobileNet或ResNet块，实际上是从同一个更大的张量分解方法家族中得出的（第3节）。我们提出了一个统一的张量分解和有效的架构的一般框架，显示这些效果如何60606061静态可分离（2D）卷积时空（3D）可分离卷积时间静态预测…时间预测唤醒转导唤醒……t1t2 t3t T价价++ …++ …卷积因子卷积因子图1：我们的方法概述，这里表示单个输入的单个通道。我们首先用我们提出的静态图像上的因式分解卷积块训练2D CNN（左）。然后，我们应用转换将模型从静态扩展到时空域（右）。预先训练的空间因子（蓝色和红色）首先保持固定，然后在时间因子（绿色）训练完成后联合微调所有参数。通过对卷积核应用张量分解，可以导出有效的结构（3.4节）• 使用这个框架，我们提出了因子分解的高阶卷积神经网络，利用ef-有效的一般多维卷积。这些实现了相同的性能与一小部分的参数和浮点运算（第4节）。• 最后，我们提出了一种新的机制，称为高阶转导，可以用来转换我们的模型，在N维训练，N+K维。• 我们表明，我们的因子分解高阶网络在AffectNet，SEWA和AFEW-VA数据集上的静态影响估计方面优于现有的工作。• 在静态模型上使用转导，我们还展示了SEWA和AFEW-VA数据集。2. 背景和相关工作多维卷积出现在不同领域的几个数学模型中。它们是卷积神经网络（CNN）[26，28]的基石，使它们能够通过减轻维数灾难[34]有效地从高维数据中学习。然而，CNN在计算上要求很高，卷积的代价在训练和推理过程中都占主导地位因此，人们对提高多维卷积的效率越来越感兴趣。已经提出了几种有效的卷积实现。例如，通过将卷积核转换为Toeplitz矩阵，2D卷积可以有效地实现为矩阵乘法但是，此过程需要复制多个内核值在Toeplitz矩阵中的不同矩阵列之间的时间，从而增加了存储器需求。通过im2col方法实现卷积也是内存密集型的，因为构建列矩阵需要空间。这些存储器要求对于移动或嵌入式设备来说可能是禁止的，从而阻碍了CNN在资源有限的平台中的部署。一般来说，大多数现有的有效卷积的尝试是孤立的，目前没有统一的框架来研究它们。特别是，我们对两个不同的工作分支感兴趣，我们将在下面进行审查。首先，利用张量方法进行有效卷积的方法，可以压缩或重新表达它们以提高速度。其次，直接制定有效的神经架构的方法，例如，使用可分离卷积。张量方法[14，41，17]的特性使其成为深度学习的首选。除了对深度神经网络属性的理论研究[3]之外，还特别在重新参数化现有层的背景下对其进行了研究[49]。这种重新参数化的一个目标是节省参数空间[7]。[31]例如，提出将全连接层的权重矩阵重塑为具有Tensor-Train（TT）结构的高阶张量[32在后续工作[4]中完全连接的层和平坦层可以一起删除，并替换为张量回归层[21]。这些通过从高阶激活张量到任意阶的输出张量的低秩多线性映射来在保持多线性结构的同时，还可以通过应用张量收缩来节省参数空间[20]。张量重新参数化的另一个优点是计算速度加快。特别地，张量分解是从卷积核获得可分离滤波器的有效方式提出了这些可分离卷积6062在计算机视觉中，[36]在滤波器组的背景[12]首先将这一概念应用于深度学习，并提出使用可分离的卷积来利用跨通道的冗余。[1，27]提出将CP分解直接应用于预训练的2D卷积层的（4通过微调补偿了性能上的内在损失。卷积的有效重写也可以使用Tucker分解而不是CP来分解预训练网络的卷积层[15]。这允许将卷积重写为1×1卷积，然后是具有较小内核的常规卷积和另一个1×1卷积。在这种情况下，卷积核的空间再次，损失通过微调整个网络来补偿性能。最后，[46]建议删除卷积层中的冗余，并将其表示为具有较少参数的两个卷积层的组成。每个2D滤波器由秩-1矩阵的和来近似由于这种限制性设置，可以通过SVD容易地获得封闭形式的解在这里，我们统一了上述工作，并提出了因子分解高阶（可分离）卷积。高效的神经网络虽然自使用张量分解的深度学习的早期发展以来，已经研究了诸如可分离卷积的概念，但是它们只是相对最近才被“重新发现”并被提出作为独立的端到端可训练的高效神经网络架构。神经网络架构优化方向的第一次尝试是在开创性的VGG网络[42]中提出的，其中AlexNet [25]中使用的大型卷积核被替换为一系列具有等效卷积核感受野大小：即一个5×5核的卷积可以被两个连续的3×3的卷积代替。并行地，将较大的内核分解为在Inception块[43，44，45]的多次迭代中探索了一系列较小的卷积层，其中具有7×7内核的卷积层近似为两个7×1和1×7个内核。 [8]所谓的瓶颈通过使用两个卷积层和1×1滤波器来回投影特征，减少具有较高内核大小（3×3[48]通过用分组卷积层替换3×3卷积来扩展这一同时，增强代表性。最近，[10]引入了MobileNet架构，他们提出用深度方向可分离模块：深度方向3×3卷积tion（组的数量等于通道的数量），然后是一个1×1卷积层，在所提供的性能和它们所引起的计算成本之间提供良好的平衡[39]更进了一步，并将在反向瓶颈模块中使用可分离卷积的想法拟议的模块使用1×1层扩展然后收缩通道（因此反向瓶颈），同时对3×3卷积层使用可分离卷积面部情感分析是改善人机交互的第一步。早期的研究集中在检测离散的情绪，如快乐和悲伤，基于这些是普遍的假设。然而，这种对人类情感的分类是有限的，并不涵盖人类日常表现出的广泛的情感范围。此后，心理学家们转向了更细粒度的情感维度测量[35，38]。我们的目标是评估连续的效价水平--情绪表现的积极或消极程度--和唤醒水平--情绪体验的兴奋或平静程度。这个任务是最近大多数情感估计研究的主题[37，19，23，50]，也是本文的重点。效价和唤醒是随时间变化的影响的维度测量。正是这些变化对于准确的人为影响估计非常重要。因此，捕捉情绪的时间动态是至关重要的，需要视频而不是静态分析。然而，时空模型由于其大量参数而难以训练，需要非常大量的注释视频才能成功训练。不幸的是，在自然条件下收集的可用视频数据和注释的质量和数量较低[40]。因此，在这一领域的影响估计在野外的大部分工作集中在静态图像的影响估计[23，30]。然后，在逐帧的基础上进行来自视频的估计。在这里，我们解决了这两个问题，并训练时空网络，其性能优于现有的影响估计方法。3. 张量框架中的卷积在本节中，我们将探讨ten- sor方法与深度神经网络卷积层之间的关系。不失一般性，我们在以下所有公式中省略批量大小数学背景和符号我们将一阶我们将X与W的正则卷积表示为XnW。对于一维卷积，我们将张量X ∈ R I0，···，IN与向量v ∈ R K沿第n阶模的卷积记在实践中，就像当前的深度学习框架[33]一样我们使用互相关，其通过内核的翻转而这不会影响结果因为权重是端到端学习的。换句话说此信息这些类型的结构被证明是-（Xnv）i0，···，iN=Kk=1 vkXi0，···，in−1，in+k，in+1个、···、IN.6063不（W）电子邮件Gr，r，r，r U U UU3.1. 1× 1卷积与张量收缩我们证明了1×1卷积等价于卷积核沿通道维数的张量收缩考虑一个1 × 1卷积Φ，定义为核W ∈ RT ×C ×1×1，并应用于一个我们把沿第一模的压缩形式W记为W ∈ RT×C。张量T ∈RI0×I1×···×IN与矩阵的张量压缩M∈RJ×In，沿着的n阶模式（n∈[0]. .N]），称为定义作为P=T ×nM，其中：Pi0，···，iN =图2：2D Kruskal卷积的图示。3.3.塔克卷积如前所述，我们考虑卷积F=X<$W。然而，代替Kruskal结构，我们现在假设内核W上的低秩Tucker结构（其可以通过应用Tucker分解容易地获得）和ΣInk=0 Ti0，···，in−1，k，in+1，···，i NMin，k一个有效的公式[15]。我们可以这样写：通过将其插入Φ（X）的表达式，我们很容易地观察到1×1卷积等价于X和矩阵W之间的n模乘积：W（t，s，j，i）=R0−1R1−1R2−1R3−1r0=0r 1=0r 2=0r 3=0（T）（C）（H）（W）0123t，r0s，r1j，r2i，r3Φ（X）ΣC=XW=WX= X ×W插回卷积，我们得到：ΣC ΣH WRt，y，xt，k，y，xk，y，x0Ft，y，x=Gr，r，r，rU（T）U（C）U（H）U（W）Xk，j+y，i+xk=0k=1j=1i=1r0=0r 1=0r 2=0r 3=00123t，r0k，r1j，r2i，r33.2. Kruskal卷积我们可以进一步把沿空间维的因子吸收到核中，记为H=G×2U（H）×3U（W）.在这里，我们展示了可分离卷积是如何被ob-be-j，r2在这种情况下，上述表达式简化为：i，r3通过将CP分解应用于正则卷积的内核来获得[27]。我们认为卷积定义为ΣCFt，y，x= ΣHΣW R0−1R1−1Hr，r，j，iU（T）U（C）Xk，j+y，i+x通过其核权张量W ∈RT×C×KH×KW，应用于大小为RC×H×W的输入。设X ∈RC×H×W是任意的激活张量.如果我们定义结果特征0 1k=1j=1i=1r0=0r 1=0t，r0k，r1（三）映射为F=X<$W，我们有：换句话说，这等价于第一次转换信道的数量，然后应用（小）卷积，ΣCFt，y，x= ΣHΣWW（t，k，j，i）X（k，j+y，i+x）（1）在从等级返回到目标通道数之前，这一点可以通过重新排列k=1j=1i=1假设核W（可以通过应用CP分解容易地获得）等式3：R0−1ZHWR1 −1 CΣΣΣΣF=U（） HU（C）X（k，j+y，i+x）我们可以这样写：t，y，xt，r0r0，r1，j，i1.k，r101你好，R−1“我的天1×1转换器XW=U（T）U（C）U（H）U（W）（二）H×W转换器的t，s，j，ir=0t，rs，rj，ri，r联系我们1×1转换通过将2插入1并重新排列这些项，我们得到：R−1F=我的天U（T）U6064U（H）CU（C）X（k，j+y，i+x）t，y，xr=0t，r i=1i，rj=1j，rk=1k、r图3：表示Tucker卷积的图示`˛¸ x1×1转换器联系我们深度转换联系我们深度转换联系我们1×1卷积作为一系列小的有效卷积。注意这是ResNet针对瓶颈区块所采取的方法。简而言之，这简化为以下表达式，也在图3中示出：这允许用一系列的卷积来代替原始的卷积。有效的dependable可分离卷积[27]，图2。..ΣF=X×0U（C）Σ*G×0U（T）（4）60653.4. 张量框架中的高效架构虽然张量分解在数学领域已经探索了几十年，在深度学习的背景下也已经探索了多年，但它们经常以不同的形式被重新发现和重新引入。在这里，我们在张量因子化的镜头下重新审视流行的具体来说，我们展示了如何通过将张量分解应用于其内核来从常规卷积中获得这些块。在实践中，批量归一化层和非线性被插入中间卷积之间，以便于从头开始学习。ResNet瓶颈块[9]引入了一个块，图4：MobileNet块是CP卷积的特殊情况，没有第一个卷积，并且空间因子被组合成一个。张量（如图5所示）表示为：R−1Wt，s，j，i=U（T）U（C）U（S）（五）瓶颈块在他们的开创性工作的深剩余网络-工程. 它包括一系列1×1卷积，以减少r=0t，r s，r j，i，r通道的数量，一个较小的规则（3×3）卷积-然后进行另一个1×1卷积，以将秩恢复到所需的输出通道数基于equiva-在第3.3节中导出的公式中，可以直接将其视为将Tucker分解应用于正则卷积的内核ResNext和XceptionResNext [48]建立在这个瓶颈架构上，正如我们所示，它相当于将Tucker分解应用于卷积核。为了进一步降低秩，输出表示为这些瓶颈的和，具有较低的秩。这可以有效地重新制定使用分组-convolution [48].与此同时，[2]提出了一种类似的方法，但在分组dependency卷积之后没有1×1MobileNet v1MobileNet v1 [10] 使用由可分离卷积（卷积的空间部分）和1×1卷积组成的构建块来调整输出通道的数量这可以很容易地获得从CP分解（第3.2节）如下：首先，我们写出如等式2中详细描述的卷积权重张量，其秩等于输入通道的数目，即R=C。第一深度可分离卷积可以通过组合两个空间1D卷积U（H）和U（W）来获得。这导致了一个单一的空间因素U（S）∈RH×W×R，使得U（S）=U（H）U（W）.的在实践中，MobileNet-v2还包括批量规范化层和非线性以及跳过连接以促进学习。图5：MobileNet-v2块是CP卷积的特殊情况，空间因子合并到深度可分离卷积中。4. 分解高阶卷积我们建议将上面介绍的框架推广到任意阶的卷积。具体来说，我们表示，在一般情况下，可分离的ND卷积作为一系列的张量收缩和一维卷积。我们展示了这是如何从N维内核上的CP卷积导出的。然后，我们详细介绍了如何扩展我们提出的因子分解高阶卷积，在N维训练到（N+1）维。通过高阶因子化的有效N-D卷积特别地，在这里，我们考虑N+1j，i，rj，ri，r使用C通道转换为N维。我们定义了一个基因-1× 1卷积则由其余因子的矩阵积U（F）=U（T）给出。U（C）∈RT×C. 这如图4所示。MobileNet v2MobileNet v2 [39]采用了类似的AP，一般的高阶可分卷积Φ由核W ∈RT×C×K0×···×KN−1定义，并表示为Kruskal 张量，即 W=λ;U（ T ），U（C），U（K0），···，U（KN−1））。我们可以这样写：通过将空间因素分组为一个空间因素来进行研究U（S）∈RH×W×R，如前面对以下情况所解释的那样：Φ（X）t，i0，···，iN−1R=0分···MobileNet。然而，其他因素未受影响。r=0s=0i0=0在这种情况下，分解的秩对应于，···KN−1λ<$U（T）U（C）U（K0）···U（KN−1）X<$对于每层，扩展因子×输入通道数这导致两个1×1卷积和一个3×3卷积。RiN−1=0t，rs，ri0，riN−1，rs，i0，···，iN−1深度可分离卷积最后，通过重新排列项，可以重新编写此表达式-6066k=0KΣN1l=0l十为：F=. - 是的ΣΣρ X ×0U（T） ×0.Σdiag（λ）U（C）（六）200其中ρ应用1D空间卷积：.Σ150ρ（X）=X<$1U（K0）<$2U（K1）<$···<$N+1U（KN−1）100众所周知，张量分解（特别是分解卷积）很难端到端训练[12，27，46]。因此，大多数现有的方法依赖于首先训练未压缩的网络，然后分解卷积核，然后用它们的有效重写和微调来替换卷积，以恢复丢失然而，这种方法不适合于高阶卷积，在高阶卷积中训练完整的N-D卷积可能不实用。可以通过将因子的大小吸收到权重向量λ中来促进从头开始的训练。我们还可以添加非线性项（例如，批归一化与卷积U 相结合），得到以下表达式，从而得到有效的高阶CP卷积：. - 是的ΣΣΣF=ρ<$X ×0U（T）×0diag（λ）U（C）（7）500图6：常规3D卷积和我们提出的方法之间的Giga-FLOP数量比较。我们考虑大小为32×32×16的输入，并改变输入和输出通道的数量（x轴显示输入×输出通道）。我们提出的CP-HO卷积，这里的秩等于6和3倍的输入通道（CP-HOConv-6和CP-HOConv-3）的FLOP显著低于常规卷积（3D-Conv）。N+1维。为此，我们引入一个新的因子也可以通过引入.附加因子U（S）∈RC×T，利用F′=X+F ×0U（S）。U（KN+1）∈R（KN+1×R）对应于新的N+1阶维度最终公式为：这种公式比常规卷积的效率高得多。让.F=ρρ.X ×0UΣΣ（T）×0 .diag（λ）UΣ（C）、（8）卷积，具有C输入通道和T输出通道，即大小为W ∈RC×T×I0×···×IN−1的权。然后一个注册-其中ρ（X）=ρ（X）<$N+1U（KN+1）。常规3D卷积具有C×T×. QN−1k=0Ik参数注意，仅需要训练新因子，例如，可以通过简单地训练KN+1×Rad来完成转导。很好。相比之下，我们的HO-CP-卷积的秩为R的解只有−RC+ T +I +1参数。+1项ac-计算权重λ。例如，对于具有立方核（大小为K×K×K）的3D卷积，常规3D卷积将具有CT K3参数，而对于我们提出的因子分解版本，只有R（C+T+3K）参数数量的减少意味着在浮点运算（FLOP）方面，它的效率要高得多我们在图 6 中显示了 Giga FLOP （ GFLOP ， 1GFLOP =1e9FLOP）数量的可视化，对于常规的3D卷积和我们的亲卷积，参数。自动秩选择我们提出的因子分解高阶卷积引入了一个新的额外参数，对应于因子分解的秩这可以通过引入权重向量（在等式8中由λ表示）来有效地并入公式中。这允许我们通过在损失函数中引入额外的Lasso项来自动调整每个层的秩，例如，λ上的一个λ1正则化。设λl为vec-每一层的权向量l ∈ [0. - 是的 L-1]的神经元网络，与损失L相关联。整体损失，提出的方法，对于大小为32×32×16的输入，输入和输出通道的数量，以及内核大小正则化将成为Lreg =L +γL−1|λ |得双曲余切值.3×3 ×3。高阶转换在这里，我们引入转换，其允许首先训练N由于Equa中引入的高效配方，第七，我们现在有一个有效的方法从N维到N+1。我们将自己置于与方程7相同的设置中，其中我们具有具有空间维度的规则N-D卷积，并将模型扩展为CP-HOConv-3CP-HOConv-63D转换GFLOPS6067γ控制权重中的稀疏度。5. 实验环境用于野外影响估计的数据集我们验证了我们的方法在已建立的大规模数据集上的性能，用于野外连续影响估计。AffectNet [30]是人脸的大型静态数据集，并根据面部标志、情感类别以及效价和唤醒值进行标记。它包含6068σ2+σ2+（µ−µ）2α+β+γnσ σ超过100万张图片，包括45万张由12位专家标注的图片。AFEW-VA [23]由取自故事片的视频剪辑组成，并根据连续的效价和唤醒水平对每帧进行准确注释此外，还为每帧提供了68个SEWA [24]是最大的视频数据集，用于在野外进行影响估计。它包含超过2000分钟的音频和视频数据，根据面部标志，效价和唤醒值进行注释。它包含来自六种不同文化的398名受试者，性别平衡，统一跨越CCC是Lin的一致性相关系数，并且评估两个信号的相关性以及两个信号的接近程度：CCC（y，y）=2σyσyPCC（y，y）。yy yy连续影响估计的目标通常是最大化相关系数PCC和CCC。然而，最小化RMSE也有助于最大化相关性，因为它在每个单独的预测中给出了较低的误差。我们的回归损失函数反映了这一点，三项评分：L=1（αLRMSE+βLPCC+γLCCC），其中LRMSE=RMSE效价+RMSE唤醒，LPCC= 1 −PCC化合价+PCC激发 LCCC= 1−年龄在18岁到65岁之间2公司简介价2唤醒系数α、β和γ是振动的。实现细节我们实现了所有模型使用PyTorch [33]和TensorLy [22]。在所有情况下，我们将数据集分为独立于主题的训练集、验证集和测试集。对于我们的因子化高阶卷积网络，我们进一步删除了平坦化和全连接层，并将其替换为单个十元回归层[21]，以完全保留激活中的对于训练，我们采用了Adam优化器[16]，并验证了范围[10- 5; 0]内的学习率。01]，范围[0. 0; 0。999]和权重衰减范围[0. 0; 0。01]使用随机网格搜索。我们还将每15个epoch的学习率降低了10正则化参数γ在范围[10−4; 1. 0]，因此设置为0。01其他实验对于我们的基线，我们使用3D ResNet和ResNet2+1D [47]，两者都具有ResNet-18主干。对于我们的方法，我们使用相同的ResNet-18架构，但用我们提出的高阶因子分解卷积替换每个卷积层。我们初始化秩，使参数的数量与原始卷积相同。当执行转换时，向CP卷积添加的时间因子被初始化为常数值1。在第一步骤中，这些因素被优化，同时保持其余参数固定。然后对整个网络进行微调。这避免了trans-ducted因素污染什么已经在静态情况下学习图1总结了整个过程。性能指标和损失函数在所有情况下，我们报告RMSE，SAGR，PCC和CCC的性能，这些是影响估计中使用的常用指标。设y为地面实况信号，y表示模型的关联预测RMSE是众所周知的均方根误差：RMSE（y，y=0）=E（（y-y）2）.SAGR评估两个信号的符号是否在范围[0; 1]中随机采样的抖动正则化系数[5]遵循均匀分布。这些确保了在优化过程中不会忽略任何项在AffectNet上，可以获得离散的情绪类别，我们联合执行了效价和唤醒的回归，通过将交叉熵添加到所述损失函数来确定所述情感类别的值和分类。6. 绩效评价在本节中，我们报告了我们的方法在野外进行面部情感估计的性能。首先，我们报告静态图像的然后，我们展示了如何高阶转导使我们能够将这些模型扩展到节奏域。在所有情况下，我们与最先进的技术进行比较，并显示出优越的结果。野外静态影响分析与首先，我们展示了我们的模型在单个（静态）图像上训练和测试的性能。我们在AffectNet上训练我们的方法，AffectNet是最大的数据库，但仅包含静态图像。在那里，我们的方法远远优于所有其他作品（表1）。我们在SEWA（表2）和AFEW-VA（表3）上观察到在补充文件中，我们还报告了LSEMSW [11]和CIFAR10 [25]的结果。时间预测经由高阶转换然后，我们应用如方法部分中所述的转换，以将静态模型从SEWA（表2，时间情况）和AFEW-VA（表3，时间情况）转换到时间域，其中我们简单地训练添加的时间因子。这种方法允许在即使很小的数据集上有效地训练时间模型。我们的方法优于其他方法，尽管只有1100万个参数，而相应的 3D ResNet 18 有 3300 万个参数，（ 2+1 ） DResNet有310018.有趣的是，在所有的情况下，我们注意到原子价更好-同意：SAGR（Y，y）=1ni=1 δ（sign（yi），sign（yi））.比唤醒更能预测，这与PCC是Pearson积矩相关系数，效率并测量两个信号的相关程度：PCC（y，y）=E（y−µy）（y−µy）。yy心理学家认为，人类更善于从视觉数据中估计效价[38，6]。使用中详细介绍的自动等级选择过程，6069表1：AffectNet数据集的结果效价唤醒网络Acc.RMSESAGRPCCCCCRMSESAGRPCCCCC[30]第三十话0.580.370.740.660.600.410.650.540.34Face-SSD [13]-0.440.730.580.570.390.710.500.47VGG-面部+2 M imgs [18]0.600.370.780.660.620.390.750.550.54基线ResNet-180.550.350.790.680.660.330.80.580.57我们0.590.350.790.710.710.320.80.630.63表2：SEWA数据库的结果情况网络RMSEValenceSAGRPCCCCCRMSE唤醒SAGRPCCCCC[24日]--0.320.31--0.180.20ATIC[29]第二十九话0.33-0.500.470.39-0.440.39StResNet-180.370.62 0.330.290.520.62 0.280.19我们0.330.65 0.640.60.390.75 0.480.44RALResNet-3D0.370.59 0.470.410.410.69 0.290.21poResNet-（2+1）D0.350.63 0.590.490.410.63 0.390.31M我们的0.330.63 0.620.540.400.72 0.420.32Te我们的0.240.69 0.840.750.320.80 0.600.52Table 3: Results on the AFEW-VA database情况网络RMSEValenceSAGRPCCCCCRMSE唤醒SAGRPCCCCC[23]第二十三话0.27-0.407-0.23-0.45-ATIC[29]第二十九话0.40-0.330.330.41-0.420.4StResNet-180.430.42 0.050.030.410.68 0.060.05我们0.240.64 0.550.550.240.77 0.570.52al基线ResNet-18-3D0.260.56 0.190.170.220.77 0.330.29或ResNet-18-（2+1）D0.310.50 0.170.160.290.73 0.330.20MP[19]第十九话--0.510.52--0.5750.556Te我们的0.280.53 0.120.110.190.75 0.230.15我们的0.200.67 0.640.570.210.79 0.620.56在第4节中，我们让模型端到端地学习每个分解的高阶卷积的秩我们发现，平均而言，8%到15%的参数可以设置为零，以获得最佳性能。在实践中，Lasso正则化将大约1100万个参数中的100万补充文件中提供了对自动等级选择效果的深入研究。7. 结论我们在一个统一的框架中建立了张量因子分解和有效卷积之间的联系基于为此，我们提出了一种因式分解的高阶（N维）卷积块。这将产生优于传统网络的高效模型，同时具有更高的计算和内存效率。我们还介绍了一种高阶转换算法，用于将训练的N 然后我们应用我们的方法到自然主义条件下的连续面部情感估计。使用转导，我们将在静态图像上训练的模型的性能转移到时间域，并在两种情况下报告了最先进的结果。6070引用[1] 玛塞拉·阿斯特丽德和李承益卷积神经网络压缩的cp分解和张量幂方法CoRR，abs/1701.07148，2017。3[2] 弗朗索瓦·肖莱。Xception：使用深度可分离卷积的深度学习在计算机视觉和模式识别，2017。5[3] Nadav Cohen，Or Sharir，and Amnon Shashua.关于深度学习的表现力：张量分析在学习理论会议上，第698-728页，2016年。2[4] TimurGaripov ， DmitryPodoprikhin ， AlexanderNovikov，and Dmitry Vetrov.终极张量化：类似地压缩卷积层和FC层。NIPS研讨会：学习Tensors：为什么现在和如何？，2016年。2[5] 泽维尔· 加斯塔尔迪Shake-shake 正则化arXiv预印本arXiv：1705.07485，2017。7[6] 迈克尔·格里姆和克里斯蒂安·克罗舍尔使用三维情感空间概念的语音情感估计。摘自迈克尔·格里姆和克里斯蒂安·克罗舍尔主编的《稳健的演讲》，第16章。IntechOpen，里耶卡，2007年。7[7] JuliaGusak ， MaksymKholiavchenko ， EvgenyPonomarev，Larisa Markeeva，Philip Blagoveschensky，Andrzej Ci-chocki，and Ivan Oseledets.神经网络的自动多级在IEEE国际计算机视觉会议（ICCV）研讨会上，2019年10月。2[8] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在计算机视觉和模式识别，2016年。3[9] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在计算机视觉和模式识别，2016年。5[10] Andrew G. Howard，Menglong Zhu，Bo Chen，DmitryKalenichenko，Weijun Wang，Tobias Weyand，MarcoAn- dreetto，and Hartwig Adam. Mobilenets：用于移动视觉应用的高效卷积神经网络CoRR，abs/1704.04861，2017。三、五[11] 胡国胜，刘莉，杨元，余泽浩，杨华，张志宏，沈福民，邵玲，蒂莫西·霍斯佩德莱斯，尼尔·罗伯逊，等。深度多任务学习，识别心理状态的微妙面部表情。在ECCV，第103-119页，2018年。7[12] M. Jaderberg，A. Vedaldi和A.齐瑟曼。加速具有低秩扩展的卷积神经网络。在2014年英国机器视觉会议上。三、六[13] 张英均，哈蒂斯·冈斯，和艾欧尼斯·帕特雷。免注册的face-ssd：在野外对微笑、面部特征和影响进行单镜头分析计算机视觉和图像理解，2019年。8[14] Majid Janzamin ， Rong Ge ， Jean Kossaifi ， AnimaAnandku- mar，et al.矩阵和张量的谱学习发现-[16] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。7[17] 塔玛拉湾Kolda和Brett W.巴德张量分解及其应用。SIAM REVIEW，51（3）：455-500，2009. 2[18] DimitriosKollias ， ShiyangCheng ，EvangelosVerveras，Irene Kotsia，and Stefanos Zafeiriou.生成用于影响分析的面。CoRR，abs/1811.05027，2018。8[19] Dimitrios Kollias ， Panagiotis Tzirakis ， Mihalis ANicolaou ， AthanasiosPapaioannou ， Guo yingZhao ， BjoürnSchuller，Irene Kotsia，and Stefanos Zafeiriou.深度影响预测：Aff-wild数据库和挑战，深层架构，以及其他。国际计算机视觉杂志，127（6-7）：907-929，2019。三、八[20] Jean Kossaifi，Aran Khanna，Zachary Lipton，TommasoFurlanello，and Anima Anandkumar.简约深网的张量收缩层在计算机视觉和模式识别研讨会（CVPRW），2017年。2[21] 作者： Jean Kossaifi ， Zachary C. Lipton ， AranKhanna，Tommaso Furlanello，and Anima Anandkumar.张量回归网络。CoRR，abs/1707.08308，2018。二、七[22] Jean Kossaifi，Yannis Panagakis，Anima Anandkumar，and Maja Pantic. Tensorly ： Python 中的 Tensor 学习。Journal of Machine Learning Research，20（26）：1-6，2019。7[23] JeanKossaifi ， GeorgiosTzimiropoulos ， SinisaTodorovic， and Maja Pantic. 野外效价和唤醒估计的Afew-va 数据库 Image and Vision Computing ， 65 ： 23三、七、八[24] J. 科赛菲河Walecki，Y.Panagakis，J.沈，M。Schmitt，F.Ringeval ， J. Han ， V. Pandit ， A. 图瓦苏尔湾 W.Schuller，K. Star，E. Hajiyev和M.惊慌失措Sewa db：一个丰富的数据库，用于野外视听情感和情感研究。IEEETransactionsonPatternAnalysisandMachineIntelligence，第1-1页，2019年。七、八[25] 亚历克斯·克列日夫斯基和杰弗里·辛顿从微小的图像中学习多层特征。技术报告，Cite- seer，2009年。三、七[26] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。神经信息处理系统的进展，第1097-1105页，2012年。2[27] Vadim Lebedev 、 Yaroslav Ganin 、 Maksim Rakhuba 、Ivan V. Oseledets和Victor S.Lempitsky使用微调cp分解加速卷积神经网络2015年，国际会议。三、四、六[28] Y.莱肯湖Bottou，Y. Bengio和P.哈夫纳基于梯度的学习应用于文档识别。Proceedings of the IEEE，86（11）：2278-2324，Nov 1998. 2[29] A. Mitenkova，J. Kossaifi，Y. Panagakis和M.惊慌失措用张量法在野外进行视觉和唤醒估计条款

下载后可阅读完整内容，剩余1页未读，立即下载