没有合适的资源?快使用搜索试试~ 我知道了~
1多模态融合架构搜索Juan-ManuelPe' rez-Ru'a1,3分Ste' phaneP ateux1Moez Baccouche1Frederic Jurie21OrangeLabs,Cesson-Se'vigne',France2Uni versite'CaenNormandie,France3Samsung AI Centre,Cambridge,UK摘要我们解决的问题,找到良好的架构的多模态分类问题。我们提出了一种新颖的和通用的搜索空间,跨越了大量的可能的融合架构。为了在建议的搜索空间中找到给定数据集的最佳架构,我们利用了一种针对该问题量身定制的高效的基于顺序我们证明了多模态融合作为神经架构搜索问题的价值,通过对玩具数据集和其他两个真实的多模态数据集进行广泛的实验。我们发现融合架构,表现出最先进的性能与不同的域和数据集大小的问题,包括N TU RGB + D数据集,最大的多模态动作识别数据集可用。1. 介绍深度神经网络已被证明是解决多个领域中各种问题的有效模型,包括图像[22]和视频[5]分类,语音识别[15]和机器翻译[44],仅举几例。在多模态设置中,传输在各个模态上训练的模型并在单个点处合并它们是非常常见的。它可以在最深层,在文献中称为后期融合,这在许多多模态任务中相对成功[40]。然而,在它们各自的最深特征处融合模态不一定是解决给定多模态问题的最佳方式。在本文中,我们认为,考虑从独立模态的所有隐藏层中提取的特征可能会提高性能,而因此,这项工作解决的问题,发现声明共同第一作者。这项工作是在JMPR与Orange Labs合作时完成的。结合多模态特征的好方法,以更好地利用深度学习模型中嵌入不同层的信息进行分类。我们的假设与深度神经模型的常见解释一致,因为在卷积神经网络中学习的特征具有不同程度的语义意义。例如,在视觉中,已知较低层用作具有不同取向和范围的边缘检测器,而另外的层捕获更复杂的信息,诸如语义概念,如面部、树木、动物等。显然,在解决多模态分类问题时,很难手工确定什么是混合具有不同语义级别的特征的最佳方式例如,学习对毛皮动物进行分类可能需要分析可用于建立毛皮概念的较低级别视觉特征,而像啁啾鸟或咆哮这样的类别可能需要分析更复杂的视听属性。事实上,来自不同模态的不同层的特征可以从输入数据给出单峰ResNets[14]利用了类似的想法,其中来自不同深度的特征通过跳过连接被后面的层利用在这种思路下,最近的一些作品分析了输入模态的其他可能组合[38,42]。然而,这些方法都有不足之处,因为模型设计者需要根据经验选择要考虑的中间特征。手工评估所有的可能性将是非常密集的或简单的棘手。实际上,模式越多、越深,选择混合模式就越复杂。当启用多模态特征的嵌套组合时,这一点更加正确。符合这是一个大的组合问题。为了处理这个问题,必须通过有效的搜索方法来解决上述组合问题。幸运的是,这个问题的底层结构使它特别适合于顺序搜索算法。在本文中,我们建议依赖于序列模型优化(SMBO)[19]方案,69666967先前已应用于神经结构搜索或AutoML的相关问题[26,34]。简而言之,我们通过直接将问题视为组合搜索来解决多模态分类问题。据我们所知,这是一个全新的方法,多模态融合问题,其中,通过thor-充分的实验表明,提高了几个多模态分类数据集的国家的最先进的本文带来了四个主要贡献:i)在合成玩具数据库上搜索最佳多模态特征融合的重要性的经验证据。ii)定义了适合于多模态融合问题的搜索空间,它是现代融合方法的超集。iii)自动搜索方法的适配,用于在定义的搜索空间上精确融合深度模态iv)三种自动发现的最先进的融合架构,用于不同的已知和充分研究的多模态问题,包括五种类型的模态。本文的其余部分组织如下。在第2节中,我们描述了与我们相关的工作,包括用于分类和神经结构搜索的多模态融合。接下来,在第3节中,我们将解释我们的搜索空间和方法。在第4节中,我们提出了我们的方法的实验最后,在第5节中,我们给出了最后的评论和结论。2. 相关工作当前用于一般分类(多模态或非多模态)和其他学习问题的神经架构的设计策略事实上,图像分类的进步,如残差网[14]和密集连接网[18]都与这个想法有关。类似地,对于姿态估计问题,堆叠沙漏网络[32]通过短路卷积连接自动编码器的编码器和解码器部分,允许最终分类器从底层考虑特征然而,人们普遍认为,手动设计的架构不一定是最佳解决任务[48]。事实上,看看由搜索算法自动设计的神经网络类型,似乎更喜欢具有许多跨层连接和不同卷积操作的卷积架构[9,48]。有趣的是,Escorciaet al.认为神经网络学习的视觉属性分布在整个神经网络中[11]。类似地,人们通常认为神经网络以一种自组织的方式对特征进行编码,从低级特征开始到高级特征,随着人们沿着它们深入。这些想法激发了我们对多模态分类的问题。这就是,试图建立一个最佳的连接方式融合多模态特征。据我们所知,这项工作是第一个直接解决多模态融合分类的架构搜索问题。在下文中,我们总体上概述了用于分类的然后,我们继续对架构搜索的相关方法进行简短的讨论,因为它是我们方法的核心。多模式融合。为了对深度多模态融合的不同最新方法进行分类,我们可以定义两种主要的研究路径:架构和约束。第一条路径集中于构建最佳可能的融合架构,例如通过找出单峰层应该熔合的深度。早期的工作区分早期和晚期融合方法[4],分别融合低级别特征和预测级别特征。如[40]所报道的,在许多情况下,晚期融合的表现略好,但对于其他情况,早期融合的表现大大优于晚期融合通常由每个单峰分支的最终评分的组合来定义这种组合可以是简单的[39]或加权[29]得分平均值,双线性乘积[8]或更鲁棒的组合,如秩最小化[46]。因此,多核学习[6]和超核学习[43]等方法可以被视为后期融合的示例。更接近早期融合,Zhouet al.[47]建议对级联特征使用多重判别分析,而Neverova等人[31]应用了一种启发式方法,该方法包括比其他方法更早地融合相似的模态。最近,为了利用低级和高级特征,Yanget al.[45]在所有层上进行融合的杠杆提升。为了避免由于多层方法中的大量参数而导致的过拟合,还研究了多峰正则化方法[1,13,21]。另一种多模态融合的体系结构方法可以根据注意机制的思想进行分组,该注意机制决定如何根据上下文信息考虑不同的模态[20]的专家混合可以被视为这方面的第一部作品。作者提出了一个门控模型,为给定的输入选择一个专家网络。作为扩展,Arevaloet al. [3],提出了门控多模态单元,允许在模型中的任何地方应用这种融合策略,而不仅仅是在预测级。本着同样的精神,多模态注意力也可以整合到时间方法中[16,27]。第二类多模态融合方法提出定义约束,以控制单峰特征和/或权重结构之间的关系。Ngiam等人[33]提出了一种双模态自动编码器,迫使隐藏的共享表示能够重建两种模态,即使在缺少其中一种模态的情况下。Andrew等人[2],将典型相关分析应用于深度神经网络,最大化表示之间的相关性。Shahroudy 等人。[38],使用级联分解层来找到共享表示,6968γLLl在模态之间进行切换,并隔离模态特定信息。为了确保单峰特征之间的相似性,Engilberge等人。 [10]最小化它们的余弦距离。结构约束也可以应用于神经网络的权重。除了模态丢弃之外,Neverova等人。 [30]建议对交叉模态块进行零屏蔽在训练的早期阶段的权重矩阵。Liet al. [25],提出学习随机掩码。通过张量分解实现的另一种结构约束由[8]提出。神经架构搜索。 在过去的几年里,人们对AutoML方法的兴趣越来越大[9,26,34,35,48]。 这些方法中的大多数在某种程度上依赖于各自搜索方法的核心神经模块。这在文献中现在被称为神经架构搜索(NAS)。无论是否基于神经元,AutoML方法传统上都保留用于具有数百个可用GPU的昂贵硬件配置[26,48]。最近,渐进式探索方法和权重共享方案已经允许极大地减少必要的计算能力,以有效地在相当大的数据集上执行架构搜索渐进式搜索方法[26,34]的另一个优点是它们通过顺序增加采样架构的复杂性来利用搜索空间的固有结构。在本文中,我们从权重共享的顺序方法开始[34],并将其适用于多峰分类问题。特别地,我们设计了一个易于顺序搜索的搜索空间,并且该搜索空间是先前引入的融合方案的超集,[42]。这是我们贡献的一个重要方面。如[49]所示,限制搜索空间是可负担架构搜索的关键要素。事实证明,通过自动架构搜索直接处理多模态数据集,而不设计一个受约束但有意义的搜索空间是不容易处理的。我们通过处理三个具有挑战性的数据集,展示了我们方法的价值以及优化神经架构对多模态分类任务的重要性。3. 方法在这项工作中,与许多其他解决多模态融合的工作一样,我们从假设有一个非线性的zx, y图1. 双模融合网络的一般结构。 顶部:一个神经网络,有几个隐藏层(灰盒),输入x,输出z=x。下图:第二个网络的输入是y,输出是z。 在这项工作中,我们专注于寻找有效的融合方案(黄色框和虚线)。(x,y; z),其中x表示第一模态,y表示第二模态,z表示监管标签。现在,我们假设存在两个函数f(x)和g(y),它们将x和y作为输入,并输出zx和zy,它们是地面真值标签z的估计。此外,函数f和g分别由M层和N层组成,子函数由fl和gl表示。稍微滥用一下符号,我们将层l写成 : xl= ( fl<$fl−1···<$f1 ) ( x ) , yl=(gl<$gl−1·· ·<$g1)(y)。见图1为视觉表现。subfunc的例子当处理标准神经网络时的操作是像卷积、池化、乘以矩阵、非线性等的操作这些子函数的输出是我们想要跨模态融合的特征。接下来的问题是选择融合哪些特征以及如何混合它们。3.1. 多模态融合搜索空间在我们的方法中,通过第三个神经网络引入数据融合(见图1)。2为一些插图)。每个融合层l组合三个输入:所述多个融合层的输出和来自每个模态的一个输出。这是根据以下等式完成的:Xm拉克里尔hl= σγp<$Wl<$yγn<$W(1)用于每一个所述内部的层架多层特征提取器,形式多样。在实践中,这意味着我们从每种模态的多层神经网络开始,L lhl−1我们假设已经预先训练好了。 然而,读者其中γ=(γm,γn,γp)是可变指数es的三元组。ll l l应该考虑到我们的融合方法实际上并不有限-神经网络作为主要的特征提取器。不失概念上的一般性,我们假设从现在开始我们将处理两种模式。多模态数据集由成对的输入和输出数据组成而前者,则是指前者。第二模态的特征,以及应用的非线性。另外,γ m∈{1,· · ·,M},γ n∈{1,···,N},且γ p∈ {1,···,P}。为了第一次融合层(l=1),融合操作被定义为:X1X2x3...XMfM(·) zxf1(x)f2(x1)f3(x2)Xf(x)g(y) y1y2y3 ...yNg1(y)g2(y1)g3(y2)gN(·) zy6969X3XFS·G·MGy3y1111zx,yzx,y图2. 我们的搜索空间在一个小型双峰网络上的两种实现。左:网络定义[(γm=1,γn=2,γp=1),(γm=3,γn=4,γp=2)]。右:由[(γm=3,γn=3,γp=2)]定义的网络。1 112 221 11h1=σγp.ΣΣΣWxγmyγn(二)几天,取决于手头的问题。这就是为什么我们专注于一种探索方法的原因,该方法已被证明是采样效率的神经架构搜索的相关问题。这是顺序基于模型的优化(SMBO),如[26,34]所使用的。在他们的作品中,可能的融合层数,搜索参数-记为L,所以l∈{1,···,L}。融合层权重矩阵Wl是可训练的。请注意,我们将功能串联设置为处理和保险丝功能。事实上,这可以由输入特征的加权和来代替。然而,在我们的实验中,我们注意到几乎从未选择具有特征加权和的融合网络,并且几乎总是降低最终分类性能。因此,我们决定简单地将融合操作固定为级联。M=N=4,P=2(p=1:ReLU; p=2:Sigmoid)的说明性示例如图12所示。2. 我们可以观察到四个隐藏层和两个可能的非线性模态的搜索空间的几个实现。在右边,在第一和第二模态的第三层具有单个融合的融合方案左边是两个合成的融合体。组合融合方案然后由三元组的向量定义:[γl]l∈{1 , ··· ,L}。我们将具有L层的所有可能三元组的集合表示为ΓL。观察到,这种设计使我们的空间能够包含大量可能的融合架构,包括在例如CentralNet [42]中定义的网络搜索空间的大小与融合层L,并且表示为:(M×N×P)L.如果我们要解决一个多模态问题,特征提取器的深度仅是现代神经网络表现出的深度的一部分,例如M=N=16,并且仅考虑两个可能的非线性P=2,L=5的融合方案将导致搜索空间为尺寸为103,51×1013。详尽地探索所有这些可能性是难以驾驭的。特别地,考虑到在该空间中对单个样本的评估对应于训练和评估多模态架构,这可能花费几个小时,作者表明,通过将搜索空间划分为“复杂性级别”来逐步探索搜索空间SMBO非常适合在[49]设计的搜索空间中找到最佳架构。这是因为空间自然地被复杂度级别划分,复杂度级别可以被解释为渐进步骤(“微空间”中SMBO从最简单的开始顺序地展开采样架构的复杂性。幸运的是,我们的搜索空间共享类似的结构。我们可以将融合层的数量L解释为进展的钩。值得注意的是,我们提出的约束搜索空间表现出某些理想的属性。假设单峰特征提取器网络是可用的,这大大降低了搜索负担,因为它们在搜索期间不需要训练,并且问题的复杂性被限制在可管理的量级。3.2. 搜索算法在SMBO中,预测采样架构的精度的模型该模型或代理函数在搜索空间的渐进探索期间进行训练,并且它用于通过预测看不见的架构的性能来减少必须训练和评估的神经网络的数量。在我们的例子中,如前一小节所述,对多峰结构[γl]l∈{1,···,L}进行可变长度描述,自然会导致使用递归模型作为替代。让我们用π表示这个递归函数。π的参数在迭代l时通过随机梯度下降(SGD)训练在具有实数的Γ l的子集上更新价值的准确性Al.X1X3XFReLUS·G·MGy2y4y6970LL算法1多模态融合架构搜索(MFAS)1:程序(f、g、L、E搜索、E序列、K、S序列、S值、T最大值、T最小值)第二章: L:最大融合层数3:E搜索:搜索迭代4:Etrain:训练时期5:K:采样融合架构的数量6:Strain,Sval:训练和验证集7:Tmax,Tmin:采样温度范围8:T←Tmax//设置温度9:B,A ← {}//初始化对应的arhcs集合。和准确性10:对于e=1···E搜索11:S1←Γ1//L= 112:M1←descToFusionNet(S1,f,g)//构建融合网络13:C1←train(M1,Strain,Etrain)//构建融合网络14:A1←evaluate(C1,Sval)//获取它们的真实准确度15:B,A ← B i S1,A i s A1//跟踪采样的拱。16:π←update(S1,A1)//训练代理17:对于l=2· · ·Ldo18:S′← addLayer(Sl−1,Γl)//再展开1个融合层原始算法[26]和[34]是我们假设存在预训练的模态函数f和g。这些函数用于根据具有l层的融合方案Sl在迭代渐进搜索结束时,MFAS从所有采样架构B的集合中返回最佳K。最终架构。从Alg。1,我们得到了一组K融合结构。人们可以考虑在其最后一次更新之后使用代理函数来预测最佳融合方案。然而,在本文中,我们训练最终K架构中最好的在最后一个训练步骤中,我们还评估l′所选架构的性能,具有较大的尺寸十九:一个带surro门的n′l←pred(S,π)//Prdiction矩阵W。在搜索期间使用减小的大小,20:P←computteProbs(At′,T)//计算采样p r obs。L勒21:Sl←sampleK(Sl,Pl,K)//样本K融合arc hs22:Ml←descToFusionNet(Sl,f,g)//构建融合网络。23:Cl←train(Ml,Strain,Etrain)//Train24:Al←evaluate(Cl,Sval)//计算精度25:B,A ← B Sl,A Al//跟踪采样的拱门。提高采样速度并降低存储器成本。损失函数在 搜索期间,特征提取器f和g的权重被冻结。正因为如此,只有26:π←更新(S1,A1)//更新代理27:T←updateTemperature(T,Tmax,Tmin)fusionsoftmaxz x为oh用于损失函数。找到了-28:结束29:结束return topK(B,A,K)//从所有采样的拱中返回最佳K。30:结束程序我 们 的 程 序 , 命 名 为 多 模 态 融 合 架 构 搜 索(MFAS),并基于[26],在Alg. 1.从第11行到第16行,渐进算法在最小融合网络复杂度级别开始,即,L=1。然后,下一个复杂性级别通过以作为第20和21行中的代理模型预测的函数的概率对K个架构进行采样而一个接一个地展开。融合架构搜索是有效地指导如何采样新架构。观察到我们实现了搜索迭代(E搜索)和基于温度的采样(Tmax,Tmin),如EPNAS [34]中所示。这样做是为了使surro-门函数不引导搜索与偏置的搜索,从搜索空间的部分观察在早期迭代。通过使用基于温度的采样,代理函数仅被信任为探索优势(通过降低第27行中的温度)。这是通过训练具有很少时期的采样架构来补充的,如在ENAS [35]中,并在采样架构之间实现权重共享以平衡神经架构搜索的主要瓶颈:训练采样架构完成。这一点尤其架构最初被训练了几个时期,f和g函数。第二个训练步骤中,使用更多的epochinvol,会导致zx,zy,zx,y以及未冻结的f和g函数的多任务损失除非另有说明,否则在所有报告的实验中使用分类交叉熵损失处理任意张量维度。 在从f和g创建多模态神经网络期间的一个实际问题是,子函数可能提供具有任意维度的张量,从而阻碍任意模态和层位置的融合。为了以通用的方式处理这个问题,我们沿着2D和3D卷积的通道维度执行全局池化,同时保持线性层输出不变。作为旁注,观察方程。1我们默认的融合层类型是完全连接的。我们试验了几种形式的1D卷积,没有发现任何改进。融合层的重量分担。在我们的实现Alg。1,多模态神经网络不是并行训练的。相反,采样融合网络是在少量的时期(在我们所有的实验中E train=2)中连续训练的。对于两个样本索引s和s′,其中s′>s,我们跟踪权重矩阵Ws,多模式网络的重要性,往往有一个′层l,所以WsL从Ws初始化,如果sizeof(Ws)='l l l l占用大量内存和计算时间。我们的搜索算法不同于sizeof(Ws).请注意,权重仅在相同层1中的矩阵之间共享。6971表1.在AV-M NIST数据集上评估我们的搜索方法。由数字阵列描述的融合架构是我们的搜索空间的实例,其中M =3,N = 1,5,P = 2。报告确认准确度X通过随机搜索yMFAS发现的前5个体系结构Xzx,yzx, y4. 实验在本节中,我们将对我们的声明进行广泛的实验验证。我们首先通过在合成玩具数据集上进行实验开始,即A V-MNIST数据集[42]。然后,我们继续我们的实验工作,直接处理其他两个多模态数据集。这些是i)[3]的视觉-文本多标签电影流派分类数据集(MM-IMDB ) 和ii ) [37]的 多 模态 动 作 识别 数 据 集( NTURGB+D)。对于每个数据集,我们提供了任务的简短描述以及实验设置,然后讨论结果。一个V-M NIST数据集。这是一个简单的视听数据集y图3.发现的融合架构的结构。第一:一个V- MNIST。第二:MM-IMDB。表2. 在AV-MNIST数据集上对多种融合结构的评估.报告了测试准确度方法方式累积(%)用于融合的LeNet-3 [23]图像74.52LeNet-5 [23]频谱图66.06显式融合双流[39][42]第四十二话图像+SPECT。图像+SPECT。87.7887.86我们的Top 1图像+SPECT。88.38将全局池与它们中的每一个挂钩:三个用于书写十位模态(N=3),五个用于频谱图由独立的视频和音频数据集人工合成。第一种模态对应于28×28MNIST图像,其中75%的能量被PCA去除该au-dio模态由音频样本组成,我们已经计算了112×112频谱图。音频样本是Tidigs数据库的25,102个发音数字,通过添加从ESC-50数据集[36]中随机选择的噪声样本进行 受污染的音频样本正在运行-因此,使用标签与MNIST数字进行domly配对,以便达到55,000对用于训练和10,000对用于测试。为了验证,我们从训练集中提取了5000个样本。数字能量去除和音频污染是故意完成的,以增加任务的难度(否则单峰网络将实现几乎完美的结果,数据融合将是不必要的)。在这里,f函数是一个修改后的LeNet网络[23],具有五个卷积层和一个全局池化softmax处理语音数字。类似地,g是具有三个卷积层的修改的LeNet。我们将f和g的子函数限制为ReLU激活的卷积层,因此我们1个(M=5)。 在这个实验中,我们让P=2,将熔合层的激活功能降低为ReLU或Sigmoid。在表1中,我们显示了两种勘探方法的结果:纯随机的一个(上部分)和MFAS(下部分)。这两种探索方法都允许采样180个架构。我们展示了在所提出的搜索空间(表1顶部)上前五个随机采样架构的验证精度。大的标准差证明了多模态融合架构搜索的有用性。从这些结果中,我们可以推断,一些特征组合提供了更好的洞察数据比其他一些混合。在表1的下半部分,我们可以看到,与随机搜索相比,使用我们的搜索方法发现的前五个体系结构的得分变化较小。此外,通过我们的方法找到了验证集(粗体)上的最佳性能架构。基线和竞争融合结构的测试准确度报告见表2。我们根据表1报告我们最佳发现架构的测试分数。它可以f:音频···x4··· x5···ReLUReLUReLU···y2···y3···g:图像方法方式ACCf:图像···x4···x8···sIgMsIgM···y1···g:文本[(3、3、 2)、(5、 3、 2)]图像+SPECT。0.9174[(1,1, 2),(4, 3, 1),(5, 2, 1)]图像+SPECT。0.9190[(5,3, 1),(4, 1, 2)]图像+SPECT。0.9196[(5,2, 1),(5, 3, 1)]图像+SPECT。0.9224[(3,3, 2),(5, 2, 1),(1, 3, 1),(1, 1, 2)]图像+SPECT。0.9258[(5,2, 1),(5, 2, 2),(5, 1, 1)]图像+SPECT。0.9260[(5,3, 1),(4, 2, 1),(5, 3, 1)]图像+SPECT。0.9270[(5,3, 1),(4, 2, 1),(3, 3, 2)]图像+SPECT。0.92666972是-6973表3. 多种方法的评价 的 MM- IMDB数据集[37]。报告每种方法的加权F1(F1-W)和宏F1(F1-M)。方法方式F1-WF1-M用于融合的表4. 多种方法评价NTURGB+D数据集[37]。报告的数字是平均值- 不同行为主体的年龄准确性(跨主体测量)。方法方式累积(%)Maxout MLP [12]文本0.57540.4598VGG传输图像0.49210.3350显式融合单模态LSTM [37]构成60.69part-LSTM [37]构成62.93空间温度注意事项[41]构成73.40多个模态服务于所有多模态融合网络大大改善了单峰网络,但我们自动发现的融合架构是一个具有最好的整体得分。这是在渐进搜索的三次迭代和L=4之后发现的。在这个玩具(但不是微不足道的)数据集上的成功是验证我们贡献的第一个里程碑。M M-I MDB数据集。该多模态数据集包括来自互联网电影数据库1的25,959个电影标题和元数据[3]。电影数据由其情节、海报(RGB图像)、类型和更多元数据字段(包括导演、编剧、图片格式等)组成。这个数据集中的任务是从海报和电影描述中预测电影类型。由于通常电影被分配到多于一个流派,因此分类是多标签的。用于训练的损失函数是具有权重的二进制交叉熵,以平衡数据集。在我们的实验中使用了数据集的原始分割:15,552部电影用于培训,7,799部用于测试-用于融合的显式融合Xyzx, y2,608个用于验证。 预测的类型-包括戏剧、喜剧、纪录片、体育、西部片、黑色电影等,总共23个非互斥类。单峰网络的性能在表3的顶部给出。使用这些单峰网络作为基础,我们实现了双流融合[39],CentralNet[42],GMU [3]和我们最好的架构。可以注意到,我们的方法在四种融合策略中给出了最好的结果,再次验证了我们对搜索空间设计和融合方案2的选择。M M-IMDB数据集的搜索空间由VGG-19图像网络的八个卷积层和两个文本Maxout-MLP特征形成。从这些特征中可获得的可能融合配置的数量(我们设置N=2,M=8)和三种可能的非线性(ReLU,Sigmoid和LeakyReLU)为110,592。我们最好的配置可以在图中看到。3.第三章。1https://www.imdb.com/2原始Central-Net论文仅考虑每个模态的最后一个特征层中间层对我们来说是不可用的。因此,我们没有从完全相同的单峰基线开始,并重新实现了所有方法,以便进行公平的比较。图4. 所发现的融合架构的结构。NTU RGB+D。N TU RGB + D数据集该数据集首先由Shahroudy等人引入,[37]2016年据我们所知,它拥有56,880个样本,是最大的颜色和深度多模态数据集。从80个视点捕获40个主题,执行60类活动NTU RGB+D是一个非常具有挑战性的数据集,其特殊性在于它在RGB视频序列的顶部提供基于动态信标的姿势数据。目标活动包括喝酒、吃饭、摔倒,甚至包括拥抱、握手、挥拳等主体互动。网络融合参数累积(%)02,229,2480.932712,196,4800.928921,737,7280.930132,163,7120.9346表5.根据搜索期间的验证准确度,在NTU RGB +D在我们的工作中,我们专注于跨主题的评估,将40个主题拆分为训练、验证和测试f:骨架···x2··· x4···ReLUsIgMsIgMReLU···y2···y4···g:视频双流[39]图片+文字0.60810.5049GMU [3]图片+文字0.61700.5410[42]第四十二话图片+文字0.62230.5344我们的Top 1图片+文字0.62500.5568Shahroudy等人[38个]视频+姿势74.86Shahroudy等人[38个]视频+姿势74.86双线性学习[17]视频+姿势83.30双线性学习[17]视频+姿势+深度85.402D/3D多任务[28]视频+姿势85.50充气ResNet-50 [7]视频83.91共现[24]构成85.24双流[39]视频+姿势88.60GMU [3]视频+姿势85.80[42]第四十二话视频+姿势89.36我们的Top 1视频+姿势90.04±0。66974121.00.90.80.70.60.50.40.30.20.10.01234567891011步骤9.8009.1478.4937.8407.1876.5335.8805.2274.5733.9203.2672.6131.9601.3070.6530.000123456789101112步骤表6.搜索时间和硬件配置。数据集个gpu(P100)E搜索引擎(步数)搜索时间(小时)Avg. 步骤时间(小时)AV-MNIST13× 4= 123.420.285MM-IMDB1五分之三=十五9.240.616NTU RGB +D43× 4= 12150.9112.57图5.左:搜索过程中的错误进展。每个标绘点表示在AV-MNIST集合上我们的搜索算法的给定步骤处采样融合架构的验证误差,其中步骤的总数是E搜索L。每步的平均误差和标准差用星号和图影表示。右:搜索温度计划。组检索期间培训的受试者ID为:1 4 8 13 15 17 19 对于验证,我们使用:用途:2、5、9和,14.在找到的架构的最终训练期间,我们使用最初由[37]提出的相同的分裂。我们报告的测试结果,客观地比较我们发现的架构与手动设计的融合策略,从国家的最先进的。NTU RGB+D数据集的结果总结见表4。我们报告了几种方法的准确率百分比。第一组方法是由作者自己报告的处理单一模态的模型第二组结果是通过来自现有技术处理和融合若干模态(视频、姿态和/或深度)的方法。然后,我们提供了我们计算的处理单一模态的方法的得分。对于视频,我们测试了[7]使用的InflatedResNet-50;对于姿势,我们利用了[24]的深度共现模型。这组报告的数字是我们的出发点和基线。最后,最后一组方法执行明确的融合方式,是我们的主要竞争对手。注意,我们的分数在表4中最高我们报告90. 04%的平均准确度超过四个运行与变异0。6,这是对所有基线和竞争方法的重大改进。这是通过每-在膨胀ResNet-50和深度同现基线的卷积和完全连接的特征上形成融合搜索。我们从每个模态(M=N=4)的四个可能的特征和三个非线性开始,即,ReLU、Sigmoid和LeakyReLU。这意味着,NTU RGB+D数据集的搜索空间是维度5、308、416。最佳配置如图所示4.第一章在表5中,我们报告了在搜索最终的前四个架构期间的验证准确性。请注意,最好的架构不一定是最大的架构。多模态融合搜索行为。在图5(顶部)中,我们通过绘制采样架构的验证误差来显示搜索过程的行为。可以观察到,总体而言,随着搜索的进行,采样架构在误差方面越来越稳定。采样误差的稳定化源于两个来源:第一,在搜索的最后步骤,共享的融合权重已经被更精细化;第二,通过代理函数的预测,搜索被更有信心地驱动事实上,在最后几步,平均误差明显低于初始误差。我们的搜索方法和融合方案的另一个有趣的效果是,即使在最初的搜索步骤中,也可以对显示相对较小的验证错误的架构进行采样。由于采样架构的融合权重仅在几个时期内训练,因此这种效果不一定是采样架构好坏的积极反映。实际上,可以在非常深的单峰特征(其已经离线预训练)上对简单的融合方案进行采样,并且当在稍后的搜索步骤中重新访问其权重时,可以优于实际上可能执行得更好的其他采样架构。从这个意义上说,我们的温度驱动的采样架构提供了一种方法来逃避源于这种现象的假的局部最小值这一切都归结为这样一个事实,即为了避免被最初的有偏见的证据所困我们对采样温度采用逆指数时间表,如图10底部5,因为我们观察到与线性温度计划相比更好的结果搜索计时。在表6中,我们提供了在所有报告的数据集上进行检索的硬件设置和时间在NTU RGB+D上,需要通过数据并行进行多GPU训练。由于模型复杂性和更大的搜索空间,NTU RGB+D上的搜索时间比MM-IMDB5. 结论这项工作解决的问题,找到准确的融合架构的多模态分类。我们提出了一种新的多模态搜索空间和探索算法来解决任务的高效而有效的方式。所提出的搜索空间以这样的方式被约束,它允许出现复杂的体系结构,同时还将问题的复杂性包含到合理的水平。我们在三个数据集上实验证明了我们的方法的有效性,发现了几个融合方案,这些数据集上提供了最先进的结果。未来的研究方向包括改进搜索空间,使融合层的组成更加灵活。误差temperature()6975引用[1] M. R. Amer,T.希尔兹湾Siddiquie,A. Tamrakar,A.Di- vakaran和S.阿柴深度多模式融合:一种混合方法。在IJCV。Springer,2018.[2] G.安德鲁河Arora,J. Bilmes,and K. Livescu深度典型相关分析。2013年,《国际反洗钱法》[3] J. Ar ev alo,T. Solor i o,M. Montes-yG o'mez和F. A.Gonza' lez. 用于信息融合的门控多模式单元。在ICLR研讨会,2017年。[4] P. K. Atrey ,M.A. Hossain , A.El Saddik 和 M.S. 好好好。用于多媒体分析的多模态融合:调查。MultimediaSystems,16(6):345[5] M. 巴库切, F. 玛玛莱特 C. 狼 C. 加西亚和A.巴斯库尔特用于人类动作识别的顺序深度学习。在ECCV研讨会上,第29-39页。Springer,2011.[6] F. R. 巴赫湾R. Lanckriet和M.I. 约旦. 多核学习、圆锥对偶与smo算法。在ICML中。ACM,2004年。[7] F.巴拉代尔角Wolf,J. Mille,and G. W. Taylor.一瞥云彩:基于非结构特征点的人体活动识别。在CVPR,第3卷,2018年。[8] H. 本尤尼斯河Cadene,M.Cord和N.托米Mutan:用于视觉问答的多模态折叠融合。InICCV,volume 3,2017.[9] A. Brock,T. Lim,J. M. Ritchie和N.韦斯顿通过超网络的一次性模型架构搜索。在ICLR,2017。[10] M. 恩吉尔贝湖 Chev allie r,P. Pe'rez和M. 线. 在汉堡里找豆子:具有本地化的深度语义视觉嵌入。在CVPR,2018年。[11] V. Escorcia,J. Carlos Niebles和B.加尼姆论视觉属性与卷积网络的关系。在CVPR中,第1256-1264页[12] I. J. Goodfellow , D. Warde-Farley , M. Mirza , A.Courville和Y.本吉奥。Maxout网络。2013年,《国际反洗钱法》[13] Z. 古湾,澳-地朗,T.Yue和L.煌基于多融合深度神经网络的联合在ICONIP,2017年。[14] K.他,X。Zhang,S. Ren和J. Sun.用于图像识别的深度残差学习。CVPR,第770-778页,2016年[15] G.欣顿湖 Deng,D. Yu,G. E. Dahl,A. R. 穆罕默德N. Jaitly,A.Senior,V.Vanhoucke,P.阮氏T.N. Sainath等人用于语音识别中声学建模的深度神经网络:四个研究小 组 的 共 同 观 点 。 Signal Processing Magazine , 29(6):82[16] C. 霍里,T.Hori,T.-Y. 李,Z.张湾,澳-地Harsham,J.R. 嘿-嘿,T。K. Marks和K.苏美基于注意力的多模态融合视频描述。InICCV,2017.[17] J. - F.胡伟S. Zheng,J. Pan,J. Lai和J.张某用于rgb-d动作识别的深度在ECCV,第335-351页[18] G. Huang,Z.柳湖,加-地Van Der Maaten和K.Q. 温伯格密集连接的卷积网络。在CVPR,2017年。[19] F. Hutter,H. H. Hoos和K.莱顿-布朗基于序贯模型的通用算法配置优化第在学习 和智能 优化国 际会议 上, 第507-523页。Springer,2011.[20] R. A. Jacobs,M. I. Jordan,S. Nowlan和G. E.欣顿。当地专家的适应性混合神经计算,1991年。[21] Y.-- G.姜,Z. Wu,J. Wang,X. Xue和S.- F.昌利用正则化深度神经网络在视频分类中挖掘特征和类别关系。T-PAMI,2018年。[22] A.克里热夫斯基岛Sutskever和G. E.辛顿Imagenet分类与深度卷积神经网络。在NIPS,第1097-1105页[23] Y.莱昆湾E.博泽,J
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功