没有合适的资源?快使用搜索试试~ 我知道了~
1多模态分类张恒1,魏夏M.帕特尔2号和拉玛·切拉帕1号1马里兰大学自动化研究中心,马里兰州帕克学院,邮编207422新泽西州罗格斯大学电气与计算机工程系,邮编08854hzhang98@umiacs.umd.edu,vishal.m.rutgers.edu,rama@umiacs.umd.edu摘要多模态分类出现在许多计算机视觉任务中,如目标分类和图像检索。这个想法是利用多个源(模态)测量相同的实例,以提高整体性能相比,使用一个单一的源(模态)。多种模态所表现出的不同特征使得有必要同时学习相应的度量。本文提出了一种多模态数据的多度量学习算法 每个模态的度量是两个矩阵的乘积:一个矩阵是模态专用的,另一个被强制为由所有模态共享。在4个数据集上的实验结果表明,该算法的性能优于现有的基于多个度量的学习算法和其他方法。具体来说,我们报告了95.0%的对象实例识别准确率,多视图RGB-D数据集上的对象类别识别准确率为89.2%,SUN RGB-D数据集上的场景类别识别准确率为52.3%。1. 介绍由于传感器技术的最新发展,研究人员和开发人员能够收集由深度信息和RGB图像组成的多模态数据,以实现目标检测、分类和场景理解等任务的更好性能[20,7,18,30,38,32]。互联网上可用的大量图像和视频数据与标签和元数据相关联,这些标签和元数据对图像分类[16]和检索[45,37]有用。这些问题的解决方案可以使用多模态分类框架来制定。多模态分类也被研究用于其他应用,如视听语音分类[27,33]和多模态生物识别[29,44]。如何有效地将不同的模态组合起来是多模态分类的关键问题对应于不同模态的特征向量可能非常不同,即使它们基本上表示相同的一些特征向量具有很强的区分性,而另一些则没有;一些特征向量是干净的,而另一些是有噪声的;一些特征向量是密集的,而其它特征向量是稀疏的。由于数据采集、预处理和特征提取等因素的影响,特征向量的行为会发生很大的变化。因此,直接对特征向量进行线性组合或对各模态的结果进行简单的线性组合并不能保证与单独使用某个模态相比具有良好的性能兼容性。度量学习算法可以从数据对和指示数据对之间关系的边信息中学习Mahalanobis距离[40]。对于原始特征空间,学习距离可以优于欧氏距离。在单模态环境下对度量学习的广泛研究可在文献中获得。典型的例子包括在[40]中提出的算法、大间隔最近邻(LMNN)算法[36]和信息理论度量学习(ITML)算法[12]。如果学习到的度量是相应特征空间的适当距离度量,那么将单峰度量学习算法扩展到多峰度量学习可以很好地解决多峰分类问题。此外,探索多个度量之间的关系也很重要,学习过程应该通过平衡每个模态的贡献来考虑多个模态如将在第2节和第3节中分析的,用于多模态度量学习的现有方法没有完全捕获多个学习的度量之间的关系。受以前的作品的启发,这些作品考虑了多模态应用程序的公式中的共享表示,如[27,34,41,44],我们 提 出 了 一 个 分 层 结 构 ,cal 多 模 态 度 量 学 习(HM3L)算法,该算法充分挖掘了不同模态的不同度量之间的关系。 在我们的公式中,通过将表示适当子空间的模态特定部分与由所有矩阵共享的公共部分(P.S.D矩阵)30573058我我我图1. 分层多模态度量学习概述。歌词图1给出了所提出的多模态度量学习算法的概述。给定多模态表示,首先我们将模态特定投影Pk应用于每个模态,因为它们的表示在本质上非常不同,然后我们将公共度量M应用于模态特定投影之后的特征,假设特征位于相同的公共空间中。本文的其余部分组织如下。在第2节中,我们回顾了不同的度量学习算法。在第三节中,提出了分层多模态度量学习算法(HM3L),并与相关的多度量学习算法进行了比较。在第四节中,我们采用一种基于次梯度法的有效算法来求解所得到的优化问题。在第5节中介绍了四个数据集上的广泛实验结果。最后,第6节对本文进行了简要总结。2. 相关工作度量学习已经在各个领域进行了研究,例如距离函数最近提出的度量学习算法还通过强制执行低秩约束[11,24]或稀疏约束[42,28,23]或稀疏和低秩约束[22]来探索度量的结构。对于高维问题,[11]表明,在学习过程中对度量强制执行低秩约束,即使在少量样本的情况下也是计算有效且易于处理的。对各种度量学习方法及其应用的更全面的综述总结在[1,19]中。在文献[39,13,43,17]中也提出了几种多模态度量学习算法例如,[39]中的多模态度量学习方法应用多翼和声(MWH)学习框架从不同模态获得潜在表示,并在概率公式下学习度量。[43]中提出的用于多传感器融合的异构多度量学习算法基本上扩展了用于多度量学习的LMNN算法[36]。类似地,在[17]中,通过学习多个度量,提出了一种用于人脸和亲属关系验证的大幅度多度量学习(LM3L),在该度量下,每个样本的不同特征表示的相关性被最大化。其他一些多模 态 度 量 学 习 算 法 包 括 成 对 约 束 多 度 量 学 习(PMML)[10]。请注意,这些方法可以被视为经典单峰度量学习算法(如ITML和LMNN)的多峰扩展。这些方法的局限性之一是它们没有探索对应于不同模态的不同度量之间的3. 制剂3.1. 问题描述让机器学习[40,36],信息检索[25],com-计算机视觉[15]和生物识别[31,8]。度量学习算法的目标是学习一个度量,以便在数据和S={(Xi,Xj)|yij= 1}使用所学习的度量来预测,类似的数据样本(例如,来自同一类)被聚类在一起并且不相似的数据样本(例如,来自不同类别的样本)被分离。在文献[40]中,度量学习问题被表述为利用两个数据样本相似或不相似的边信息的凸优化问题。LMNN[36]应用支持向量机(SVM)中的大间隔思想改进KNN分类器,D={(Xi,Xj)|yij=−1}是分别由相似实例对和相异实例对组成的两个集合。多模式场景中的实例表示为Xi={x(1),x(2),···,x(K)},其由来自K个不同模态的K个特征组成其中x(1)∈Rl1,x(2)∈Rl2,···,x(K)∈RlK.注意我我我使用三元组约束来描述相对关系在三个样本中。在文献[12]中,提出了信息理论度量学习(ITML)算法,该算法基本上最小化两个受约束的多变量高斯之间的微分相对熵。每个特征向量的维度可以不同。在多模态度量学习,目标是学习由K个特征向量组成的这种实例的度量。学习多模态数据度量的一种简单方法是将K个模态的特征连接成一个3059i=1FKKFF我我我我我我我特征向量的长度为λKl,并应用经典的度量学习算法,如LMNN或ITML。的缺点这种方法的最大缺点是,这里,γ控制Pk和M之间对成本函数的相对贡献,μ和β是非负实数,指定距离的上限为2学习一Ki=1 libyKi=1 l i公制。 这个问题类似的例子和两个距离的下限对于高维多模态数据甚至更严重。现有的多模态度量学习算法,如成对约束多度量学习[10],大间隔多度量学习[17]和异构类似的例子,分别。我们引入松弛变量-对于约束条件,可以设置为ij>0则(3)可以写成ΣK多度量学习[43]是经典单峰度量学习算法的扩展,其中任何两个实例之间的距离被获得为minM∈S+Dtr(M)+γ1ΣKk=1Pi(四)S. t.d2(Pkx(k),Pkx(k))≤μ+μij,如果yij=1d2( Xi,Xj)=1ΣKD2(x(k),x(k))(1)KMijk=1ΣKmKMkij1d2(Px(k),Px(k))≥β−β如果y=-1。i=11ΣK=(x(k)− x(k))T Mk(x(k)− x(k)).KMkikjk=1ij ijKijiji=1这些方法同时求解K个半正定(p.s.d)矩阵 Mk,k=1,· ··,K作为联合公式中的度量。3.2. 分层多模态度量学习(HM3L)公式化为了有效地学习多模态的多个度量以及捕捉它们之间的关系,我们强制不同的度量Mk,k= 1,· · ·,K以满足以下条件Mk=PTMPk, k= 1,· · ·,K,⑵其中Pk∈ Rd×lk且d ≤ min{l1,l2,···,lK}. 此外,M必须是p.s.d矩阵。 利用这个公式,我们可以很容易地证 明 : 如 果 M ∈Rd×d 是 p.s.d 且 rank ( M ) ≤r(r≤d),则对任意非平凡的Pk∈Rd×lk,Mk=PTMPk是p.s.d且rank(Mk)≤r.对于给定的训练数据,学习的度量Mk为3.3. 基于HM3L的多模态分类一旦学习了Pk和M,我们就可以通过矩阵分解很容易地得到L,使得LTL=M然后多模态数据Xi={x(1),x(2),···,x(K)}可以由Pk和L投影,并转换为X={LP1x(1),LP2x(2),···,LPKx(K)}。所有投影特征的连接可以与各种分类算法(如KNN和SVM)一起使用4. 优化为了解决所提出的优化问题(4),我们应用铰链损失函数来摆脱约束,这导致如下的无约束优化问题ΣK通过在分层框架中学习模态特定部分Pk和共享部分M来获得。只要MminM∈S+Dtr(M)+γπPiπ2k=1(五)是p.s.d,Mk是p.s.d,意味着Mk是有效度量。+αCΣ2011年1月Σd2(Pk x(k),Pkx(k))− µ通过执行(2),我们建立了以下关系不同的模式。 因此,我们可以用公式表示(Xi,Xj)∈SKMijk=1+Σ Σ分层多模态度量学习算法作为在(3)中指定的优化问题。Σ+(1−α)Cβ−1ΣD2(Pkx(k),Pkx(k))Xi,X j∈DΣKKMijk=1+minM∈S+DS.T.tr(M)+γ πPiπ2k=11ΣKd2(Pkx(k),Pkx(k))≤μifyij= 1(三)其中C是控制度量上的约束和数据样本上的约束之间的相对贡献的正数,α是平衡来自相似集合KMijK3060k=11ΣKd2(Pkx(k),Pkx(k))≥ β如果y ij= −1。KMijk=1和来自不同集合的配对。设L(M;P1,P2,...,表示我们试图最小化的上述成本函数。当我们考虑Pk(k=1,2,.,K)作为P。我们迭代求解3061i、jS、PD、M不S、MS、PD、PD、MS、MD、PMt1S、PMt−1ijM和P通过更新一个与另一个固定。其中gt(Pk)是L(Pk)在时间t处的梯度,并且它被导出为:铰链损失函数表明,只有违反距离约束的样本对才会产生约束。gt(Pk)= 2γPk,t−1+CαΣ(Xi,Xj)∈AtΣ ΣMtPk,t−1B(k)+K对总成本函数的贡献。 对于符号转换-S、MΣ Σ小姐,让我们tD,PtS,M和t表示活动集ΣC(1 −α)-2名议员 k,t−1(k)i、j(十)在时间t。的t(At)表示为相似(不相似)而K(X,X)∈AtS、PD、PijD,M当我们将Pk固定为更新M.同样,ttD,M )表示为类似分层多模态度量学习(HM3L)算法总结在算法1中。违反距离约束的(不相似)对,我们修正M来更新Pk。1ΣK算法一:分层多模态度量学习(HM3L)A t={(X i,Xj)∈ S|Kk=1d2(Pk,t−1x(k),Pk,t−1x(k))≥µ}输入:S={(Xi,Xj)|yij=1},A t={(X i,Xj)∈ D|1ΣKd2(Pk,t−1x(k),Pk,t−1x(k))≤β}D={(Xi,Xj)|yij= −1},正整数γ,α,η,D、PKk=1Mt−1ijμ、β、C和最大迭代T。tS,M={(X i,Xj)∈ S|1ΣKK2(Pk,t−1x(k)我,Pk,t−1x(k)J)≥µ}初始化:为了初始化Pk(k = 1,2,.,K):k=1从S和D构造x(k)的Xk∈Rlk×NA t={(X,X)∈D|1ΣKd2(Px(k),Px(k))≤β}。对Xk执行PCA我为了得到Pk,0∈Rd×lk.D、MijKMtk=1k,t−1ik,t−1j初始化M:设M0=Id×d.主回路:4.1. 更新M固定Pk,投影次梯度法[6]可以应用于对于t=1:Tdo计算At和At更新M,通过求出M.它涉及两个关键步骤。(7)、(6)和(8);第一步:Mtmp=Mt−ηgt(M),(6)计算At(10)和(9)。端和t更新Pk,其中gt(M)是L(M)在时间t处的梯度,并且它被导出为,输出:Pk(k = 1,2,. . . ,K)和M.gt(M)=Id×d+CαΣ2011年1月Pk,t−1B(k)PTΣ+5。实验(Xi,Xj)∈AtK k=1i、jk,t−1C(1−α)S、PΣΣΣK−ΣPk,t−1B(k)PT(七)为了说明我们的方法的有效性,我们在四个公开的多模态数据集上给出了实验结果:(Xi,Xj)∈AtKk=1i、jk,t−1NUS-WIDE数据集[9],RGB-D对象数据集[20],CIN 2D 3D对象数据集[7]和SUN RGB-D数据集[32]。这些数据集、实验设置和实验结果的详细信息如下:其中B(k)=(x(k)−x(k))(x(k)−x(k))T是秩1矩阵。在下面的小节中给出。i,j i第二步:j i j对于每个数据集上的实验,我们包括(1)基线重新-Mt+1=VT[V] +V,(8)其中VT<$V是M tmp的特征值分解。 将Mtmp投影到p.s.d锥上、A、AB(A一D23062可以通过保持正特征值并将负特征值设置为0来对特征值进行阈值化来完成。4.2. 更新P结果(没有度量学习)由某些特征加上ei获得,其他NN或SVM分类器(取决于哪种分类器用于报告基线结果),(2)通过首先转换基线结果中使用的特征,然后应用NN或SVM分类器,来自所提出的HM3L方法以及其他公开可用的多度量学习方法[10,43]的结果,(3)来自其他方法的结果,这些方法报告了该实验的最佳结果。固定M,每个Pk后裔可以通过梯度单独更新5.1. NUS WIDE数据集上的标记图像分类NUS-WIDE数据集[9]由269,648张网络图像组成Pk,t=Pk,t−1−ηg t(Pk), k=1,2,…K,(9)Flickr的标签。 为了与以前的结果306310.80.60.40.200 10 20 30 40 50迭代次数图2. 迭代过程中的标准化成本函数在[39]中报告的,应用标记图像的相同子集、相同的训练/测试分割、相同的相似(不相似)实例对集合和相同的特征提取过程。使用1521个标记图像的子集。这些标记的图像包括30个类别(演员、飞机、自行车、桥梁、佛像、建筑物、黄油苍蝇、骆驼、汽车、大教堂、悬崖、云、海岸、计算机、沙漠、旗帜、花、食物、森林、冰川、山丘、湖泊、树叶、僧侣、月亮、摩托车、蘑菇、海洋、警察、金字塔),并且每个类别大约50个标记的图像是随机选择的。通过随机分割数据集,765个标记的图像被用作训练数据,其余的被用作测试数据。从训练数据中,选择9613对相似实例和10067对不相似实例来学习度量。对于图像,提取基于SIFT描述符的1024维视觉词包来表示图像模态;对于标签,提取1000-D词袋以表示相关联的标签模态。因此,标记图像的一个实例由两个模态的特征向量表示。5.1.1实验装置对于所考虑的每种方法,首先学习度量。然后,使用训练和测试数据进行学习度量下的KNN分类。 选择K值,是1、3 、 5 、 10 和 20 。 将 该 方 法 与 “Xing + Original” 、“ITML+Original”、“Xing+ Original”等方法进行+ MWH 类似地,使用训练数据的交叉验证调整所有参数。5.1.2实验结果表1显示了不同方法的KNN分类精度从表中可以看出,HM3L方法性能最好,优于所有其他方法。该实验清楚地表明,我们的方法可以提供更好的距离度量,这可以提高分类算法的性能。为了显示所提出的算法是否收敛,我们通过绘制归一化成本函数值与迭代次数的关系来实证地显示算法的收敛性。从图2中,我们可以观察到所提出的算法在几次迭代中收敛。5.2. RGB D Object数据集上的对象识别RGB-D对象数据集[20]是一个用于3D对象识别,分割,场景标记等的大规模多视图数据集。它由300个日常对象的视频记录组成,分为51个不同的类别。通过安装在30°、45°和60°的3个不同仰角的摄像机捕获视频记录。单个RGB-D帧由RGB图像和深度图像两者组成。在[20]中设置了各种计算机视觉任务的评估协议,例如实例识别和类别识别。RGB-D图像每隔5帧进行采样,总共收集了约45,000张RGB-D图像。提取核描述符[3] [4]作为RGB图像和深度图像的特征。对于RGB图像,提取了LBP核描述子、梯度核描述子和归一化颜色核描述子。对于深度图像,提取梯度核描述子和LBP核描述子;从深度图像转换得到的点云数据中提取了正常核描述子和尺寸核描述子。对于每个内核描述符,对象级fea-对1×1,2×2,3×3金字塔子区域,从1000维基向量中得到了图像基向量是通过K-means在大约40万个样本内核描述符上学习的,训练数据每个核描述子的维数为(1+4+9)×1000=14000,利用主成分分析将维数降为1000。在功能前-牵引,每个RGB-D图像由七个内核描述符表示,并且每个内核描述符由1000维向量表示。5.2.1实验装置对于实例识别实验,对应于在角度30°和60°捕获的视频的图像用于训练,并且对应于在角度45°捕获的视频的图像用于测试。对于类别识别实验,随机选择一个对象,并从每个类别中排除用于测试,其余对象的所有视图用于训练。重复了10次试验以进行类别识别。例如,类别识别任务,我们首先使用从训练数据生成的RGB-D图像的相似和不相似集合来学习七个内核描述符的多个度量然后,我们根据学习到的指标执行线性SVM分类[14]。我们还将我们的方法的性能与[34]中报告的结果进行了比较,这些结果基于基于深度学习的RGB-D图像分类方法。5.2.2实验结果实例识别和类别识别的分类结果分别如表2和表3从这些表格中,我们提出以下意见。(1)提出的基于HM3L的分类方法优于MMSS [ 34 ]获得的最佳结果,MMSS [34]将深度架构应用于标准化成本值3064方法星+原创ITML+原创Xing+MWHITML+MWHMKE[26]谢[39]PMML[10]HMML[43]HM3L1-NN0.89950.89950.89950.92860.80560.93520.92330.91400的情况。95243-NN0.81080.66530.88490.89290.69440.90210.92200.92460的情况。94315-邻硝基甲苯0.69710.48680.84260.85190.58600.88490.92990.91140的情况。941810-NN0.47750.23940.76460.73940.44050.83330.91390.90080的情况。933920-NN0.15480.04500.62300.48410.17460.71300.90740.88760的情况。9223表1.标记图像的学习指标下的KNN分类精度1五点九十点八150.7表2.RGB-D对象数据集上的实例识别精度202530354045505 10 15 20 25 30 35 40 45 500.60.50.40.30.20.10表3.RGB-D Object数据集上的类别识别精度10.9图4. 第8次试验类别识别结果的混淆矩阵。501001500.80.70.60.50.42002500.30.2图5. 类别识别实验中的预测错误示例。30050 100 150 200 2503000.10来自相同类别的对象被分组在一起。正如我们从图3中看到的,对于300个对象中的每一个,大多数样本都是类的,图3. 实例识别结果的混淆矩阵。RGB-D图像用于超过13800个实例的实例识别测试和总共10个试验的类别识别。(2)与不进行度量学习的情况相比,所提出的HM3L算法可以提高分类精度(3)基于HM3L的多模态分类优于其他基于多个度量学习的分类,这表明捕获不同多个度量的关系的想法可以帮助学习更合适的距离度量。基于所提出的算法的分类结果的混淆矩阵在图3中示出为实例识别实验,并且在图4中示出为类别识别实验的第八次试验识别实验的测试数据被放置为使得将相同对象的测试样本放在一起,方法RGB深度RGB-DLai [20]60.746.274.8Bo [4]90.854.791.2Blum [2]82.9-90.4HMP [5]92.151.792.8MMSS [34]--94.0PMML [10] +线性SVM92.753.492.9HMML+线性SVM90.051.992.1HM3L +线性SVM九十三3455. 6九十五0方法RGB深度RGB-DLai [20]64.7±2.274.5±3.183.8± 3.5Bo [4]80.7±2.180.3±2.986.5±2.1Blum [2]--86.4±2.3HMP [5]82岁4±3。181. 2±2。387.5±2.9MMSS [34]--88.5± 2.2PMML [10] +线性SVM80.277.7± 2.488.5± 1.4HMML+线性SVM75.8±3.277.4± 2.487.3± 1.8HM3L +线性SVM81.0± 2.779.1± 2.489岁。2±1。63065正确地(对角线)和许多错误是由于某些样本的错误分类,从同一类别的其他对象类别识别中的错误分类示例如图5所示。对于每一列,顶部的对象被错误地分类到底部的某个对象所代表的类别。我们可以看到,由于颜色和形状相似,会出现错误。5.3. CIN 2D3D数据集上的目标识别CIN 2D3D对象分类数据集[7]包含154个对象的分割颜色和深度图像,这些对象来自18类常见的家庭和办公室对象。每个类别包含三到十四个对象。每一个物体都是用高分辨率彩色相机和飞行时间测距传感器记录下来的使用旋转台旋转对象,每隔10度拍摄快照,每个对象产生36个视图。每个视图都是一个数据3066示例由RGB图像和深度图像组成。在用于提取RGB-D对象数据集中的样本的核描述符的过程之后,我们还提取了2D 3D数据集中的数据样本的核描述符。5.3.1实验结果类别分类的评价方案在原始论文中设定[7]。每个类别使用六个对象进行训练,其余对象用于测试。对于每个对象,选择18个视图用于训练,18个视图用于测试。训练集由82个对象组成,共有1476个视图。测试集由74个对象组成,具有1332个视图。评价了与RGB-D数据集中包含的相同类别识别的分类结果如表4所示。从该表中可以看出,所提出的基于HM3L的多模态分类给出了平均最佳性能。浴室258121000100508002015 0卧室13 3674114020184831139518 1教室513291106271910200303211432 2810电脑室0212130000000000103421第3会议室125725677300100011710150走廊477009320030100241414 0餐饮区1320204575123010230511352餐厅21230032390011110012060讨论区223531480210000101826 1家具店134001600348000031580Home_Office 12202100100910010133420厨房2521410127012216620010112 0实验室13 14 1170710014032 320057741演讲厅0226000000000073122 0库302985412102000 563126537客厅5650102090113112238822251办公室20 20 33 21329410151351611307 190休息空间6194226221503110302261125236 3学习空间41344035810702013013106图6.场景识别结果的混淆矩阵36032028024020016012080400表4. CIN 2D3D数据集上的类别识别准确率(%)。5.4. SUN RGB D数据集SUN RGB-D数据集[32]由10355个RGB-D场景图像组成,其中包括3784个Kinect v2图像,1159个Intel RealSense图像以及从NYU Depth Dataset V2拍摄的1449个图像[30],554个场景图像来自Berkeley B3 DO数据集[18],3389个Asus Xtion图像来自SUN 3D视频[38]。我们为RGB图像和深度图像选择相同的Places-CNN [46]场景特征,这些特征用于报告[32]中的基线结果。5.4.1实验结果我们按照[32]的标准实验设置进行场景分类任务具体来说,十九个场景类别超过八十张图像。这些场景类别是浴室、卧室、教室、计算机室、会议室、走廊、用餐区、餐厅、讨论区、服装店、家庭办公室、厨房、实验室、阶梯教室、图书馆、客厅、办公室、休息空间、学习空间。训练和测试的划分可参见[32]。总共有4845个样本用于训练,4659个样本用于测试。采用标准平均分类准确率进行评价。我们将所提出的HM 3L方法应用于Places-CNN特征,用学习的矩阵转换原始特征,然后应用one-vs-all rbf SVM进行分类。场景类别识别结果如表5所示。根据结果,我们提出以下意见。(1)提出的基于HM3L的分类方法优于[35,47]中获得的最佳(2)提出的HM3L算法以及其他两种多度量学习算法可以显着提高分类精度相比,基线没有执行度量学习的情况。(3)基于HM3L的多模态分类优于其他基于多度量学习的分类,这再次表明在学习过程中捕获不同多度量的关系方法RGB深度RGB-DPlace-CNN +线性SVM [32]35.625.537.2Place-CNN + rbf SVM [32]38.127.739.0廖[21]36.1-41.3朱[47]--41.5王[35]--48.1PMML [10] + rbf SVM40.730.544.2HMML [43] + rbf SVM47.932.651.1HM3L + rbf SVM四十八6三十三岁。252岁3表5. SUN RGB-D数据集上的场景分类准确率(%)。6. 结论在本文中,我们提出了一个分层多模态度量学习算法,可以有效地学习多模态数据的多个度量,同时充分利用这些度量之间的关系。所提出的方法不对特征类型或应用做任何假设我们将特征学习看作是一个不同的问题,只专注于学习多模态数据的判别度量,以提高多模态分类的准确性。由于我们将特征学习过程与度量学习过程分开,因此所提出的方法可以应用于具有许多不同特征类型的许多不同应用在四个数据集上的实验结果表明,本文提出的度量学习算法在处理多模态数据时的性能优于其他度量学习算法,并且在所有实验中均取得了最好的性能。由于模态的概念非常普遍,并且许多计算机视觉问题可以在多模态环境中考虑,因此所提出的HM3L算法可以应用于需要适当度量的地方,并且可以提高相关计算机视觉任务的性能。浴室卧室课堂计算机房会议室走廊餐饮区餐厅讨论区家具店家庭办公室厨房实验演讲厅图书馆起居室办公室休息空间学习空间方法RGB深度RGB-D布拉瓦茨基[7]66.674.682.8HMP [5]86.387岁691.0MMSS [34]--91.3PMML [10] +线性SVM九十682.791.8HMML+线性SVM86.883.490.83067确认这项工作得到了DARPA Active Authentication Project(合作协议FA 8750 -13-2-0279)和US Office of Naval Research(ONR)Grant YIP N 00014 -16-1- 3134的支持。引用[1] A. Bellet,A. Habrard和M.塞班特征向量和结构化数据的度量学习综述。CoRR,abs/1306.6709,2013年。2[2] M. J. T.布卢姆Springenberg,J. Wlfing和M.里德米勒rgb-d数据中物体识别的学习特征描述符。在Robotics andAutomation(ICRA),2012年IEEE国际会议上,第1298-1303页,2012年5月。6[3] L.波,X。Ren和D.狐狸.用于视觉识别的内核描述符。神经信息处理系统进展23:2010年第24届神经信息处理系统年会。2010年12月6日至9日在加拿大不列颠哥伦比亚省温哥华举行的会议记录。第244-252页,2010年。5[4] L.波,X。Ren和D.狐狸.用于目标识别的深度核描述符。在智能机器人和系统(IROS),2011年IEEE/RSJ国际会议上,第821- 826页五、六[5] L.波,X。Ren和D.狐狸.基于RGB-D的对象识别的无监督特征学习。在实验机器人-第13届实验机器人国际研讨会,ISER2012,2012年6月18日至21日,魁北克市,加拿大,第387-402页,2012年。六、七[6] S. Boyd和A.穆塔普契奇随机次梯度方法,2007年。4[7] B. Browatzki,J.菲舍尔湾Graf,H.H. Blthoff和C.墙-乌鸦。进入深度:在新的大规模目标数据集上评估目标分类的2d和3d线索。在IEEE International Conference onComputer Vision Work-shops,第1189-1195页,2011年11月。一、四、六、七[8] S.乔普拉河Hadsell和Y.勒昆学习相似性度量有区别地,与应用到人脸验证。在过程中 在计算机视觉和模式识别会议上,第539-546页。IEEE Press,2005. 2[9] T. Chua,J. Tang,R. Hong,H. Li,Z. Luo和Y.郑NUS-WIDE:新加坡国立大学的真实世界网络图像数据库在2009年7月8日至10日在希腊圣托里尼岛举行的第八届ACM图像和视频检索国际会议(CIVR中,4[10] Z. Cui,W. Li,D. Xu,S. Shan和X.尘通过多度量学习融合鲁棒的人脸区域描述符用于野外人脸识别。在2013年IEEE计算机视觉和模式识别会议论文集,CVPR二三四五六七[11] 戴维斯和我。S.狄伦高维问题的结构化度量学习第14届ACM SIGKDD知识发现和数据挖掘国际会议论文集,KDD'08,第195-203页,美国纽约州纽约市,2008年ACM。2[12] J. V. Davis,B. Kulis,P. Jain,S.先生,我。S.狄伦信息理论度量学习。ICML,第209- 216页一、二、五[13] X. Di和V。M. 帕特尔大幅度多模态三重矩阵学习。IEEEInternational Conference on Automatic Face andGesture Recognition,第1卷,第1-8页2[14] R.- E.范,K.- W.昌角J. Hsieh,X.- R. Wang和C.-J. LinLiblinear:一个用于大型线性分类的库。 J.马赫学习. Res. ,9:1871-1874,2008年6月。5[15] A. Frome,Y.Singer,F.Sha和J.马利克学习全局一致的局部距离函数用于基于形状的图像检索和分类。计算机视觉,2007年。ICCV 2007年。IEEE第11届国际会议,第1-8页,2007年。2[16] M. Guillaumin,J. Verbeek和C.施密特用于图像分类的多 模 态 半 监 督 学 习 。 在 计 算 机 视 觉 和 模 式 识 别(CVPR),2010年IEEE会议,第902-909页,2010年6月。1[17] J. 胡,J.Lu,J.Yuan和Y.Tan. 用于野外人脸和亲属关系验证的大幅度多度量学习在2014年11月1日至5日在新加坡新加坡举行的第12届亚洲计算机视觉会议上,第252-267页二、三[18] A. Janoch,S.Karayev,Y.Jia,J.T.Barron,M.弗里茨K. Saenko和T.达雷尔。类别级三维对象数据集:让Kinect发挥作用。在IEEE计算机视觉研讨会国际会议上,第1168- 1174页1、7[19] B. 库 利 斯 Metric Learning : A Survey.Foundations andTrends in Machine Learning,5(4):287-364,2012。2[20] K. 莱湖,澳-地波,X。Ren和D.狐狸. 一个大规模层次多 视 图 rgb-d 对 象 数 据 集 。 在 机 器 人 和 自 动 化(ICRA),2011年IEEE国际会议,第1817-1824页,2011年5月。一、四、五、六[21] Y. Liao,S. Kodagoda,Y.王湖,加-地Shi和Y.刘某Understand scene categories by objects:使用卷积神经网络的语义规则化场景分类器。在2016年IEEE机器人和自动化国际会议,ICRA 2016,瑞典斯德哥尔摩,2016年5月16日至21日,第2318-2325页,2016年。7[22] D. K.林湾,澳-地McFee,和G.兰克利特鲁棒的结构度量学习。在2013年国际机器学习会议上。2[23] W. Liu,S. Ma,D. Tao,J. Liu,and P.刘某使用交替线性化优化的半监督稀疏度量学习。在国际会议上的知识dis-elaboration和数据挖掘,第1139-1148页,2010年。2[24] W. Liu,C.穆河Ji,S.马J. R Smith和S.昌高维空间中的低秩相似性度量学习。在第二十九届AAAI商业智能会议的会议记录中,2015年1月25日至30日,美国德克萨斯州奥斯汀。第2792-2799页,2015年。2[25] B. McFee和G.兰克利特度量学习排名。第27届国际机器学习会议(ICML'10),2010年6月23068[26] B. McFee和G.兰克利特学习多模态相似性。Journal ofMachine Learning Research,12:491-523,2011年2 五、六[27] J. Ngiam,A.科斯拉,M。Kim,J. Nam,H. Lee和A. Y.Ng. 多 模 态 深 度 学 习 。 在 Proceedings of the 28thInternational Conference on Machine Learning , ICML2011,Bellevue,Washington,USA,June 28 - July 2,2011,pages 689-696,2011中。1[28] R. Rosales 和 G. 冯 通过 线 性规 划 学 习稀 疏 度量 。 在Proceedings of the Twelfth ACM SIGKDD InternationalConference on Knowledge Discovery and Data Mining,Philadelphia,PA,USA,August 20-23,2006,pages367-373,2006中。2[29] S. 谢哈尔河谷M. Patel,N.M. Nasrabadi和R.切拉帕稳健多 模 态 生 物 特 征 识 别 的 联 合 稀 疏 表 示 。 IEEETransactionsonPatternAnalysisandMachineIntelligence,36(1):113-126,2014年1月。1[30] N. Silberman,D. Hoiem、P.Kohli和R.费格斯。室内分割和支持从rgbd图像推断。第12届欧洲计算机视觉会议论文集-第五卷,第746-760页,2012年。1、7[31] K. Simonyan,O. M. Parkhi、黑腹拟步行虫A. Vedaldi和A.齐瑟曼。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功