没有合适的资源?快使用搜索试试~ 我知道了~
零激发深度域自适应彭宽川[0000−0002−2682−9912]、吴紫燕[0000−0002−9774−7770]、JanErnst[0000−0002−6342−9213]Siemens Corporate Technology,Princeton NJ 08540,USA{宽川.彭子燕.吴扬.恩斯特}@ siemens.com抽象。领域适应是转移关于任务的知识的重要工具(例如,领域适应)。分类)到第二或目标域。当前的方法假设任务相关的目标域数据在训练期间可用我们演示了如何执行域适应时,没有这样的任务相关的目标域数据。为了解决这个问题,我们提出了零镜头深度域自适应(ZDDA),它使用来自任务无关的双域对的特权信息。 ZDDA学习源域表示,它不仅是为感兴趣的任务定制的,而且也接近目标域表示。因此,源域感兴趣任务解决方案(例如,用于分类任务的分类器)可以 应 用 于 源 和 目 标 表 示 。 使 用 MNIST 、 Fashion-MNIST 、NIST、EMNIST和SUN RGB-D数据集,我们表明ZD-DA可以在分类任务中执行域适应,而无需访问任务相关的目标域训练数据。我们还扩展了ZDDA,通过模拟任务相关的目标域表示与任务相关的源域数据来执行SUN RGB-D场景分类任务中的传感器融合据我们所知,ZDDA是第一种不需要任务相关目标域数据的域自适应和传感器融合方法。其基本原理并不局限于计算机视觉数据,但应该可以扩展到其他领域。关键词:零拍·域自适应·传感器融合1介绍解决实际任务的有用信息通常存在于各种传感器捕获的不同域中,其中域可以是模态或数据集。例如,房间的3-D布局可以由深度传感器捕获或从RGB图像推断。在现实世界的场景中,我们很可能只能访问某些域中的有限数量的数据解决方案的性能(例如当将相同的解决方案应用于其他域时,我们从一个域学习的分类器(用于分类任务的分类器)通常会降级,这是由典型的域自适应(DA)任务中的域移位[17]引起的,其中给出了源域训练数据,目标域训练数据和感兴趣的任务(TOI)。DA任务的目标是导出源域和目标域的TOI的解。2K.- C.彭,Z. Wu和J. ErnstFig. 1. 我们提出了零射击深度域自适应(ZDDA)域自适应和传感器融合。当任务相关的目标域训练数据不可用时,ZDDA从任务无关的双域对中学习。在这个示例域自适应任务(MNIST [27]→MNIST-M [13])中,与任务无关的灰度RGB对来自Fashion-MNIST [46]数据集和Fashion-MNIST-M 数据集(Fashion-MNIST [46]数据集的彩色版本,详细信息见第13节)。第4.1节)提出了诸如[1,14-16,25,30,35,37,39-41,43,44,47,50]的最先进的DA方法,是否被标记)在训练时可用时间,这在实践中并不总是正确的。例如,在实际业务使用中在某些情况下,由于以下原因的组合,获取任务相关的目标域训练数据可能是不可行的:1)现场不合适的工具2)产品开发时间轴。3)预算有限。4)数据导入/导出法规。这种不切实际的假设在传感器融合的现有工作中也被假设为真,例如[31,48],其中目标是获得对任一域中的噪声鲁棒的这个未解决的问题促使我们提出零触发深度域自适应(ZD-DA),这是一种DA和传感器融合方法,其从任务无关的双域训练对学习,而不使用任务相关的目标域训练数据,其中我们使用术语任务无关数据来指代与任务无关的数据在本文的其余部分,我们分别使用T-R和T-I作为任务相关和任务无关的简写。我们说明了什么ZDDA的目的是实现图。图1使用示例DA任务(MNIST [27]-MNIST-M[13])。我们建议读者以彩色方式查看所有图表。在图1中,源域和目标域分别是分别是灰度和RGB图像,TOI是MNIST [27]和MNIST-M [13]测试数据的数字分类。我们假设MNIST-M[13]训练数据不可用。在该示例中,ZDDA旨在使用MNIST [27]训练数据 和 来 自 Fashion-MNIST [46] 数 据 集 和 Fashion-MNIST-M 数 据 集(Fashion-MNIST [46]数据集的彩色版本,细节见第2节)的T-I灰度RGB对。4.1)训练MNIST [27]和MNIST-M [13]图像的数字分类器具体来说,ZDDA通过使用灰度图像模拟RGB表示并在灰度域中建立具有TOI监督的联合网络来实现这一点。我们在第二节中介绍了ZDDA的细节。3.第三章。零激发深度域自适应3表1. ZDDA、无监督领域自适应(UDA)、多视图学习(MVL)和领域泛化(DG)问题条件UDA MVL DG ZDDA给定T-R目标域训练数据YY N N给定多个(>1)域/视图中的T-R训练数据?无无 无[33][42] [28]不适用我们作出以下两项贡献:(1)据我们所知,我们提出的方法ZDDA是第一种基于深度学习的方法,在不使用任务相关目标域训练数据的情况下,在一个源图像模态和另一个不同目标图像模态(而不仅仅是同一模态中的不同数据集,如Office数据集[32])之间执行域适应。我们使用MNIST [27],Fashion-MNIST [46],NIST [18],EMNIST [9]和SUN RGB-D[36]数据集进行交叉验证,显示ZDDA(2)在没有任务相关的目标域训练数据的情况下,我们证明了ZDDA可以进行传感器融合,并且与朴素融合方法相比,ZDDA对源或目标或两者中的噪声测试数据更具鲁棒性在SUNRGB-D [36]数据集的场景分类任务2相关工作域自适应(DA)已经在计算机视觉中被广泛研究并且被应用于各种应用,诸如图像分类[1,1437,39随着近年来深度神经网络的发展,最先进的方法成功地执行了具有(全部或部分)标记的DA [8,15,25,30,39]或未标记的[1,14-虽然提出了不同的策略,如域对抗损失[40]和域混淆损失[39]来提高DA任务的性能,但大多数现有方法需要T-R目标域训练数据,这在现实中可能是不可用的。相比之下,我们提出ZDDA从T-I双域对中学习,而不使用T-R目标域训练数据。ZDDA的一部分包括使用源域数据和类似的概念已经在[19,21]中提到。然而,[19,21]都需要访问T-R双域训练对,但ZDDA不需要T-R目标域数据。与ZDDA相关的其他问题包括无监督域自适应(UDA),多视图学习(MVL)和域泛化(DG),我们在表1中比较了它们的问题设置,这表明ZDDA问题设置与UDA,MVL和DG不同。在UDA和MVL中,给出了T-R目标域训练数据。在MVL和DG中,给出了多个域中的然而,在ZDDA中,T-R目标域训练数据4K.- C.彭,Z. Wu和J. Ernst表2. ZDDA与其他现有方法的工况比较。在所有列出的方法中,只有ZDDA可以在所有四种条件下工作每种方法在每种条件下都能工作 [28][11][6][49][14][32][39]没有T-R目标域训练数据YNNYNYNY在>1个域中没有NYYYYYYY没有精确的域描述符YYYNYYYY没有任何目标域数据的类标签YNYYYNNY上述所有条件NN N NNNNY是不可用的,并且唯一可用的T-R训练数据在一个源域中。我们进一步将ZDDA与表2中与我们的问题设置相关的现有方法进行比较,这表明在所列出的方法中,只有ZDDA可以在所有四种条件下工作。在传感器融合方面,Ngiam等人[31]基于用于特征学习、监督训练和测试的模态,定义了用于多模态学习的三个组件(多模态融合、交叉模态学习和共享表示学习),并使用他们提出的基于深度信念网络和自动编码器的方法对音频-视频数据进行实验。针对时间数据,Yang et al.[48]遵循[31]中的多模态学习设置,并使用视频传感器和音频-视频数据验证他们提出的编码器-解码器架构。虽然在传感器融合方面取得了一定的进展以前的工作[31,48],我们不知道任何现有的传感器融合方法,克服了缺乏T-R目标域训练数据的问题,这是ZDDA旨在解决的问题。3我们提出的方法-ZDDA给定感兴趣的任务(TOI)、源域Ds和目标域Dt,我们提出的方法零激发深度域自适应(ZDDA)被设计成实现以下两个目标:1)域自适应:当Dt中的T-R训练数据不可用时,导出Ds和Dt的TOI我们假设我们可以访问Ds中的T-R标记的训练数据以及Ds和Dt中的T-I双域对。2)传感器融合:在前面的假设下,当Ds和Dt的测试数据都可用时,推导TOI的解。Ds或Dt中的测试数据可能是有噪声的。我们假设,有没有先验知识的类型的噪声,并在测试时,该为了方便起见,我们使用RGB-D中的场景分类任务作为示例TOI来解释ZDDA,但是ZDDA可以应用于其他TOI/域。在该示例中,Ds和Dt分别是深度图像和RGB图像根据我们先前的假设,我们可以在训练时访问T-R标记的深度数据和T-I RGB-D对中说明了ZDDA的训练过程零激发深度域自适应5图二、 ZDDA培训程序概述。我们使用来自SUN RGB-D [36]数据集的图像ZDDA利用源域数据模拟目标域表示,在源域的监督下建立联合网络,训练传感器融合网络。在步骤1中,我们选择训练s1并修复t,但我们也可以训练t并修复s1来模拟目标域表示。 在步骤2中,t也可以是可训练的而不是固定的,但我们选择固定它以使可训练参数的数量可管理。细节在Sec.3在图2中,我们使用深度图像模拟RGB表示,构建具有深度图像中的TOI的监督的联合网络,并分别在步骤1、步骤2和步骤3中训练传感器融合网络。我们使用图中每个卷积神经网络(CNN)底部标记的ID。2,每个CNN。在步骤1中,我们创建两个CNN,si和t,以将T-I RGB-D对的深度和RGB图像作为输入。这一步的目的是找到s1和t,使得将RGB图像馈送到t中可以通过将对应的深度图像馈送到s1中来近似。我们通过固定t并在训练时在s1和t之上强制执行L2损失来实现这一点我们选择在这里训练s1并修复t,但是训练t并修复s1也可以达到同样的目的。L2损失可以用任何合适的损失函数来代替,这些损失函数鼓励两个输入表示的相似性步骤1中的设计类似于幻觉架构[21]和监督转移[19],但我们不需要T-R双域训练对。相反,我们使用T-I双域训练对。在步骤1之后,我们添加另一个CNN,s2(具有与s1相同的网络架构)和一个分类器到网络中(如步骤2所示),以从训练深度图像的标签中学习。为了简单起见,我们实验中的分类器是完全连接的层,但也可以使用其他类型的分类器。新添加的CNN将T-R深度图像作为输入,并与原始源CNN共享所有权重,因此我们使用s2来引用它们两者。t与步骤1相同。在训练时,我们从s1预训练s2并修复t。我们选择固定t的灵感来自ADDA [40]中t也可以在步骤2中训练,但是考虑到我们有限的6K.- C.彭,Z. Wu和J. Ernst(a) 测试域自适应(b)测试传感器融合图3.第三章。 ZDDA测试程序概述。我们使用SUN RGB-D [36]图像进行说明。与图中的颜色编码不同。2、这里的颜色纯粹是用来区分不同的CNN/分类器/预测由于数据量很大,我们选择修复它,以使可训练参数的数量易于管理。s2和源分类器被训练,使得softmax损失和L2损失的加权和被最小化。softmax损耗可以用适合TOI的其他损耗来代替。在步骤2之后,我们期望获得接近于特征空间中的RGB表示的深度表示,并且在场景分类中利用训练的分类器表现得相当好。步骤1和步骤2可以通过适当设计的课程学习一步完成,但我们将它们分开,不仅是因为清晰,还因为在培训之前设计学习课程在步骤2之后,我们可以通过连接s2/t和训练的s2/ t来形成深度/RGB(表示为CD/CRGB)的场景源分类器(如图所示3a),其满足我们的第一目标,域自适应。我们使用符号ZDDA2来指代使用图1中2至步骤2和图2中的测试程序3a.为了执行传感器融合,我们提出了步骤3,其中我们仅使用T-R深度训练数据来训练RGB-D输入的联合我们创建两个CNN,s3和s4(每个CNN都有与cns1相同的网络架构),并添加在它们之上的连接层,用于连接它们的输出表示。级联表示被连接到联合分类器。在训练时,我们分别从s2和s1预训练s3和s4,并修复s4。s3和s4都将T-R深度图像作为输入。为了训练更鲁棒的RGB-D场景分类器,我们随机选择s3和s4的一些输入,并且可选地独立地向它们添加噪声。我们用场景分类的深度训练数据的标签来监督整个网络,这是通过在联合分类器上强制执行的softmax损失来完成的根据步骤1,s4的输出预期模拟RGB表示,就好像我们将T-R RGB图像馈送到t。该预期基于这样的假设:无论数据是T-R还是T-I,双域成对数据之间的关系都是相似的。给定模拟的RGB表示,s3被训练以学习适合于零激发深度域自适应7表3. 我们使用的数据集的统计数据。对于NIST,我们使用“按类”数据集,删除数字,并将大小写字母视为不同的类。 对于EMNIST,我们使用仅包含字母的“EMNIST字母”拆分。我们使用Ganin的方法[13]从原始数据集创建彩色数据集(参见第二节)。4.1以取得详细数据)。我们通过对应的数据集ID来引用每个数据集(例如DN和DN-M分别 指NIST和NIST-M数据集)原始数据集MNIST [27] Fashion-MNIST [46] NIST [18] EMNIST [9] SUN RGB-D [36]数据集IDDMDFDNDEDS图像内容数字服装信信场景图像尺寸28×2828×28128×12828×28VGA#类1010522645#训练数据6000060000387361124800详情见第二节。4.1#测试数据10000100002394120800详情见第二节。4.1类标签0-9连衣裙、大衣等字符Aa-Zz走廊、实验室等均衡的班级?NYNYN示例图像彩色数据集 MNIST-M时尚-MNIST-MNIST-M EMNIST-MN/ A示例图像N/ A在步骤2中没有L2损失的约束的RGB-D场景分类。在测试时,s4被替换为t,t将T-R RGB测试图像作为输入,其中添加了可选的噪声以测试给定噪声RGB-D测试数据的ZDDA的性能(如图1所示)。第3b段)。在图3b中,我们还测试用“深度图像s和s 4”替换在图中的训练程序之后。2,我们可以在RGB、深度和RGB-D域中形成三个场景分类器(每个域一个分类器),并且我们训练的RGB-D分类器预计能够以合理的性能下降来处理噪声输入。图中的ZDDA的3步训练过程。2可以作为一个端到端的培训过程与适当的 学习课程。我们将这三个步骤分开,因为便于解释。我们使用符号ZDDA3来指代使用图中的训练程序2到步骤3和图中的测试程序3b.4实验装置4.1数据集对于域适应(DA),我们使用MNIST [27],Fashion-MNIST [46],NIST [18],EMNIST [9]和SUN RGB-D [36]数据集验证了ZDDA在分类任务下的有效性对于传感器融合,我们在SUN RGB-D [36]数据集上进行了实验。我们在表3中总结了这些数据集的统计数据,其中我们列出了用于引用这些数据集的数据集ID。对于DM、DF、DN和DE,我们根据Ganin的工作[13]中提出的过程创建这些数据集的彩色版本(DM-M、DF- M、DN-M和DE-M)8K.- C.彭,Z. Wu和J. Ernst表4.我们在实验中使用的基础网络架构(BNA)。 对于每个BNA,我们在图1中指定分离源/目标CNN和源分类器的层。2.右列中的层名称基于每个BNA基础网络源/目标CNN架构体系结构(BNA)(直到BNA中的位置(包括在内))LeNet [5] ip1[26]第26话:我的世界SqueezeNet v1.1 [23] fire9/concat- 将灰度图像与从BSDS 500数据集随机提取的块混合这些彩色数据集和原始数据集被用来构建四个DA任务,从灰度到RGB图像的适应。对于每个DA任务,我们使用其他三对数据集(原始数据集和彩色数据集)中的一对作为T-I数据。例如,对于DA任务DM-DM-M,DF和DF-M-起是作为T-I数据的一个可能选择。DA任务DM→DM-M在最近的工作中被认为是测试DA方法有效性的标准实验之一[1,7,14,20,33,34],因此我们采用了这个实验并将其扩展到DF,DN和DE。DS包含属于45个不同场景的10335个RGB-D对。对于每个RGB-D对,既提供了原始(有噪声的)深度图像,也提供了经过后处理的干净深度图像,我们选择使用原始深度图像进行模拟真实世界的场景。在45个场景中,我们选择了以下10个场景:计算机房(0)、会议室(1)、走廊(2)、餐厅(3)、讨论area(4)、home office(5)、idk(6)、lab(7)、lecture theatre(8)和study space(9),其中每个场景后面的数字是我们用来指代每个场景的场景ID属于其他场景的8021个RGB-D对被用作T-I训练数据。基于以下两个约束来选择10个场景:1)每个场景在DS中包含至少150个RGB-D对,这确保了合理量的T-R数据。2)属于所选择的10个场景的RGB-D对的总数被最小化,这使T-I训练数据的量最大化我们的经验发现,T-I训练数据的数量和多样性对ZDDA很重要。为了避免偏向于具有更多数据的场景,对于所选择的10个场景中的每一个,我们随机选择89/38个RGB-D对作为T-R训练/测试数据。当使用不同的场景选择对不同的场景分类任务进行实验时,我们仅使用与那些所选场景相关联的训练/测试数据作为T-R数据。4.2培训详细信息我们使用Caffe [24]来实现ZDDA。表4列出了我们使用的基础网络架构(BNA)以及分离源/目标CNN和源/目标CNN的层。零激发深度域自适应9图中的分类器2.例如,在BNA是LeNet [5]的情况下,图1A中的每个源/目标CNN的架构可以是:2是LeNet [5]架构直到“ip 1”层,LeNet [5]架构的其余部分用作源分类器。对于涉及D M、D F、D N和D E的DA任务,我们使用LeNet [5]作为BNA,并在图中训练所有CNN。2从头开始,除了目标CNN是从T-I数据集预训练的,然后固定。例如,当使用DF和DF-M作为DA任务DM-DM-M中的T-I数据时,我们使用DF-M的图像和标签从头开始训练具有LeNet [5]架构的CNN(表示为CNN ref),并预训练图1中的目标CNN。2来自CNN Ref。对于其他DA任务和涉及DM、DF、DN和DE的T-I数据集,我们遵循类似的过程。对于涉及DS的实验,我们主要使用GoogleNet [38]作为B-NA,但我们也使用AlexNet [26]和SqueezeNet v1.1 [23]进行交叉验证实验,针对不同的BNA。由于在DS中只有有限数量的RGB-D对可用,因此我们在图1中预训练所有CNN。当BNA分别是GoogleNet [38],AlexNet [26]和SqueezeNet v1.1 [23]时,BVLC GoogleNet模型[4],BVLC AlexNet模型[3]和参考SqueezeNet模型[22]分别为2。这些预训练的模型是为ImageNet[10]分类任务训练的对于ZDDA3中可选添加的噪声,我们使用无噪声数据和噪声数据进行训练/测试在后一种情况下,假定没有关于噪声的先验知识可用,我们使用黑色图像作为噪声图像以对噪声图像中没有信息可用的极端情况进行我们使用通过将原始T-R源域训练数据复制10次并用黑色图像替换随机选择的图像的p个训练%而形成的增强训练数据来训练ZDDA3我们按照这个程序进行两次在步骤3中,将两个增强的训练数据集独立地用于两个源CNN,并且将两个增强的训练数据集用作两个源CNN的输入。我们根据经验设置ptrain= 20。图中的测试数据。3b是通过用黑色图像替换随机选取的原始测试图像的p检验%来构造的,并在不同的p检验s下对ZDDA进行了评估。对于所有实验,源/联合分类器的输出节点的数量被设置为TOI中的类的数量,并且这些分类器从头开始训练。对于联合分类器,除非另有说明,否则我们使用两个全连接层,其中联合分类器的第一全连接层具有1024个输出节点。根据图1中使用的训练参数。2对于涉及D S的任务,当BNA是GoogleNet [38]时,我们使用32的批量大小和步骤1/2/3的固定学习率10−5/10 −6/10 −3。选择学习速率,使得经训练的网络可以在合理的时间量下收敛。我们在步骤2中将softmax损失和L2损失的权重分别设置为103 和 1 , 使 得 两 种 损 失 具 有 可 比 较 的 数 值 。 步 骤 1/2/3 被 训 练104/103/103次迭代。对于其他训练参数,除非另有说明,否则我们采用在训练BVLC GoogleNet模型[4]中使用的默认参数用于ImageNet[10]分类任务一般来说,我们采用用于训练MNIST [27]的每个BNA的默认训练参数。10K.- C.彭,Z. Wu和J. Ernst表5.域自适应的总体/平均每类准确度(%)由表3中的数据集形成的任务(灰度图像→RGB图像),其中我们引入数据集ID并在这里使用它们来引用数据集。中间四行 显示ZDDA 2的性能。每个单元格的颜色反映了每个列中的性能排名,其中越深越好。中间四行括号中的数字通过word2vec [29],其中较大的数字表示较高的语义相似性。T-R目标域训练数据仅可用于行T-I DM→ DM-M DF→ DF-M DN→ DN-M DE→ DE-M数据→→→→源仅39.04/39.3133.77/33.778.59/8.7933.70/33.70DM,DM-MN/A/51.55(0.049)34.25/33.35(0.174)71.20/71.20(0.178)DF,DF-M73.15/72.96(0.049)N/A/21.24(0.059)46.93/46.93(0.053)DN,DN-M91.99/92.00(0.174)43.87/43.87(0.059)N/AN/ADE、DE-M94.84/94.82(0.178)65.30/65.30(0.053)N/AN/A只针对97.33/97.3484.44/84.4462.13/61.9989.52/89.52或Caffe [24]和SqueezeNet v1.1 [23]实现中的ImageNet [10]分类任务,除非另有说明。4.3绩效参考和基线为了获得完全监督方法的性能参考,我们使用每个域中的T-R训练数据和标签,在每个域中使用表4中的BNA训练分类器当BNA是LeNet [5]时,我们从头开始训练分类器。对于其他BNA,我们以与第2节中描述的相同的方式预训练分类器四点二。经过训练,对于每个DA任务,我们分别在源域和目标域中得到两个完全超监督分类器Cfs,s和Cfs,t对于DA任务的基线,我们直接将目标域测试图像馈送到Cfs,s以获得性能,而不应用任何DA方法。为传感器融合的基线,我们比较ZDDA3与一个天真的融合方法从Sec.中的CRGB和CD预测具有最高概率的标签。3.第三章。5实验结果我们首先将ZDDA2与涉及DM、DF、DN和DE的四个域适应(DA)任务(从灰度适应到RGB图像)中的基线进行比较,并且结果总结在表5中,其中前两个数字表示总体/平均每类准确度(%)。每列中较暗的单元格表示每个任务中更好的分类准确性在表5中,中间四行表示ZDDA2的性能。{DN,DN-M}和{DE,DE-M}不能因为它们都与字母分类任务直接相关,所以它们可以是彼此的T-I数据。表5显示,无论我们使用哪种T-I数据零激发深度域自适应11表6. 域适应任务MNIST→MNIST-M的性能比较。每个单元格的颜色反映性能排名(越深越好)。对于ZDDA2,我们报告了表5中的最佳总体准确度。除了ZDDA 2之外,所有列出的方法都使用MNIST-M训练数据。在不访问MNIST-M训练数据的情况下,ZDDA2仍然可以在该任务中实现与竞争方法相当的准确性(甚至优于其中的大多数)方法[14][34][20][33][7] ZDDA2准确度(%)76.6686.7089.5394.2098.2094.84表7. 场景分类中不同类别数的性能比较。报告的数字为分类准确度(%)。每种颜色单元格反映了每列中的性能排名,其中颜色越深表示性能越好。PRGB-D表示任务不相关的RGB-D对exp.ID训练方法形态测试模态234班级数5 6 789101GoogLeNetDD85.53 83.33 82.89 70.00 67.11 59.02 54.28 50.88 51.842ZDDA2D+PRGB-DD88.1685.96 83.5577.8970.1866.92 64.8062.28 59.743ZDDA3D+PRGB-DD88.16 86.8484.87 77.8972.37 66.9264.47 64.33 63.164GoogLeNetDRGB68.42 57.02 56.58 48.95 42.11 45.115ZDDA2D+PRGB-DRGB80.26 78.07 76.32 67.37 57.89 53.76 47.37 45.03 43.166GoogLeNetRGBRGB88.1685.0984.8779.47 78.07 68.80 70.07 69.88 63.687ZDDA3D+PRGB-DRGB-D 88.1685.9685.5376.32 72.81 68.42 65.1363.16 63.16选定的场景ID(在第二节定义)4.1)0 10 20 30 40 50 60 70 80 9使用,ZDDA2显著优于基线(仅源)。为了了解T-R数据集(表示为DT−R)和T-I数据集(表示为DT−I)之间的语义相似性如何影响性能,我们受到[12]的启发,并使用word 2 vec [29]来计算来自DT−R和DT−I(每个一个)的任何两个标签的平均相似性(表示为S)我们在表5的中间四行的括号中报告S(DT-R,DT-I),其中较高的S表示较高的语义相似性。给定表5和以下参考S值:S(物体,场景)=0.192,S(动物,水果)=0.171,S(猫,狗)=0.761,我们发现:(1)对于除了DF-DF-M之外的所有列出的DA任务,更高的S对应于更好的性能,这与我们的直觉一致,即使用更相关的数据作为T-I数据更多地提高了性能。(2)表5中列出的所有S接近或低于S(动物,水果)=0.171,我们认为这表明我们的T-I数据与T-R数据高度不相关其次,在表6中,我们将ZDDA2与现有的DA方法进行了比较,因为DA任务DM→DM-M在最近的工作中被认为是标准实验之一[7,14,20,33,34]。虽然这不是一个公平的比较(因为ZDDA2无法访问T-R目标域训练数据),但我们发现12K.- C.彭,Z. Wu和J. Ernst表8. ZDDA的性能(平均分类准确度(%))与不同的训练/测试分裂和场景分类中的类的选择的验证GN代表GoogleNet [38]。PRGB-D的定义和各列中单元格颜色的表示与表7相同训练测试验证方法模态模态训练/测试分割类选择GN DD ZDDA2D+PRGB-DDZDDA3 D+PRGB-DD58.37±3.08 62.49±1.74GNDRGB31.26±1.7632.60±2.37ZDDA 2D+ PRGB-DRGB44.47±2.5045.47±2.57GNRGBRGB66.26±1.6067.95±2.20ZDDA3 D+PRGB-D RGB-D5 8 . 6 8 ±3.1062.13±1.50分类数/折叠数10/5 9/10ZDDA2可以达到与最先进的方法相当的精度(甚至优于其中的一些),这支持ZDDA2是在T-R目标域训练数据不可用时有前途的DA方法第三,我们测试ZDDA的DA任务构建从DS(适应从深度到RGB图像)的功效。我们比较了ZDDA与基线下不同的场景分类任务,通过改变的场景,volved的数量。结果总结在表7中,其中我们列出了每种方法的训练和测试模式。我们还列出了场景ID(在第2节中介绍)。4.1)参与每一项任务。较暗的单元格表示每列中更好的准确度。我们通过使用word 2 vec [29](与表5中使用的方法相同)测量语义相似度来验证T-R和T-I数据之间的不相关程度对于表7中的10类实验,S(DS(T-R),DS(T-I))=0.198(接近参考S(对象,场景)=0.192),我们认为这显示了我们的T-I和T-R数据之间的高度为了简单起见,我们使用Ei来表示exp指定的实验在本节中IDi对于完全受监督的方法在深度域,ZDDA(E2,E3)优于基线(E1)由于T-I RGB-D对带来的额外信息。我们发现,对于大多数列出的任务,ZDDA3(E3)优于ZDDA2(E2),这与我们的直觉是一致的,因为ZDDA2中的源表示受到L2损失的约束,而ZDDA3中的对应物是在没有L2约束的情况下学习的。RGB域(E6)中的全监督方法优于域自适应(E4)和ZDDA2(E5)的基线,因为E6可以访问E4和E5不可用的T-RRGB训练数据。从E4到E5的性能提升是由ZDDA 2的训练过程以及额外的T-IRGB-D训练对来计算。E3和E7的表现相似,这支持了ZDDA3中的模拟目标表示与真实目标表示相似。56.89±2.13 62.05±1.9752.63±1.76 53.98±1.68零激发深度域自适应13表9. ZDDA在场景分类中使用不同基础网络架构的性能验证。报告的数字为分类准确度(%)。PRGB-D的定义和各列中单元格颜色的表示与表7训练测试基地网络体系结构[23]第23话我的世界,我的世界,我的世界[23]BNA D RGB 31.58 30.26 26.58ZDDA2 D+PRGB-DRGB43.1640.0035.79BNA RGBRGB63.6859.4757.37ZDDA3 D+PRGB-D RGB-D56.0551.8463.16为了测试ZDDA的性能与基线的性能相比的一致性,我们进行以下三个首先,我们进行5倍交叉验证与不同的训练/测试分裂的10场景分类。第二,我们使用9个场景分类的不同类别选择执行10倍验证(在第二节中介绍的10个所选场景中留下一个类别实验)4.1)。第三,我们验证ZDDA前两个实验的结果示于表8中,第三个实验的结果示于表9中。表7、表8和表9的结果一致。在表7、表8和表9中,报告了在无噪声训练和测试数据的条件下的分类准确度。为了让ZDDA对噪声输入更鲁棒,我们用噪声训练数据训练ZDDA3步骤3(我们使用ptrain= 20,如第2节所述。4.2),并评估RGB和深度测试数据在不同噪声条件下的分类精度。结果如图所示4,其中ZDDA3(图4b)优于朴素融合方法(图4b)。4a)在大多数条件下,并且性能改善是示于图4c.图4a和图4 b两者都是图4 b示出了由有噪声的深度测试数据引起的性能下降大于由有噪声的RGB测试数据引起的性能下降,这支持训练的RGB-D分类器更多地依赖于深度域。传统上,训练融合模型需要两种模态中的T-R训练数据。然而,我们表明,在没有RGB域中的T-R训练数据的情况下,我们仍然可以训练RGB-D融合模型,并且当噪声增加时,性能会平滑下降。除了使用黑色图像作为噪声模型外,我们还评估了相同的训练过的关节分类器在ZDDA3中使用另一个噪声模型(添加一个黑色矩形随机位置和大小),并且结果还支持ZDDA3优于朴素融合方法。虽然我们只BNA DD51.8449.7448.68ZDDA2 D+PRGB-DD59.7451.0556.32ZDDA3 D+PRGB-DD51.0556.3263.1614K.- C.彭,Z. Wu和J. Ernst(a) 初始融合(b)ZDDA3 (c)准确性差异。((b)-(a))见图4。两种传感器融合方法在以黑色图像作为噪声图像时的性能比较。我们在RGB和深度测试数据中比较了(a)朴素融合和(b)ZDDA3在不同噪声水平下的分类准确度(%)。(c)显示ZDDA3在大多数条件下优于天然融合在训练时使用黑色图像作为ZDDA3的噪声模型,我们期望添加不同的噪声模型可以提高ZDDA3的鲁棒性。6结论和未来工作我们提出了零次深度域自适应(ZDDA),这是一种执行域自适应(DA)和传感器融合的新方法,不需要现实中无法访问的任务相关目标域训练数据而不是解决一般的零杆DA问题,我们的目标是解决问题的假设下,任务相关的源域数据和任务无关的双域配对数据。我们的核心思想是使用任务相关的源域数据来模拟任务相关的目标域表征通过学习任务无关的双域对。在MNIST [27]、Fashion-MNIST [46]、NIST [18]、EMNIST [9]和SUN RGB-D [36]数据集,我们表明,ZDDA优于基线DA和传感器融合,即使没有任务相关的目标域训练数据。在从MNIST [27]适应到MNIST-M [13]的任务中,ZDDA甚至可以胜过需要访问MNIST-M [13]训练数据的几种最先进的DA方法我们计划在后续工作中应用ZDDA的一个工业用例是训练RGD对象分类器,仅给出这些对象的无纹理CAD模型。在这种情况下,深度和RGB图像分别是源域和目标深度图像可以从所提供的CAD模型渲染我们相信,ZDDA可以直接扩展到处理其他感兴趣的任务,通过修改图中的损失函数。2步骤2和步骤3。零激发深度域自适应15引用1. 阿尔容迪河Tuytelaars,T.:轻量级无监督域自适应卷积滤波器重建。在:Hua,G.,Jégou,H.(编辑)ECCV研讨会。第9915卷,第100页。508-515. 03 The Dog(2016)2. Arbelaez,P.,Maire,M.,福克斯角Malik,J.:轮廓检测与分层图像分割。IEEE传输模式分析马赫内特尔33,8983. BAIR/BVLC:BAIR/BVLC AlexNet模型。http://dl.caffe.berkeleyvision的网站。org/bvlc_alexnet.caffemodel,访问时间:2017-03-024. BAIR/BVLC : BAIR/BVLC GoogleNet 模 型 。 http://dl.caffe 的 网 站 。berkeleyvision.org/bvlc_googlenet.caffemodel,访问时间:2017-03-025. BAIR/BVLC : Caffe 教 程 中 的 Lenet 架 构 https://github.com/BVLC/caffe/blob/master/examples/mnist/lenet.prototxt6. Blitzer,J.,福斯特,D.P.,Kakade,S.M.:零激发域自适应:多视角的方法。见:技术报告TTI-TR-2009-1。丰田技术研究所(2009)7. Bousmalis,K.,Silberman,N. Dohan,D. Erhan,D.,Krishnan,D.:无监督像 素 级 域 适 应 与 生 成 对 抗 网 络 。 IEEE 计 算 机 视 觉 与 模 式 识 别 会 议(CVPR)pp. 3722-3731. IEEE(2017)8. Chen T.H. Liao,Y.H.,Chuang,C.Y.,徐伟东,Fu,J.,孙,M.:表演,改编和告诉:跨域图像字幕的对抗训练。在:IEEE国际计算机视觉会议(ICCV). pp. 521-530. IEEE(2017)9. Cohen,G.Afshar,S.,Tapson,J.,van Schaik,A.:EMNIST:MNIST的一个扩展,arXiv预打印arXiv:1702.05373(2017)10.Deng,J.,Dong,W.,索赫尔河L
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 十种常见电感线圈电感量计算公式详解
- 军用车辆:CAN总线的集成与优势
- CAN总线在汽车智能换档系统中的作用与实现
- CAN总线数据超载问题及解决策略
- 汽车车身系统CAN总线设计与应用
- SAP企业需求深度剖析:财务会计与供应链的关键流程与改进策略
- CAN总线在发动机电控系统中的通信设计实践
- Spring与iBATIS整合:快速开发与比较分析
- CAN总线驱动的整车管理系统硬件设计详解
- CAN总线通讯智能节点设计与实现
- DSP实现电动汽车CAN总线通讯技术
- CAN协议网关设计:自动位速率检测与互连
- Xcode免证书调试iPad程序开发指南
- 分布式数据库查询优化算法探讨
- Win7安装VC++6.0完全指南:解决兼容性与Office冲突
- MFC实现学生信息管理系统:登录与数据库操作
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功