没有合适的资源?快使用搜索试试~ 我知道了~
Chunpeng Wu1∗, Wei Wen1, Tariq Afzal2, Yongmei Zhang2, Yiran Chen3, and Hai (Helen) Li3{chunpeng.wu,wei.wen}@pitt.edu, {tariq.afzal,jenny.zhang}@lge.com{yiran.chen,hai.li}@duke.edu56680一种紧凑的DNN:接近GoogLeNet级别的分类和域自适应准确性01 University of Pittsburgh电气与计算机工程系,匹兹堡,PA 15260 2 LG San JoseLab,圣克拉拉,CA 95054 3 Duke University电气与计算机工程系,杜克大学,达勒姆,NC277080摘要0最近,基于网络架构设计的DNN模型压缩,例如SqueezeNet,引起了很多关注。与众所周知的模型相比,这些极度紧凑的网络在图像分类上没有任何准确性下降。然而,一个新兴的问题是,除了在单个数据集上对图像进行分类之外,这些压缩技术是否会损害DNN的学习能力。我们的初步实验表明,尽管分类性能得到了保留,但这些压缩方法可能会降低域自适应(DA)能力。在这项工作中,我们提出了一种新的紧凑网络架构和无监督DA方法。该DNN建立在一个新的基本模块Conv-M上,该模块提供了更多多样的特征提取器,而不会显著增加参数。我们的DA方法的统一框架将同时学习跨域的不变性,减少特征表示的差异并适应标签预测。我们的DNN具有410万个参数,仅为AlexNet的6.7%或GoogLeNet的59%。实验证明,我们的DNN在分类和DA上都获得了GoogLeNet级别的准确性,而我们的DA方法在某些方面略优于以前的竞争方法。综上所述,我们基于我们的DNN的DA策略在流行的Of�ce-31和Of�ce-Caltech数据集上的十八个DA任务中的十六个达到了最先进的水平。01. 引言和动机0深度神经网络(DNN)的成功鼓励了在各种类型的平台上进行广泛应用,例如自动驾驶汽车和虚拟现实头盔。为了克服硬件限制,从基于学习的[1, 2,3]到网络架构的DNN模型压缩技术,0� C. Wu在LG San Jose Lab实习期间完成了这项工作的一部分。0最近,基于网络架构设计的DNN模型压缩,例如SqueezeNet,引起了很多关注。与众所周知的模型相比,这些极度紧凑的网络在图像分类上没有任何准确性下降。然而,一个关键的问题出现了,除了在单个数据集上对图像进行分类之外,这些压缩方法是否会损害DNN的学习能力。0在这项工作中,我们试图弥合压缩DNN架构与其域自适应(DA)能力之间的差距。DA能力是评估机器学习模型是否能够捕捉源域和目标域之间的协变量偏移[7],并自适应地消除差异。具有出色的半监督或无监督DA能力的模型可以大大减少对手动标记示例的需求,适用于实际应用。0我们观察到基于架构设计的模型压缩方法会导致DA准确性下降,例如,一个具有GoogLeNet级别[9]分类准确性的DNN只能获得AlexNet级别[8]的DA准确性。表1显示了我们的实验结果。我们使用SqueezeNet [4]和FaConvNet[5]与AlexNet进行比较,因为它们分别是在图像分类上实现了AlexNet级别和GoogLeNet级别准确性的最小的DNN模型,据我们所知。我们采用了流行的图像分类基准数据集ImageNet'12 [10]。我们采用了Of�ce-31[11]数据集上的三个标准DA任务,并且在表1中用于所有DNN的无监督DA方法是GRL[12]。DNN在ImageNet'12上进行了预训练,然后对所有DA任务进行了微调。尽管这两个网络的分类准确性几乎相同,但AlexNet和SqueezeNet之间存在很大的DA准确性差异。FaConvNet在分类上的表现超过AlexNet12.9%,但在DA上略逊于AlexNet。0直观上,增加参数将导致更好的准确性。我们的后续实验表明,仅通过增加SqueezeNet和FaConvNet的参数,可以提高DA准确性,但无法达到它们的分类准确性。AMAZONDSLRWEBCAMWEBCAMWEBCAMDSLRAlexNet [8]61 M57.273.096.499.2FaConvNet [5]2.8 M70.171.894.398.1SqueezeNet [4]1.2 M57.564.492.896.4Rev-FaConvNet4.8 M70.374.196.599.2Rev-SqueezeNet2.2 M57.966.993.998.856690表1:Of�ce-31数据集上DNN模型的图像分类和无监督DA准确性。0#参数 分类0任务1 任务2 任务30图1:FaConvNet [5](左)和SqueezeNet[4](右)中采用的基本模块。这两个模块都使用了粗体标注的“瓶颈”层。0增加参数数量。具体来说,我们在不改变两个模型结构的情况下,增加了FaConvNet和SqueezeNet的参数。首先比较了FaConvNet和SqueezeNet中采用的基本模块,如图1所示。这两个模块的共同特点是粗体标注的“瓶颈”层conv 1 ×1。因此,我们逐渐增加FaConvNet和SqueezeNet中所有“瓶颈”层的参数,直到无法获得DA准确性的提升为止。然后增加其他层(例如FaConvNet和SqueezeNet中的第一个卷积层)的参数,直到无法获得准确性的提升。调整后的模型Rev-FaConvNet和Rev-SqueezeNet的最终DA准确性分别显示在表1中。我们的期望是Rev-FaConvNet的准确性可以比AlexNet高得多。然而,Rev-FaConvNet只比AlexNet稍微优越,参数数量几乎多出70%。本研究的目标是开发一种紧凑的DNN架构,可以在分类和DA上达到相同水平的准确性。我们的解决方案具有四个重要特点。首先,我们的DNN具有4.1M个参数,仅为AlexNet的6.7%或GoogLeNet的59%。我们网络的紧凑性归功于使用了一种新的模块Conv-M,它是一种节省参数的模块,同时基于多尺度卷积和反卷积提取更多细节,受到GoogLeNet的Inception的启发。第二,我们的DA方法由三个组成部分组成:跨域学习不变性,减少特征表示的差异以及预测标签。第三,实验证明我们的DNN在分类和DA上都达到了GoogLeNet级别的准确性。GoogLeNet和其他紧凑的DNN(FaConvNet和Rev-FaConvNet)之间的DA准确性差距要大得多。第四,我们的DA方法的统一框架略优于以前的竞争方法,并且基于我们的DNN网络的DA方法在流行的Of�ce-31和Of�ce-Caltech[13]数据集上的十八个DA任务中的十六个上达到了最新水平。0第二,我们的DA方法由三个组成部分组成:跨域学习不变性,减少特征表示的差异以及预测标签。第三,实验证明我们的DNN在分类和DA上都达到了GoogLeNet级别的准确性。GoogLeNet和其他紧凑的DNN(FaConvNet和Rev-FaConvNet)之间的DA准确性差距要大得多。第四,我们的DA方法的统一框架略优于以前的竞争方法,并且基于我们的DNN网络的DA方法在流行的Of�ce-31和Of�ce-Caltech[13]数据集上的十八个DA任务中的十六个上达到了最新水平。02. 相关工作0传统上,对图像分类准确性几乎没有下降的DNN模型压缩方法是基于学习的。刘等人[1]使用稀疏分解将AlexNet的超过90%的参数置零,而温等人[3]则基于分组Lasso对DNN模型进行结构化稀疏正则化。韩等人[2]剪枝小权重连接,并使用剩余连接重新训练DNN。更近期的研究开始直接基于网络架构设计来缩小模型。SqueezeNet[4]是建立在“fire”模块上的,该模块将“squeeze”层(1×1卷积)输入到“expand”层(1×1和3×3卷积的组合)中。FaConvNet[5]的基本结构是“卷积层作为堆叠的单一基层”。广泛使用小卷积核(1×1和3×3),特别是粗体标注的conv 1 ×1层作为线性投影的流行设计方法。根据表1中的初步实验结果,我们认为有必要通过引入更多多样的特征提取操作来重新设计这些极度缩小的DNNs(例如FaConvNet和SqueezeNet),以在分类和DA上实现高准确性。挑战在于更复杂的特征提取方法(例如多尺度卷积)往往会导致参数的急剧增加,因为基本模块将被重复使用。例如,ResNet[14]中使用的快捷连接可以被认为是一种解决方案。56700多尺度特征集成的参数节省解决方案。我们将采用除此旁路结构之外的其他方法。无监督DA。在源域[15]重新加权样本的早期尝试之后,Shekhar等人[16]通过最小化源域和目标域之间的差异来学习基于字典的表示。另一方面,基于子空间的方法通过在低维流形[13]或Frobenius范数[17]方面评估域之间的距离。最近提出了基于DNN的方法。Glorot等人[18]和Chopra等人[19]使用自动编码器学习跨域特征,然后进行标签预测。更流行的策略是将特征适应与标签预测结合为一个统一的框架。DDC[20]将适应层和域混淆度量引入CNN架构,而GRL[12]使用梯度反转层将标签和域的分类器结合起来。DAN[21]和RTN[22]专注于在核空间中有效地测量特征表示。TRANSDUCTION[23]共同优化目标标签和域变换参数。我们的DA方法采用了一个统一的框架,可以同时学习跨域不变性,减小特征表示的差异并适应标签预测。基于DNN的图像分割。分割和分类的DNN主要区别在于使用上采样层来恢复分辨率。已经提出和采用了各种上采样方法,例如直接的双三次插值[24],基于学习的反卷积[25]和非池化[26,27]。我们改进了反卷积[25]以消除将在第3.1节中描述的伪影,并将其用作我们DNN的基本模块中的一种形状特征提取器。考虑到训练收敛速度,与反卷积相比,参数较少的非池化是一个更好的选择,特别是对于小规模和中规模问题。因此,我们在我们的DA方法中采用非池化进行样本重建。此外,已经提出了不同的策略来训练分割网络。SegNet-Basic[27]直接作为一个整体进行训练。另一方面,Long等人[28]将流行的分类网络调整为完全卷积网络(FCN),并对其进行微调以进行分割任务。Yu等人[29]表明,通过将他们的上下文模块插入现有的分割模型,可以进一步提高准确性。我们的解码器设计用于样本重建受到FCN的启发,而我们的结构比FCN中的多流结构更简单。03. 提出的方法0受第1节中描述的观察的启发,我们提出了一种紧凑的DNN架构,其中包含一个新的基本模块Conv-M。我们的DA方法逐渐调整特征。0图2:我们DNN中使用的Conv-M模块。反卷积的输出被裁剪为其输入大小。ReLU被用于所有类型的卷积,为了简单起见,图中没有显示。0图3:我们网络中同一Conv-M模块中激活的可视化:卷积(中间)和反卷积(右边)。0适应和标签预测。03.1. 使用Conv-M的DNN架构0图2显示了我们DNN中使用的Conv-M模块。根据初步实验和我们在第1节中的分析,设计思想是在不增加参数的情况下捕捉不同层次的更多多样化细节。为了实现这个目标,引入了多分辨率的扩张卷积[29]和反卷积[25]。扩张卷积可以提取具有更大感受野的特征,而不增加卷积核的大小,例如,使用3×3的卷积核从5×5的窗口中提取特征。反卷积用于重建输入的形状,提供与常规卷积不同的特征。此外,为了减少冗余参数,我们实现了可分离卷积。56710表2:我们的DNN架构(Conv-M模块的基本参数设置如Figure 2所示)。0层类型/模块 输出尺寸 过滤器尺寸/步长 特征图数量(Conv-M) 参数数量(如果不是Conv-M) C1 C2 C3 C4 DiC1 DiC2 C5DeC1 DeC201个输入 224 × 224 × 302个卷积 224 × 224 × 64 7 × 7/1 (x64) 9,40803个最大池化 112 × 112 × 64 3 × 3/204个Conv-M 112 × 112 × 160 64 64 64 64 64 64 32 32 32 51,71205个最大池化 56 × 56 × 160 3 × 3/206个Conv-M 56 × 56 × 320 128 128 128 128 128 128 64 64 64 217,08807个Conv-M 56 × 56 × 320 128 128 128 128 128 128 64 64 64 268,28808个最大池化 28 × 28 × 320 3 × 3/209个Conv-M 28 × 28 × 576 144 256 256 144 256 256 64 64 64 591,872010个Conv-M 28 × 28 × 576 144 256 256 144 256 256 64 64 64 681,984011个最大池化 14 × 14 × 576 3 × 3/2012个Conv-M 14 × 14 × 688 160 256 280 160 256 280 64 128 128 783,360013个Conv-M 14 × 14 × 688 160 256 280 160 256 280 64 128 128 826,368014个平均池化 1 × 1 × 688 14 × 14/1015个线性1 × 1 × 1000 1 × 1/1 (x1000) 688,000 4.1 M0Figure4:我们的DA方法的统一框架。DNN同时适应特征表示(红色和蓝色)和源标签预测(橙色)。在训练过程中,目标域的采样比例将逐渐增加。0受可分离小波滤波器[30]的启发,我们在Conv-M中对所有类型的卷积,包括反卷积,进行了设计。我们在Figure3中展示了网络中同一个Conv-M模块中卷积(中间)和反卷积(右侧)的激活可视化。卷积提取外观细节,而反卷积则更倾向于描述完整的形状。因此,卷积和反卷积提取的特征是互补的,从而有利于DA。此外,与卷积提取的外观细节相比,反卷积捕捉到的形状对于一类对象更具有普遍性,这有助于我们的DA策略探索类别之间的差异以进行知识传递。Figure 2中Conv-M的详细设计显示了:0前一层的输入特征图分别通过常规卷积( conv),扩张卷积( dilated conv )和反卷积( deconv)在三个分支中进行处理。它们的输出将被连接在一起。这三个分支的流水线是: C1-C2-C3-dropout ,C4-DiC1-DiC2-dropout ,和 C5-DeC1-DeC2-dropout。所有三个分支都以1 × 1卷积作为线性投影开始。参数 k和 s 分别表示卷积核大小和步长。扩张因子 d表示感受野的大小为 (2 d +1 − 1) × (2 d +1 − 1)。可分离卷积的组数 g 表示相邻层之间的特征图被分成 g组。dropout比率 r固定为0.2。反卷积的输出被裁剪到与其输入相同的尺寸。所有九个卷积都采用ReLU激活函数,这在Figure2中没有显示。NP · NC1 + NC1 · NC2 · k2C2gC2+ NC2 · NC3 · k2C3gC3.(1)NP · NC4 + NC4 · NDiC1 · k2DiC1gDiC1+ NDiC1 · NDiC2 · k2DiC2gDiC2.NP · NC5 + NC5 · NDeC1 · k2DeC1gDeC1+ NDeC1 · NDeC2 · k2DeC2gDeC2.(3)256720Conv-M的计算如下所示。令 N P , N C 1 , N C 2 , N C 3 ,N C 4 , N DiC 1 , N DiC 2 , N C 5 , N DeC 1 和 N DeC 2分别表示 C1 , C2 , C3 , C4 , DiC1 , DiC2 , C5 , DeC1 和DeC2 的特征图数量。Conv-M中第一个分支的参数数量是:0第二个分支的参数数量是:0(2)第三个分支的参数数量为:0我们的DNN架构如表2所示,通常包括卷积、交替最大池化和Conv-M、平均池化和线性,如第二列Types/Module所列。请注意,最后一层线性层仅用于图像分类,并且在进行DA任务时将被移除。为了与第4节中的其他DA方法进行公平比较,我们将这一层包括在总参数的估计中,如表中所示。第三列的输出大小是每个层的高度、宽度和特征图数量的乘积。非Conv-M层的具体参数列在第四列Filtersize/Stride中,而Conv-M的参数列在第五列#Featuremaps(Conv-M)中。由于Conv-M的基本设置在图2中表示,第五列仅显示了所有九个卷积的特征图数量:C1、C2、C3、C4、DiC1、DiC2、C5、DeC1和DeC2。对于这九个卷积中的每一个,两个最大池化层之间的特征图数量是相同的,并且通常随着模型深度增加而增加。输入图像的原始像素通过一个大小为7×7的常规卷积进行处理,这比Conv-M中使用的1×1和3×3的卷积核要大得多。我们的初步实验表明,对于输入图像数据,使用较小的卷积核(例如3×3)会使分类准确率降低1.5%~2.5%。另一方面,对于Conv-M,使用较大的卷积核(例如5×5)只能稍微提高0.3%~0.8%的性能。表2中的最后一列#Parameters列出了每个层的参数数量。两个Conv-M模块(第四个最大池化和平均池化之间的39%)是主要的参数消耗者。我们的DNN的总参数数量为4.1M。03.2. 无监督域对齐0我们的DA方法同时调整特征表示和源标签预测,如图4所示。0给定来自源域和目标域的输入数据样本。在训练过程中,目标域的采样比例将逐渐增加。形式上,统一框架中最小化了三个项:源样本和目标样本的重构误差(蓝色)用于不变性学习,层之间的隐藏表示的差异(红色),以及源标签的预测误差(橙色)。对于我们在表2中展示的DNN,在DA任务中,最后一层具有1000个神经元的线性层将被移除。在域对齐训练期间,添加了额外的层,如图4中的橙色和蓝色所示,而只有与标签预测相关的层(橙色)将保留进行测试。不变性学习。通过重构输入源域和目标域样本的误差最小化,强制DNN学习更多的跨域特征。采用了不对称的编码器-解码器架构进行样本重构,如图4所示。编码器是我们预训练的DNN,不包括平均池化和最后一层线性层,而解码器(蓝色)比编码器少几层(与编码器相比),由交替的上采样和常规卷积组成。解码器中的上采样是使用从编码器中相应的最大池化层获得的索引来上采样输入特征图。编码器负责特征提取,而解码器负责恢复分辨率。我们的初步实验表明,与对称设计相比,不对称结构仅略微降低了最终准确率(平均0.4%),但显著加快了训练速度。此外,引入了两个不同尺度的解码器。表示差异减少。我们采用非参数方法估计域之间的特征分布距离,而不是使用参数化准则(如Kullback-Leibler散度)进一步减少跨域差异。具体而言,我们通过Gretton等人的最大均值差异(MMD)来最小化跨域差异。MMD的定义如下:0L M = ���� 1 N 01 ψ(x s)−10N t01 ψ(xt)����0H,(4)0其中x s和x t分别是输入源和目标,N s和Nt分别表示相应的样本数量。函数ψ(∙)是非线性特征映射。H是一个通用的再生核希尔伯特空间。我们的方法中的MMD准则在我们的方法中被表示为G-MMD,因为我们采用了高斯核。如图4所示,G-MMD损失(红色)被添加到我们的DNN的最后三个Conv-M层中。源标签预测。如图4所示,我们添加了两个线性层(橙色),第二个线性层的神经元数量是针对数据集指定的。在我们的初步实验中,添加超过两个线性层并没有观察到明显的准确性改善。56730表3:我们的网络和流行的DNN在ImageNet'12分类准确性和参数数量上的比较。0方法 #参数 Top-1 Top-50AlexNet [8] 61 M 57.2 80.3 GoogLeNet [9] 7 M68.7 88.9 VGG16 [32] 134 M 71.9 90.60我们的网络 4.1 M 68.9 89.004. 实验0我们的DNN是在基准数据集ImageNet'12[10]上训练的,并与总参数数量和分类准确性上的知名模型进行比较。按照我们的DA方法,我们对两个流行数据集上的无监督DA任务进行了我们训练模型的微调,并将DA准确性与竞争方法进行了比较。04.1. ImageNet分类0我们在ImageNet'12数据集上训练我们的DNN,并根据Caffe [33]中的quicksolver.prototxt设置我们训练求解器的参数。批量大小为64。表3比较了我们的DNN和AlexNet [8],GoogLeNet[9]和VGG16[32]的分类准确性(Top-1,Top-5)和参数数量(#参数)。对于AlexNet和GoogLeNet,我们直接使用Caffe提供的训练模型。VGG16的结果来自原始论文[32]。我们的DNN达到了GoogLeNet级别的准确性,而总参数数量(4.1M)仅为GoogLeNet的59%。04.2. 无监督的DA0Of�ce-31。这个标准基准数据集由来自三个不同领域的31个类别的4,652张图像组成[11]:AMAZON(A),WEBCAM(W)和DSLR(D)。这三个领域的样本分别来自amazon.com下载的图像,网络摄像头拍摄的图像和数码单反相机在办公环境中以不同的摄影设置拍摄的图像。我们将采用这三个领域之间的六个DA任务:A → W,D → W,W →D,W → A,A → D和D →A。Of�ce-Caltech。这是一个流行的数据集[13],由Of�ce-31和Caltech-256(C)[36]数据集中的10个重叠类别组成。我们使用了所有12个DA任务:A → W,D → W,W →D,A → D,D → A,W → A,A → C,W → C,D →C,C → A,C → W和C →D。Of�ce-31数据集更具挑战性,因为它具有更多的图像类别,而Of�ce-Caltech提供了更多的DA任务来观察数据集的偏差[37]。方法。我们将我们的方法与九个先前的竞争方法进行比较。0先前的竞争性DA方法:TCA [35],GFK [34],SA[17],DLID [19],DDC [20],DAN [21],GRL[12],TRANSDUCTION [23]和RTN[22]。TCA和GFK是传统方法,而其他方法都是基于DNN的。我们的实验中使用了五个DNN:AlexNet(61M),Rev-FaConvNet(4.8M),我们的DNN(4.1M),GoogLeNet(7M)和FaConvNet(2.8M)。DA方法DAN,GRL,TRANSDUCTION和RTN最初使用预训练的AlexNet,根据他们的论文。Rev-FaConvNet在我们的初步实验中表现出比SqueezeNet,Rev-SqueezeNet和FaConvNet更好的DA准确性,如表1所示。FaConvNet,Rev-FaConvNet和我们的DNN都达到了GoogLeNet级别的分类准确性。在这项工作中,我们使用GoogLeNet和FaConvNet作为比较的基准。实验。除了在AlexNet上运行之前的DA方法外,我们还运行了以下八个实验来量化我们的DNN和DA方法的贡献:(1)GRL(Rev-FaConvNet):在Rev-FaConvNet上运行GRL;(2)GRL(Ournet):在我们的DNN上运行GRL;(3)DAN(Rev-FaConvNet):在Rev-FaConvNet上运行DAN;(4)DAN(Our net):在我们的DNN上运行DAN;(5)OurDA(Rev-FaConvNet):在Rev-FaConvNet上运行我们的DA方法;(6)OurDA(FaConvNet):在FaConvNet上运行我们的DA方法,并将结果用作基准;(7)OurDA(GoogLeNet):在GoogLeNet上运行我们的DA方法,并将结果用作基准;(8)Our DA(Ournet):在我们的DNN上运行我们的DA方法,这是我们的最终结果。参数设置。我们遵循之前所有DA方法论文中的具体描述。SA的超参数是基于交叉验证选择的,这与其他论文一致[12,23]。对于我们基于在ImageNet'12上预训练的网络的DA方法,表2中显示的卷积和前三个Conv-M层都是冻结的,因为Of�ce-31和Of�ce-Caltech数据集规模较小。对于图4中所示的所有新添加的层(橙色和蓝色),它们是从头开始训练的,其学习率是原来的十倍。我们采用的学习率策略是Caffe中描述的poly,初始值为0.0009,幂固定为0.5。批量大小为64,在训练过程中,目标域的采样比例从30%增加到70%。在测试阶段,用于样本重构的新层被移除,如第3.2节中所述。对于图4中的标签预测的其余新层(橙色),第一个线性层的神经元数量为256,第二个线性层的神经元数量为Of�ce-31数据集为31,Of�ce-Caltech数据集为10。G-MMD损失被添加到我们的DNN的最后三个Conv-M层中。正则化56740表4:我们的方法和先前算法在Of�ce-31数据集上的无监督DA准确性。0方法 #参数 1 A → W D → W W → D W → A A → D D → A0GFK [34] - 39.8 79.1 74.6 37.1 37.9 37.9 SA [17] - 45.0 64.8 69.9 39.3 38.8 42.0 DLID [19] - 51.9 78.2 89.9 - - -DDC [20] - 61.8 95.0 98.5 52.2 64.4 52.1 DAN [21] 61 M 68.5 96.0 99.0 53.1 67.0 54.0 GRL [12] 61 M 73.096.4 99.2 53.6 72.8 54.4 TRANSDUCTION [23] 61 M 80.4 96.2 98.9 62.5 83.9 56.70GRL(Rev-FaConvNet)4.8 M 74.1 96.5 99.2 54.3 73.4 55.3 我们的DA(Rev-FaConvNet)4.8 M 77.0 96.599.2 58.4 75.9 58.10GRL(我们的网络)4.1 M 80.1 96.7 99.2 64.1 78.0 65.4 我们的DA(我们的网络)4.1 M 82.6 97.0 99.4 67.4 80.167.30基线:我们的DA(GoogLeNet)7 M 83.0 96.9 99.5 67.7 80.5 67.5 基线:我们的DA(FaConvNet)2.8 M 73.996.3 99.1 54.1 73.2 55.201大多数方法将删除预训练网络的最后一层线性层,并添加额外的层用于DA。根据第4.2节的说明,我们的DNN在进行更改后将更小。其他模型的大小也会略有不同,但[21, 23]中没有报告实际大小。因此,我们直接报告预训练网络的总参数数量以进行公平比较。0表5:我们的方法和先前算法在Of�ce-Caltech数据集上的无监督DA准确性。0方法 #参数 1 A → W D → W W → D A → D D → A W → A A → C W → C D → C C → A C → W C → D0TCA [35] - 84.4 96.9 99.4 82.8 90.4 85.6 81.2 75.5 79.6 92.1 88.1 87.9 GFK [34] - 89.5 97.0 98.1 86.0 89.8 88.5 76.2 77.1 77.9 90.778.0 77.1 DDC [20] - 86.1 98.2 100.0 89.0 89.5 84.9 85.0 78.0 81.1 91.9 85.4 88.8 DAN [21] 61 M 93.8 99.0 100.0 92.4 92.0 92.1 85.184.3 82.4 92.0 90.6 90.5 RTN [22] 61 M 97.0 98.8 100.0 94.6 95.5 93.1 88.5 88.4 84.3 94.4 96.6 92.90DAN(Rev-FaConvNet)4.8 M 94.0 99.1 100.0 92.7 92.3 92.2 85.5 84.6 82.6 92.3 90.9 90.8 我们的DA(Rev-FaConvNet)4.8 M 94.999.2 100.0 93.3 93.3 92.5 86.5 85.9 83.1 93.0 93.0 91.50DAN(我们的网络)4.1 M 95.0 99.2 100.0 96.0 94.8 95.2 91.6 90.4 90.7 94.4 95.0 94.3 我们的DA(我们的网络)4.1 M 95.6 99.7 100.096.8 96.0 95.6 92.5 91.6 91.4 95.3 97.2 95.30基线:我们的DA(GoogLeNet)7 M 95.9 99.7 100.0 97.1 96.2 95.9 92.9 92.0 91.5 95.6 97.4 95.7 基线:我们的DA(FaConvNet)2.8M 94.5 99.1 99.8 92.0 91.8 91.0 83.7 83.4 80.1 92.8 91.1 89.80请参阅表4的脚注以了解参数数量的解释。0G-MMD损失的超参数在所有数据集上固定为0.3,高斯核的带宽是训练集上的中位数配对距离[38]。基于NVIDIA GTXTITANX,SqueezeNet和Rev-SqueezeNet的推理速度比FaConvNet,Rev-FaConvNet和我们的网络更快,尽管它们无法获得GoogLeNet级别的分类和DA。具体而言,Rev-SqueezeNet比SqueezeNet慢22%,Rev-FaConvNet将FaConvNet的速度降低了12%。与FaConvNet相比,我们的网络的消耗时间减少了11%。表4和表5分别总结了Of�ce-31和Of�ce-Caltech数据集上的DA准确性。两个表格分别按行分为四组。第一组是基于AlexNet的先前DA方法。第二组比较了先前和我们的DA方法在Rev-FaConvNet上的结果,而第三组比较了我们的DNN上的DA方法。第四组提供了我们的DA的结果0作为基线,我们在GoogLeNet和FaConvNet上进行了方法。从以下三个方面分析了两个表中的结果:首先,我们的DNN方法在相同的DA方法上超过了GoogLeNet的DA准确性,而GoogLeNet和之前的紧凑型DNN(FaConvNet和Rev-FaConvNet)之间的差距要大得多,根据四个观察结果:我们的DA(我们的网络),我们的DA(GoogLeNet),我们的DA(FaConvNet)和我们的DA(Rev-FaConvNet)在表4和表5中。尽管FaConvNet,Rev-FaConvNet和我们的DNN都获得了与GoogLeNet相同的分类准确性,但只有我们的DNN在分类和DA上都具有匹配的准确性。此外,我们的DNN(4.1M)比Rev-FaConvNet(4.8M)小。与使用相同DA方法的AlexNet相比,我们的DNN也表现出色,如表4中的GRL和GRL(我们的网络)的比较所示。其次,我们的DA方法在相同的DNN上优于GRL和DAN,根据四个比较结果:56750表6:我们Conv-M模块中非常规卷积的贡献在Of�ce-31数据集上。0#参数分类 A→W D→W W→D W→A A→D D→A0Our DA(Our net1)4.1 M 62.2 74.2 96.5 99.2 56.2 74.1 56.0 Our DA(Our net)4.1 M 68.9 82.697.0 99.4 67.4 80.1 67.30表7:不包括特定组件的我们方法在Of�ce-31数据集上的DA准确率。0方法 A→W D→W W→D W→A A→D D→A0无G-MMD 76.7 96.5 99.2 62.0 77.5 64.7 无重建 79.6 95.499.3 64.4 77.3 62.10全部 82.6 97.0 99.4 67.4 80.1 67.30表8:不包括特定组件的我们方法在Of�ce-Caltech数据集上的DA准确率。0方法 A→W D→W A→D A→C W→C D→C0无G-MMD 91.1 99.6 93.4 90.9 87.1 87.8 无重建 93.9 99.495.0 88.7 89.8 86.60全部 95.6 99.7 96.8 92.5 91.6 91.40GRL(Rev-FaConvNet)和OurDA(Rev-FaConvNet)在表4中,GRL(Our net)和OurDA(Our net)在表4中,DAN(Rev-FaConvNet)和OurDA(Rev-FaConvNet)在表5中,以及DAN(Ournet)和Our DA(Ournet)在表5中。第三,将所有内容综合起来,我们基于我们的DNN的DA方法在两个数据集上的十八个DA任务中的十六个任务上达到了最先进的水平,如这两个表格的最后一行所示(Our DA(Ournet))。另外两个任务是表4中的A→D和表5中的A→W。与TRANSDUCTION相比,我们将任务D→A的准确率提高了10.6%,如表4所示。在Of�ce-31数据集上,任务D→W和W→D之间的准确率差距为2.4%,而任务A→W和W→A之间的差距大大增加到15.2%,表明域A和W之间的外观差异更大。A和D之间的域差异也大于D和W之间的差异。换句话说,在Of�ce-31数据集上,我们的DA方法在D和W之间的转移(双向)相对较容易,而其他两个转移更困难,这与以前的DA方法的结果一致。在Of�ce-Caltech数据集上,C和W之间的双边转移在我们的DA方法中获得了最大的准确率差距(5.6%),如表5所示。04.3. 敏感性分析0Conv-M中的卷积。为了验证我们的Conv-M模块中非常规卷积(扩张卷积和改进的反卷积)的贡献,我们将所有非常规卷积替换为常规卷积,并保持3×3的核大小不变。表6中的第一行Our DA(Our net1)显示了结果,第二行OurDA(Ournet)是我们的原始解决方案。可以看到准确率显著下降。0可以观察到在分类和几乎所有DA任务中都存在差异。表6中的比较表明了扩张卷积和改进的反卷积在我们的Conv-M中提取的特征的重要性。基于我们的DNN,表7和表8分别显示了我们的DA方法的两个组成部分(样本重建和G-MMD)在Of�ce-31和Of�ce-Caltech数据集上的贡献。两个表格中的NoG-MMD行显示了从我们的DA方法中删除G-MMD得到的结果,而Norecons.行对应于不包括样本重建的方法。对于这两行,准确率较低表示组件的贡献更大。All行是没有删除任何组件的常规结果,与表4和表5中的相应行Our DA(Ournet)相同。对于表7中显示的Of�ce-31数据集,重建对于转移D→W和D→A更为重要,而A→W和W→A更依赖于G-MMD。表8表明重建和G-MMD的贡献几乎相同。05. 结论0在本文中,我们提出了一种紧凑的DNN架构和无监督的DA方法,基于我们的观察,当前的小型DNN(SqueezeNet和FaConvNet)在分类和DA上具有无法匹配的准确性,例如,具有GoogLeNet级别分类准确性的DNN仅获得AlexNet级别的DA准确性。我们DNN中使用的基本模块Conv-M引入了多尺
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Fisher Iris Setosa数据的主成分分析及可视化- Matlab实现
- 深入理解JavaScript类与面向对象编程
- Argspect-0.0.1版本Python包发布与使用说明
- OpenNetAdmin v09.07.15 PHP项目源码下载
- 掌握Node.js: 构建高性能Web服务器与应用程序
- Matlab矢量绘图工具:polarG函数使用详解
- 实现Vue.js中PDF文件的签名显示功能
- 开源项目PSPSolver:资源约束调度问题求解器库
- 探索vwru系统:大众的虚拟现实招聘平台
- 深入理解cJSON:案例与源文件解析
- 多边形扩展算法在MATLAB中的应用与实现
- 用React类组件创建迷你待办事项列表指南
- Python库setuptools-58.5.3助力高效开发
- fmfiles工具:在MATLAB中查找丢失文件并列出错误
- 老枪二级域名系统PHP源码简易版发布
- 探索DOSGUI开源库:C/C++图形界面开发新篇章
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功