基于矩匹配的多源域自适应算法及其在多源自适应中的优势

11 浏览量更新于2023-10-12 收藏 2.93MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1基于矩匹配的多源域自适应算法彭兴超波士顿大学xpeng@bu.edu黄子君秦讯百地平线机器人qinxun. horizon.ai凯特·萨恩科波士顿大学xidexia@bu.edu博望哥伦比亚大学黄子君@ columbia.edu波士顿大学saenko@bu.edu矢量研究所彼得·蒙克心脏中心bowang@vectorinstitute.ai摘要传统的无监督域自适应（UDA）假设训练数据是从单个域采样的.这忽略了更实际的场景，其中训练数据是从多个源收集的，需要多源域适应。我们为解决这一问题作出三个主要贡献。首先，我们收集并注释迄今为止最大的UDA数据集，称为DomainNet，它包含六个域，0.6分布在345个类别中的100万张图像，填补了多源UDA研究数据可用性的空白。其次，我们提出了一种新的深度学习方法，Moment Matching for Multi-SourceDomain Adap- tation（M3 SDA），旨在通过动态对齐特征分布的矩，将从多个标记源域学习到的知识转移到未标记的第三，我们提供了新的理论见解，特别是在单角和多源域适应的矩匹配方法。进行了广泛的实验，以证明我们的新数据集在基准测试国家的最先进的多源域自适应方法，以及我们提出的模型的优势的权力。数据集和代码可在http://ai.bu.edu/M3SDA/上获得1. 介绍将在一个视觉领域学习到的模型推广到新的领域一直是寻求通用对象识别的主要障碍。由于域偏移的存在，当在新域上测试时，学习模型的性能显著降低[36]。最近，迁移学习和领域自适应方法已经被提出来减轻领域差距。例如，几种UDA方法[27，41，25]将最大平均离散损失纳入神经网络以减少域差异;其它模型引入不同的学习模式来对准源域和目标域，包括对准二阶相关[39，32]，飞机时钟斧球自行车鸟草莓花比萨饼蝴蝶图1.我们解决多源域适应，其中源图像来自多个域。我们收集了一个大规模的数据集，DomainNet，有六个领域，345个类别，收集60万张图像，并提出一个模型（M3SDA），将知识从多个源域转移到一个未标记的目标域。矩匹配[47]，对抗域混淆[40，8，38]和基于GAN的对齐[50，15，23]。然而，目前大多数UDA方法假设源样本是从单个域收集的。这种假设忽略了更实际的场景，其中标记的图像通常是从多个域收集的。例如，训练图像可以在不同的天气或光照条件下拍摄，共享不同的视觉线索，甚至具有不同的模态（如图1所示）。在本文中，我们考虑多源域自适应（MSDA），一个更困难，但实际的问题，知识转移从多个不同的领域到一个未标记的目标域。MSDA研究的主要挑战是：（1）源数据具有多个域，这阻碍了主流单一UDA方法的有效性;（2）源域之间也存在着域间的迁移，（3）缺乏大规模的多域数据集阻碍了MSDA模型的发展。在MSDA的背景下，针对多源域提出了一些理论分析[1，28，4，49，141406草图realquickdraw paintinginfograph clipart1407数据集年图像类域描述数字五-100，000105数字办公室[37]20104,110313办公室加州理工学院[11] 20122,533104办公室CAD-Pascal [33]201512,000206动物、车辆免费WiFi [43]201715,500654办公室，家庭PACS [21]20179,99174动物，东西开放MIC [17]201816,156--博物馆[35]第三十五话2018 280,157123动物、车辆DomainNet（我们的）-569,0103456见附录表1.一组最值得注意的数据集，用于评估领域自适应方法。具体而言，我们的数据集具有挑战性，因为它包含比其他数据集更多的图像，类别和域(see详细分类见附录中的表10、表11和表12。）自适应（MSDA）。Ben-David等人[1]通过在源域和目标域的加权组合之间引入H ∞ H-发散，开创了这一方向。更多的应用作品[6，45]使用对抗性判别器来将多源域与焦油对齐获取域。然而，这些工作仅仅关注于将源域与目标域对齐，而忽略了源域之间的域移位。此外，基于H -散度的分析并不直接对应于矩匹配方法。在数据方面，由于缺乏大规模的领域自适应数据集，研究受到阻碍，因为最先进的数据集只包含少数图像或具有有限数量的类。许多领域自适应模型在这些数据集上评估时表现出饱和对于前-例如，许多方法在流行的Office [37]数据集上达到了90%的准确度; Self-Ensembling [7]报告了“Digit-Five”数据集上的99%的准确度在本文中，我们首先收集和标记一个新的多域数据集称为DomainNet，旨在克服直接对齐其深度特征分布的矩，从而产生更稳健和有效的MSDA模型。据我们所知，我们是第一个经验证明，对齐的源域是有益的MSDA任务。最后，我们将现有的理论分析[1，14，49]扩展到源域和目标域之间基于矩的分歧的情况，这为域适应中的矩匹配方法提供了新的理论见解，包括我们的方法和许多其他方法。2. 相关工作领域自适应数据集表1中总结了可以用于评估领域自适应方法的几个值得注意的数据集。Office数据集[37]是办公环境对象的流行基准。它包含三个领域的31个类别：用高质量照相机（DSLR）拍摄的办公室环境图像、用低质量照相机（Webcam）拍摄的办公室环境图像、以及来自在线销售网站（Amazon）的图像。Office数据集及其扩展Office-Caltech 10 [11]已用于许多领域adap，本文的研究结果表明，自适应算法的准确率达到了90%以上。最近的基准点[43，17，34]被提出来评估领域自适应模型的有效性。然而，这些数据集规模小，并受到其特定环境的限制，例如办公室、家庭和博物馆。我们的数据集包含约60万张图像，分布在345个类别和6个不同的领域。我们捕获各种对象分类，从家具，布料，电子到哺乳动物，建筑物等。在过去的几十年里，已经提出了各种单源UDA方法。这些方法可以在分类学上分为三类。第一类是基于差异的DA方法，它利用不同的度量学习模式来减少源域和目标域之间的域转移。灵感来自基准饱和度我们的数据集包括六个不同的领域，345个类别和1060万张图像。DomainNet和几个现有数据集的比较如表1所示，图1.我们在我们的数据集上评估了几种最先进的单主适应方法，得出了令人惊讶的发现（见第5节）。我们还在现有数据集和DomainNet上广泛评估了我们的模型，并表明它优于现有的单源和多源方法。其次，我们提出了一种新的方法称为M3SDA来处理MSDA任务，通过对齐的源域与目标域，并对齐的源域彼此同时进行。我们处理了[45]中提出的多个复杂的对抗训练程序，但不...应用核双样本检验[12]、最大平均离散度（MMD）来减少各种方法中的分布偏移[27，41，9，44]。其他常用方法包括相关对准[39，32]、Kullback-Leibler（KL）发散[51]和H发散[1]。第二类是基于对抗的方法[24，40]。一个做主要的广告是利用鼓励域被敌对的目标所迷惑在这些方法中，生成对抗网络被广泛用于学习域不变特征以及生成虚假源或目标数据。其他框架仅利用对抗性损失来桥接两个域。第三类是基于重构的，其假设数据重构帮助DA模型学习域不变特征。通过编码器获得重建1408桌子茶壶路灯雨伞酒杯楼梯花瓶牙刷手提箱厕所炉灶床牙膏锯梯凳枕热水浴缸栅栏门睡袋壁炉灯笼浴缸沙发秋千水槽邮箱明信片画框落地灯枝形吊灯椅子梳妆台吊扇松鼠狗鲸鱼老虎斑马绵羊大象马猫浣熊猴子狮子猪熊海豚兔子犀牛刺猬长颈鹿袋鼠熊猫骆驼牛蝙蝠鼠钉剑听诊器滑板哑铃瓶盖铲篮注射器扫帚枪轮螺丝刀绷带钳斧耙式回飞棒钻油漆罐护照桶针铁砧锤指南针钥匙锯鞋袜手镯手表领结项链帽子短裤眼镜头盔毛衣溜冰鞋裤子人字拖内衣腰带钻石钱包夹克口红T恤皇冠迷彩表烤面包机耳机洗衣机灯泡电视手电筒电话麦克风扩音器键盘笔记本树高尔夫俱乐部松鼠狗鲸鱼电子表格雪人老虎表鞋风车潜羽鸟蛛草莓指甲胡子面包火车西瓜斑马羊大象茶壶眼睛蘑菇海龟剑路灯灯塔猫头鹰马企鹅池塘袜子通气管直升机蛇蝴蝶伞河鱼货车葡萄热气球酒杯泰迪熊快艇太阳天鹅自行车脑手镯龙卷风花楼梯杯牛排拖拉机手表牙刷手提箱三角形鹦鹉之字形冰淇淋杯沙滩猫浣熊花园猴子鲨鱼动物迁徙狮子萨克斯管芦笋帐篷消防车手勺波浪形棕榈树章鱼烤面包机滑板哑铃山瓶盖猪一种铲洗机酒瓶火炉咖啡杯树叶山羊胡子鼓瑜伽领结帆船剪刀洋葱蜗牛总线室内植物图月亮龙虾独木舟菠萝项链篮子熊信封蜜蜂草地摩托车床甜甜圈脸帽子头骨校车海豚游轮牙膏蓝莓短裤眼镜背包书花椰菜鸭汉堡包头盔蛋糕犀牛梯子长号刺猬电视蝎子梨手电筒谷仓一种腿部海洋电话凳枕热浴缸围栏火烈鸟滑水鳄鱼毛衣胡子旱冰鞋圈长颈鹿200010000200010000图2. 我们DomainNet数据集的统计数据。这两个图显示按实例总数排序的对象类。顶部图显示了每个域在数据集中所占的百分比。下图显示了按24个不同分区分组的实例数。详细数量见附录中的表10、表11和表12。（放大以查看确切的类名！）解码器[3，10]或GAN解码器，诸如双GAN [46]、循环GAN [50]、disco-GAN [16]和Cy-CADA [15]。虽然这些方法在UDA上取得了进展，但很少考虑从多个源收集训练数据我们的论文提出了一个模型来解决多源域适应，这是一个更一般和具有挑战性的情况。多源域自适应与单源UDA相比，多源域自适应假设来自多个源的训练数据可用。起源于早期的理论分析[1，28，4]，MSDA有许多实际应用[45，6]。Ben-David等人[1]在源域和目标域的加权组合之间引入了一个H ∞ H-发散谎言等人[4]通过最小化最近k个源上的经验损失，建立了模型预期损失的一般界限。Mansour等人[28]声称，目标假设可以由源假设的加权组合来表示在更多的应用工作中，深度鸡尾酒网络（DCTN）[45]提出了一种用于数字分类和现实世界对象识别的k路域分类器和类别分类器Hoffman等人[14]提出了具有交叉熵损失的理论保证Duan等人[6]提出了通过利用大量来自不同来源的松散标记的网络图像来识别消费者视频中的事件的域选择机。与这些方法不同的是，我们的模型通过匹配矩直接匹配所有的分布。此外，我们提供了一个具体的证明，为什么匹配的时刻多分布工程多源域适应。矩匹配分布的矩具有在两个域之间，已经提出了不同的矩匹配方案。例如，MMD匹配两个分布的一阶矩。Sun等人[39]提出了一种匹配二阶矩的方法。Zhang等人[48]提出在RKHS中对齐无限维协方差矩阵Zellinger等人[47]引入了一个矩匹配正则化器来匹配高矩。随着生成式对抗网络（GAN）的广泛应用，基于GAN的矩匹配算法被提出. McGAN[29]利用GAN来匹配特征分布的均值和协方差。GMMN [22]和MMD GAN [20]被提出用于将分布矩与生成神经网络对齐。与这些方法相比，我们的工作重点是匹配多个域的分布矩，更重要的是，我们证明了这对多源域适应至关重要。3. DomainNet数据集众所周知，深度模型需要大量的训练数据。不幸的是，现有的用于视觉域自适应的数据集要么规模小，要么类别数量有限。我们收集了迄今为止最大的领域适应数据集DomainNet。DomainNet包含6个域，每个域包含345类常见对象，如表10、表11和表12所列（见附录）。主要功能包括Clipart（CLP，见附录，图9）：收集Clipart图像;Infograph（inf，见图10）：带有特定对象的信息图图像;绘画（pnt，见图11）：以绘画形式对物体的艺术描绘;Quickdraw（qdr，参见图12）：游戏“Quick Draw！“1;真实（rel，见图13）：照片和真实世界的图像;和草图已经被机器学习社区研究了很长时间时间为了减少域名差异，请登录https://quickdraw.withgoogle.com/data剪贴画infographpaintingquickdraw真实素描实例数实例数家具（9.93%）哺乳动物（8.22%）工具（7.33%）电力（6.45%）布料（6.48%）立体声功率出口远程控制手机建筑（6.39%）相机冷却器洗碗机电脑收音机烤箱风扇微波计算器高尔夫俱乐部风车灯塔桥池塘花园帐篷埃菲尔铁塔广场摩天大楼谷仓滑水池城堡庄园长城花园水龙带跳水板教堂医院监狱钉杯咖啡杯剪刀地图信封背包书蜡烛望远镜铅笔钟绷带蜡笔纸夹闹钟画笔记号笔橡皮日历胡子眼睛大脑手山羊胡子脸头骨鼻子腿胡子手指牙齿脚手臂膝盖脚趾肘笑脸嘴卡车火车面包车自行车拖拉机消防车公共汽车摩托车校车汽车皮卡警车推土机过山车救护车面包牛排冰淇淋甜甜圈冰棒汉堡蛋糕披萨三明治热狗棒棒糖饼干生日蛋糕花生河太阳龙卷风海滩山月亮海洋雪花闪电云雨飓风星彩虹蜘蛛海龟蛇鱼鲨鱼章鱼青蛙蜗牛龙虾蝎子鳄鱼蟹雪人羽毛泰迪熊动物迁徙交通灯龙天使美人鱼篝火消防栓蒙娜丽莎停止标志大炮萨克斯管鼓小提琴吉他长号竖琴钢琴小号大提琴单簧管草莓西瓜葡萄菠萝蓝莓梨香蕉黑莓苹果通气管瑜伽足球曲棍球棍网球拍飞碟曲棍球冰球篮球棒球棒棒球树花棕榈树叶室内植物草仙人掌灌木鸟猫头鹰企鹅天鹅鹦鹉鸭火烈鸟蘑菇芦笋洋葱花椰菜胡萝卜豌豆土豆菜豆三角形之字形波浪形六边形圆八边形线注射器办公室（5.76%）人体（5.52%）蜡烛池蟹胡萝卜足球扫帚三明治雪花降落伞城堡睡袋牙齿望远镜袋鼠步枪车轮皮卡热狗裤子熊猫螺丝刀警车骆驼闪电铅笔手臂麦克风壁炉扩音器钢琴棒棒糖喇叭键盘豌豆蚊子网球拍交通灯人字拖飞碟龙屋奶牛带长城钻石绷带天使美人鱼钳笔记本电脑雨膝浴缸蜡笔仙人掌花园软管跳水板钱包曲棍球夹克消防栓黑莓蝙蝠斧头秋千套装口红煎锅水槽篮球t恤饼干脚趾立体耙形回形针回旋镖闹钟教堂棒球棒救护车邮箱画笔笑脸明信片遥控土豆耳科医院蒙娜丽莎刀叉蚂蚁照相机油漆罐冷却器监狱串豆线鼠相框沙漏打火机落地灯飓风洗碗机大提琴计算机灌木丛标记花生单簧管收音机水桶烤箱针八角形棒球扇枝形吊灯铁砧椅式航空母舰锤星冠微波橡皮罗盘键停止标志大炮计算器匹配锯伪装彩虹梳妆台日历吊扇道路运输（4.64%）食品（4.04%）自然（3.93%）冷血动物（3.92%）其他（3.60%）音乐（2.80%）水果（2.79%）体育树（2.54%）鸟类（2.40%）蔬菜（2.31%）形状（2.04%）厨房（1.97%）水上交通（1.88%）空运（1.21%）昆虫（1.15%）勺子酒瓶煎锅刀叉沙漏打火机匹配潜艇快艇帆船独木舟游船航母直升机热气球降落伞飞机蝴蝶蜜蜂蚊蚁1409多个源域共享权重第i个分类器加权第i次最终预测域共享权重目标域j阶分类器在源域第j域特征提取器矩匹配分量第i个源域第j个源域目标域测试阶段图3.基于矩匹配的多源域自适应算法（M3SDA）.我们的模型由三个部分组成：i）特征提取器，ii）矩匹配组件，以及iii）分类器。我们的模型以多源标注的训练数据为输入，并将学习到的知识转移到未标记的目标样本中进行分类不失一般性，我们以第i个域和第j个域为例.特征提取器将源域映射到公共特征空间中。矩匹配组件尝试将第i和第j个域与目标域匹配，以及将第i个域与第j个目标样本的最终预测基于第i和第j分类器的加权输出。(Best以彩色显示！）（skt，见图14）：特定对象的草图。来自剪贴画，信息图，绘画，真实和DS和DT之间的力矩距离定义为：草图域是通过搜索类别名称来收集的Σ2MD2（DS，DT）=. 1ΣNE（Xk）−E（ Xk）<$2结合域名（例如，在不同的图像搜索引擎中。一个主要的挑战-k=1. N−1N−1Ni Ti=1ΣNΣ问题是下载的数据包含很大一部分+NE（Xk）−E（ Xk）.（一）的outliers。为了清理数据集，我们雇佣了20名注释员来手动过滤离群值。这个过程总共花了大约2,500个小时（超过2周）。为了控制注释质量，我们为每个图像分配两个注释器在过滤过程之后，我们保留了423.5k图像，1.2从网络上抓取的数百万张图片该数据集的剪贴画和信息图域的每个类别平均约有150个图像，绘画和草图域的每个类别约有220个图像，真实域约有510个图像。数据集的统计概述如图2所示。quickdraw域可直接从https://quickdraw.withgoogle.com/网站。原始2ij2i=1 j=i+1M3SDA我们提出了一个基于深度神经网络的MSDA矩匹配模型。如图3所示，我们的模型包括特征提取器G，矩匹配组件，和一组N 分类器C={C1，C2，...，C N}。特征提取器G映射DS，DT到一个共同的潜在特征空间。矩匹配分量使等式1中定义的力矩相关距离最小化。在具有交叉熵损失的注释源域上训练N个分类器。总体目标函数为：ΣN数据被呈现为一系列具有节奏的离散点，真实信息我们使用B样条[5]算法来控制.minG、C i=1LD +λminMD2（DS，DT），（2）G在每一个罢工的所有点，以获得一个完整的图纸。我们为每个类别选择500张图像来形成快速绘制域，该域总共包含172.5k张图像。4. 多源DA给定DS={D1，D2，.， DN}为已标记源域的集合，DT为未标记目标域，其中所有域都由输入空间X上的有界有理测度定义，多源域自适应问题的目标是在给定的假设空间H中找到一个假设，该假设使得DT上的测试目标误差最小。定义1. 假设X 1，X 2，.， X N，X T是i.i.d.的集合。从D1，D2，...，DN，DT，则其中LDi是域Di上分类器Ci的softmax交叉熵损失，λ是权衡参数。M3 SDA假设p（y|x）将在对齐p（x）时自动对齐，这在实践中可能不成立。为了缓解这一限制，我们进一步提出了M3SDA-β.为了对准p（y|x）和p（x）同时，我们遵循[ 38 ]提出的训练范式。特别是，我们利用两个分类器每域到形式 N对的分类器 C′为{（C1，C1′），（C2，C2′），.，（CN，CN′）}。培训过程-dure包括三个步骤。i）。我们训练G和C′来正确分类多源样本。目标是相似的1410C不ǫ不ǫ′′ni=1i到等式2。ii）。然后，我们针对固定的G训练分类器对。目标是使每对分类器在目标域上的差异尽可能大。例如，C1和C1′的输出应具有较大的对于一个经验分布，我们将相应的经验分布r或r表示为r_r_D（h），如r_r_S（h）和r_r_T（h）。特别是，我们研究的算法，迷你-最大化源误差的共X个组合，即，GIV ENA差异。在[38]之后，我们定义了权向量α =（α1，. . . ，α N），Nj=1 αj= 1，我们两个分类器的输出之间的L1距离目标是：将假设h的α加权源误差定义为ΣN（h）=ααj=1j j jminC′ΣNi=1ΣNLDi−我|PCi(DT) −PCi ′（D T）|、（3）dj（h）。经验α加权源误差可以类似地定义并表示为α（h）。前理论界[1，14，49]的目标er-其中P Ci（DT）、P Ci（DT）分别表示目标域上的Ci、C i的输出。iii）。最后，我们固定C′并训练G，以最小化每个分类器对的差异在目标域上。目标函数如下：ΣN误差是基于源之间的H H-发散，和目标域。虽然为一般的多源域自适应提供了理论见解，但这些基于H ∞ H-发散的界限并不直接激励基于矩的方法。为了提供一个具体的见解矩为基础的方法，我们介绍了第k或-minG|PCi(DT) −P′（DT）|、（四）我我本文用dCMk（·，·）表示域间的交矩发散，并将[1]中的分析推广到这三个训练步骤周期性地执行，直到整个网络收敛。在测试阶段，来自目标域的测试数据通过特征生成器和N个分类器转发。我们提出了两种模式来组合分类器的输出：• 对分类器的输出进行平均，标记为M3SDA• 导出权重向量W=（w1，. . .，wN−1）（<$N −1w = 1，假设第N个域是目标）。最后的预测是加权平均的输出-多源域的跟随矩定界适应交叉矩散度的定义和定理的证明见附录定理1. 设H是VC维D. 设m为来自所有源的标记样本的大小{D1，D2，.， DN}，Sj是从μ j中提取的大小为βjm（jβ j= 1）的标记样本集，并由地面真值标记函数fj 标记。如果h∈H是 α∈H （h ）的经验极小元，且h∈=minh∈H∈T（h）是目标误差最小化器，则对于任何δ∈（ 0，1），任何n>0，存在N个整数{nj}N和N个常数j=1N推杆为此，如何推导权向量成为一个关键问题。权重向量的主要原理是使其表示{anj}j=1，假设概率至少为1−δ，T（h目标域和源域。在我们的设置中，加权向量由仅源accu导出在第i个域和第N个域之间，e.ΣN+j=1.αj2λj+anjJΣǫk=1ΣdCMk（Dj，DT），（六）w=acc/N−1acc..i ij=1 j2米4其中，ηα，β，m，δ= 4（Nj）（2d（log（d）+1）+2 log（δ））4.1. 理论见解继[1]之后，我们引入了一个严格的多源域自适应二元分类模型.一个-mainD=（μ，f）由输入空间X上的概率测度（dis-p）μ和标记函数f：X → {0，1}定义。假设是一个函数h：X→ {0，1}。 h不符合域标号的概率定义域分布μ下的函数f为：D（h）=|h（x）− f（x）|]中。（五）对于源域DS和目标域DT，我们指的是假设的源误差和目标误差。j=1βjm且λj=minh∈H{<$T（h）+<$j（h）}.定理1表明，学习假设的目标误差的上界取决于目标域和每个源域之间的成对矩散度dCMk（DS，DT）2、直接动机暂时匹配我们之外的方法。特别是，它激励我们的多源域自适应方法来调整每个目标-源之间的时刻帕赛河更重要是，很明显，界限的最后一项kdCMk（Dj，DT）的下界是由两两的di-源域之间的聚散度。要看到这一点，请考虑1411分别为ΔS（h）=ΔDS（h）和ΔT（h）=ΔDT（h）。活泼地当计算公式5中的期望值时，注意，当N = 1时，单源只是一种特殊情况。1412标准模型mt，up，sv，sy→mmmm，up，sv，sy→mtmm，mt，sv，sy→向上mm，mt，up，sy→svmm、mt、up、sv→syAvg源合并源仅DAN [25]DANN [8]63.70±0.8367.87±0.7570.81±0.9492.30±0.9197.50±0.6297.90±0.8390.71±0.5493.49±0.8593.47±0.7971.51±0.7567.80±0.8468.50±0.8583.44±0.7986.93±0.9387.37±0.6880.33±0.7682.72±0.7983.61±0.82源仅63.37±0.7490.50±0.8388.71±0.8963.54±0.9382.44±0.6577.71±0.81DAN [25]63.78±0.7196.31±0.5494.24±0.8762.45±0.7285.43±0.7780.44±0.72珊瑚[39]62.53±0.6997.21±0.8393.45±0.8264.40±0.7282.77±0.6980.07±0.75多源DANN [8]JAN [27]ADDA [40]71.30±0.5665.88±0.6871.57±0.5297.60±0.7597.21±0.7397.89±0.8492.33±0.8595.42±0.7792.83±0.7463.48±0.7975.27±0.7175.48±0.4885.34±0.8486.55±0.6486.45±0.6282.01±0.7684.07±0.7184.84±0.64DCTN [45]70.53±1.2496.23±0.8292.81±0.2777.61±0.4186.77±0.7884.79±0.72MEDA [44]71.31±0.7596.47±0.7897.01±0.8278.45±0.7784.62±0.7985.60±0.78丹麦[38]72.50±0.6796.21±0.8195.33±0.7478.89±0.7887.47±0.6586.10±0.73M3SDA（我们的）69.76±0.8698.58±0.4795.23±0.7978.56±0.9587.56±0.5386.13±0.64M3 SDA-β（我们的）72.82±1.1398.43±0.6896.14±0.8181.32±0.8689.58±0.5687.65±0.75表2. 数字分类结果。mt、up、sv、sy、mm分别是MNIST、USPS、SVHN、Synthetic Digits、MNIST-M的缩写。我们的模型M3SDA和M3SDA-β分别达到了86.13%和87.65%的准确率，大大优于其他基线。由两个源D1、D2和目标DT组成的玩具示例，由于dCMk（·，·）是度量，所以t对角不等式意味着以下下限：dCMk（D1，DT）+dCMk（D2，DT）≥ dCMk（D1，D2）.这促使我们的算法也对齐的时刻之间的每对源域。直观地说，如果源域本身没有对齐，则不定理1的进一步讨论及其与我们算法的关系在附录中提供。5. 实验我们对以下任务进行了广泛的评估：数字分类（ MNIST ， SVHN ， USPS ， MNIST-M ， SyntheticDigits）和图像识别（EST-Caltech 10，DomainNet数据集）。总共进行了714次实验。实验在具有24个GPU的GPU集群上运行，总运行时间超过21，440GPU小时。由于篇幅所限，我们只报告主要成果;更多实施细节在补充材料中提供在整个实验中，我们将等式2中的权衡参数λ设置为0.5。在参数敏感性方面，我们已经观察到，如果λ在0.1 <$1之间，则不显著。我们所有的实验都在PyTorch3平台上实现5.1. 数字识别五位数据集来自五个不同的来源，即MNIST[19]，合成数字 [8] ， MNIST- M[8] ， SVHN 和 USPS 。在DCTN[45]之后，我们从MNIST、MINST-M、SVHN和合成数字中的训练子集和测试子集中分别采样了25000个图像和9000个图像。USPS数据集总共只包含9298张图像，因此我们采用3http://pytorch.org将整个数据集作为一个域。在我们所有的实验中，我们轮流将一个域设置为目标域，其余的作为源域。我们采用四种最先进的基于差异的方法：深度自适应网络[25]（DAN），联合自适应网络（JAN），流形嵌入分布对齐（MEDA）和相关对齐[39]（CORAL），以及四种基于对抗的方法： DANN （ AdversarialDiscriminativeDomainAdaptation），ADDA（Adversarial Discriminative Domain Adaptation）最大分类器离散（ MCD ）和深度鸡尾酒网络 [45]（DCTN）作为我们的基线。在源组合设置中，所有的源域都组合成一个正弦，GLE域，基线实验以传统的单域自适应方式进行。结果示于表2中。我们的模型M3SDA达到了86.13%的平均准确率，M3SDA-β将性能提升到87.65%，大幅优于其他基线。一个有趣的观察结果是MNIST-M数据集的结果较低。这个phe-这种现象可能是由于负迁移的存在[31]。为了公平比较，所有实验都基于相同的网络架构。对于每个实验，我们运行相同的设置五次，并报告平均值和标准差。(See详细实验设置和分析的附录5.2. Office Caltech10Office-Caltech 10 [11]数据集是从标准Office 31 [37]数据集扩展而来的。它由来自4个不同域的相同10个对象类别组成：亚马逊，加州理工，数码单反，还有网络摄像头.Office-Caltech 10数据集上的实验结果如表4所示。我们的模型M3SDA在该数据集上获得了96.1%的平均准确率，M3SDA-β进一步将性能提高到96.4%。所有实验都基于在ImageNet上预训练的ResNet-101。据我们1413AlexNetCLPINFPNTQDRrelskt平均值丹CLPINFPNTQDRrelskt平均值JanCLPINFPNTQDRrelskt平均值DANNCLPINFPNTQDR relskt平均值CLP65.5 8.2 21.4 10.5 36.1 10.8 17.4CLP不适用9.1 23.4 16.2 37.9CLP不适用7.8 24.5 14.3 38.1CLP不适用9.1 23.2 13.7 37.6INF32.9 27.7 23.8 26.4 13.7 19.8INF17.2 15.6 4.4 24.8 13.5 15.1INF17.6 18.7 8.7 28.1 15.3 17.7INF17.9 16.4 2.1 27.8 13.3 15.5PNT28.1 7.5 57.6 2.6 41.6 20.8PNT29.9 8.9不适用PNT27.5 8.2无7.1 43.1 23.9 22.0PNT29.1 8.6不适用5.1 41.5 24.7 21.8QDR13.4 1.2 2.5 68.0 5.5 7.1五点九QDR14.2 1.6 4.4不适用QDR17.8二、二 7.4不适用QDR 16.8 1.8 4.8不适用9.3 10.2 8.6rel36.9 10.2 33.9 4.9 72.8 23.1 21.8rel37.4不适用26.4 23.7rel33.5 9.1 32.5 7.5不适用rel36.5不适用24.5 22.4SKT35.5 2019 - 01 - 21 10：00：00SKT39.1 8.8 28.2 13.9 36.2不适用SKT35.3 8.2 27.7 13.3 36.8不适用SKT37.9 8.2 26.3 12.2 35.3不适用24.0Avg.29.4 6.8 20.7 6.4 28.1 15.117.8Avg.27.6 2019 - 05 - 29 10：00：00Avg.26.3 19.5 19.4 19.519Avg. 27.6 2019 - 01 - 29 10：00：00RTNCLP INF PNT QDR relskt平均值AddaCLP INF PNT QDR relskt平均值MCD CLP INF PNT QDR relskt平均值SECLP INF PNT QDR relskt平均值CLP不适用8.1 21.1 13.1 36.1 26.5CLP11.2 24.1 3.2 41.9 30.7 22.2CLP不适用14.2 26.1 1.6 45.0 33.824.1CLP不适用9.7 12.2 33.4 23.1 16.1INF15.6 15.3 3.4 25.1 12.8 14.4INF19.1不适用16.4 3.2 26.9 14.616.0INF23.6 21.2 1.5 36.7 18.0 20.2INF10.3不适用9.6 1.2 13.1 6.9 8.2PNT26.8 8.1不适用5.2 40.6 22.6 20.7PNT31.2不适用8.4 39.1 25.4 22.7PNT34.4 14.8无1.9 50.5 28.4 26.0PNT17.1 9.4不适用QDR15.1 1.8 4.5不适用8.5 8.97.8QDR15.7 2.6 5.4不适用9.9 11.9 9.1QDR15.0 3.0 7.0不适用QDR 13.6 3.9 11.6不适用16.4 11.511.4rel35.3不适用22.9 21.6rel39.5不适用25.7 24.2rel42.6不适用29.3 27.2rel31.7不适用26.3 18.9SKT34.1不适用21.9SKT35.3 8.9 25.2 14.9 37.6不适用SKT41.2 13.7 27.6 3.8 34.8不适用SKT18.7 7.8 12.2 7.7 28.9不适用Avg.25.4 7.2 19.2 8.4 28.4 18.717.9Avg.28.2 9.3 20.1 8.4 31.1 21.719.8Avg.31.4 13.1 24.9 2.2 35.7 23.921.9Avg. 18.3 8.7 13.1 3.4 24.1 16.714.1表3. DomainNet数据集上的单源基线。在DomainNet数据集上评估了几个单源适应基线，包括AlexNet [18]，DAN [25]，JAN[27]，DANN [8]，RTN [26]，ADDA [40]，MCD [38]，SE [7]。在每个子表中，按列的域被选择为源域，而按行的域被选择为目标域。绿色数字表示每列或每行的平均性能。红色数字表示所有30个（源、目标）组合的平均准确度。0.80.60.40.220 50 100 150 200 250 300 345数量的类别表4. 数据来源于Caltech10 dataset。A、C、W和D分别代表亚马逊、加州理工学院、网络摄像头和数码单反相机。所有实验都基于在ImageNet上预训练的ResNet-101。我们知道，我们的模型在该数据集上报告的所有结果中实现了最佳性能。我们也尝试了AlexNet，但它的效果不如ResNet-101。5.3. DomainNet实验单源自适应为了证明DomainNet的内在困难，我们评估了多个用于单源自适应的最先进算法：深度对齐网络（DAN）[25]、联合自适应网络（JAN）[27]、域对抗神经网络（DANN）[8]、残差传输网络（RTN）[26]、自对抗深度域自适应（ADDA）[40]、最大分类器离散化（MCD ）[38]和自集成（SE）[7]。由于DomainN

下载后可阅读完整内容，剩余1页未读，立即下载