没有合适的资源?快使用搜索试试~ 我知道了~
1基于矩匹配的多源域自适应算法彭兴超波士顿大学xpeng@bu.edu黄子君秦讯百地平线机器人qinxun. horizon.ai凯特·萨恩科波士顿大学xidexia@bu.edu博望哥伦比亚大学黄子君@ columbia.edu波士顿大学saenko@bu.edu矢量研究所彼得·蒙克心脏中心bowang@vectorinstitute.ai摘要传统的无监督域自适应(UDA)假设训练数据是从单个域采样的.这忽略了更实际的场景,其中训练数据是从多个源收集的,需要多源域适应。我们为解决这一问题作出三个主要贡献。首先,我们收集并注释迄今为止最大的UDA数据集,称为DomainNet,它包含六个域,0.6分布在345个类别中的100万张图像,填补了多源UDA研究数据可用性的空白。其次,我们提出了一种新的深度学习方法,Moment Matching for Multi-SourceDomain Adap- tation(M3 SDA),旨在通过动态对齐特征分布的矩,将从多个标记源域学习到的知识转移到未标记的第三,我们提供了新的理论见解,特别是在单角和多源域适应的矩匹配方法。进行了广泛的实验,以证明我们的新数据集在基准测试国家的最先进的多源域自适应方法,以及我们提出的模型的优势的权力。数据集和代码可在http://ai.bu.edu/M3SDA/上获得1. 介绍将在一个视觉领域学习到的模型推广到新的领域一直是寻求通用对象识别的主要障碍。由于域偏移的存在,当在新域上测试时,学习模型的性能显著降低[36]。最近,迁移学习和领域自适应方法已经被提出来减轻领域差距。例如,几种UDA方法[27,41,25]将最大平均离散损失纳入神经网络以减少域差异;其它模型引入不同的学习模式来对准源域和目标域,包括对准二阶相关[39,32],飞机时钟斧球自行车 鸟草莓花比萨饼蝴蝶图1.我们解决多源域适应,其中源图像来自多个域。我们收集了一个大规模的数据集,DomainNet,有六个领域,345个类别,收集60万张图像,并提出一个模型(M3SDA),将知识从多个源域转移到一个未标记的目标域。矩匹配[47],对抗域混淆[40,8,38]和基于GAN的对齐[50,15,23]。然而,目前大多数UDA方法假设源样本是从单个域收集的。这种假设忽略了更实际的场景,其中标记的图像通常是从多个域收集的。例如,训练图像可以在不同的天气或光照条件下拍摄,共享不同的视觉线索,甚至具有不同的模态(如图1所示)。在本文中,我们考虑多源域自适应(MSDA),一个更困难,但实际的问题,知识转移从多个不同的领域到一个未标记的目标域。MSDA研究的主要挑战是:(1)源数据具有多个域,这阻碍了主流单一UDA方法的有效性;(2)源域之间也存在着域间的迁移,(3)缺乏大规模的多域数据集阻碍了MSDA模型的发展。在MSDA的背景下,针对多源域提出了一些理论分析[1,28,4,49,141406草图realquickdraw paintinginfograph clipart1407数据集年图像类域描述数字五-100,000105数字办公室[37]20104,110313办公室加州理工学院[11] 20122,533104办公室CAD-Pascal [33]201512,000206动物、车辆免费WiFi [43]201715,500654办公室,家庭PACS [21]20179,99174动物,东西开放MIC [17]201816,156--博物馆[35]第三十五话2018 280,157123动物、车辆DomainNet(我们的)-569,0103456见附录表1.一组最值得注意的数据集,用于评估领域自适应方法。具体而言,我们的数据集具有挑战性,因为它包含比其他数据集更多的图像,类别和域(see详细分类见附录中的表10、表11和表12。)自适应(MSDA)。Ben-David等人[1]通过在源域和目标域的加权组合之间引入H ∞ H-发散,开创了这一方向。更多的应用作品[6,45]使用对抗性判别器来将多源域与焦油对齐获取域。然而,这些工作仅仅关注于将源域与目标域对齐,而忽略了源域之间的域移位。此外,基于H -散度的分析并不直接对应于矩匹配方法。在数据方面,由于缺乏大规模的领域自适应数据集,研究受到阻碍,因为最先进的数据集只包含少数图像或具有有限数量的类。许多领域自适应模型在这些数据集上评估时表现出饱和对于前-例如,许多方法在流行的Office [37]数据集上达到了90%的准确度; Self-Ensembling [7]报告了“Digit-Five”数据集上的99%的准确度在本文中,我们首先收集和标记一个新的多域数据集称为DomainNet,旨在克服直接对齐其深度特征分布的矩,从而产生更稳健和有效的MSDA模型。据我们所知,我们是第一个经验证明,对齐的源域是有益的MSDA任务。最后,我们将现有的理论分析[1,14,49]扩展到源域和目标域之间基于矩的分歧的情况,这为域适应中的矩匹配方法提供了新的理论见解,包括我们的方法和许多其他方法。2. 相关工作领域自适应数据集表1中总结了可以用于评估领域自适应方法的几个值得注意的数据集。Office数据集[37]是办公环境对象的流行基准。它包含三个领域的31个类别:用高质量照相机(DSLR)拍摄的办公室环境图像、用低质量照相机(Webcam)拍摄的办公室环境图像、以及来自在线销售网站(Amazon)的图像。Office数据集及其扩展Office-Caltech 10 [11]已用于许多领域adap,本文的研究结果表明,自适应算法的准确率达到了90%以上。最近的基准点[43,17,34]被提出来评估领域自适应模型的有效性。然而,这些数据集规模小,并受到其特定环境的限制,例如办公室、家庭和博物馆。我们的数据集包含约60万张图像,分布在345个类别和6个不同的领域。我们捕获各种对象分类,从家具,布料,电子到哺乳动物,建筑物等。在过去的几十年里,已经提出了各种单源UDA方法。这些方法可以在分类学上分为三类。第一类是基于差异的DA方法,它利用不同的度量学习模式来减少源域和目标域之间的域转移。灵感来自基准饱和度我们的数据集包括六个不同的领域,345个类别和1060万张图像。DomainNet和几个现有数据集的比较如表1所示,图1.我们在我们的数据集上评估了几种最先进的单主适应方法,得出了令人惊讶的发现(见第5节)。我们还在现有数据集和DomainNet上广泛评估了我们的模型,并表明它优于现有的单源和多源方法。其次,我们提出了一种新的方法称为M3SDA来处理MSDA任务,通过对齐的源域与目标域,并对齐的源域彼此同时进行。我们处理了[45]中提出的多个复杂的对抗训练程序,但不...应用核双样本检验[12]、最大平均离散度(MMD)来减少各种方法中的分布偏移[27,41,9,44]。其他常用方法包括相关对准[39,32]、Kullback-Leibler(KL)发散[51]和H发散[1]。第二类是基于对抗的方法[24,40]。一个做主要的广告是利用鼓励域被敌对的目标所迷惑在这些方法中,生成对抗网络被广泛用于学习域不变特征以及生成虚假源或目标数据。其他框架仅利用对抗性损失来桥接两个域。 第三类是基于重构的,其假设数据重构帮助DA模型学习域不变特征。通过编码器获得重建1408桌 子茶 壶 路 灯 雨伞 酒 杯 楼 梯花 瓶牙 刷手 提 箱厕 所 炉 灶床牙 膏锯 梯 凳枕 热 水 浴缸 栅 栏 门睡 袋 壁 炉 灯 笼浴 缸 沙 发秋 千 水 槽邮 箱 明 信片画 框 落 地 灯 枝形 吊 灯 椅 子梳 妆 台 吊 扇松 鼠 狗鲸 鱼老 虎 斑 马绵 羊 大 象马 猫 浣 熊猴 子 狮 子猪熊 海 豚 兔 子犀 牛刺 猬 长颈 鹿 袋 鼠 熊猫 骆 驼 牛蝙蝠 鼠 钉剑听 诊器 滑 板 哑铃 瓶 盖 铲 篮注 射 器 扫 帚枪 轮螺 丝刀 绷 带钳斧耙 式 回 飞棒钻油 漆 罐 护照 桶 针 铁砧 锤 指 南针 钥 匙锯 鞋袜 手 镯手 表领 结 项链 帽 子 短裤眼 镜 头 盔 毛衣 溜 冰鞋 裤子人 字 拖 内衣腰 带 钻 石钱 包 夹 克 口红T恤皇冠 迷 彩 表 烤 面 包 机耳 机 洗 衣机 灯 泡 电视 手 电 筒 电 话 麦 克风 扩 音 器 键 盘笔 记 本树 高尔 夫 俱 乐部 松 鼠 狗鲸 鱼电 子表 格 雪人老 虎 表 鞋风 车潜 羽鸟 蛛草 莓指 甲 胡子 面包 火车西 瓜斑 马 羊大 象 茶 壶 眼睛 蘑 菇 海 龟剑 路 灯 灯 塔猫 头 鹰马企鹅 池 塘 袜子 通 气 管 直升 机蛇 蝴 蝶伞 河鱼货 车 葡萄热 气 球 酒 杯 泰 迪熊 快 艇 太 阳天 鹅自 行 车 脑手 镯 龙 卷风 花 楼 梯杯 牛 排 拖拉 机手 表牙 刷 手提 箱 三 角 形鹦 鹉 之 字 形冰 淇 淋 杯沙 滩 猫浣 熊 花园 猴 子 鲨鱼动 物 迁 徙狮子 萨 克 斯 管芦 笋 帐 篷 消防 车 手 勺 波浪 形 棕 榈 树章 鱼 烤 面 包机 滑 板 哑 铃山 瓶 盖 猪一 种铲洗 机酒 瓶火 炉咖 啡 杯 树 叶山 羊 胡 子 鼓瑜 伽 领 结 帆船 剪 刀 洋 葱蜗 牛总线室 内植物图月 亮龙 虾 独 木舟 菠 萝 项链 篮 子 熊信 封 蜜 蜂草 地摩 托车 床 甜甜 圈 脸帽子 头 骨 校 车海 豚 游 轮 牙膏 蓝 莓 短 裤眼 镜 背 包 书花 椰 菜 鸭 汉堡 包头 盔 蛋糕 犀 牛 梯 子长 号 刺 猬 电视 蝎 子 梨 手电 筒 谷 仓一种 腿 部 海洋 电 话 凳枕热 浴 缸围 栏 火 烈 鸟滑 水 鳄 鱼 毛衣 胡 子 旱 冰鞋 圈 长 颈 鹿200010000200010000图2. 我们DomainNet数据集的统计数据。这两个图显示按实例总数排序的对象类。 顶部 图显示了每个域在数据集中所占的百分比。下图显示了按24个不同分区分组的实例数。详细数量见附录中的表10、表11和表12。(放大以查看确切的类名!)解码器[3,10]或GAN解码器,诸如双GAN [46]、循环GAN [50]、disco-GAN [16]和Cy-CADA [15]。虽然这些方法在UDA上取得了进展,但很少考虑从多个源收集训练数据我们的论文提出了一个模型来解决多源域适应,这是一个更一般和具有挑战性的情况。多源域自适应与单源UDA相比,多源域自适应假设来自多个源的训练数据可用。起源于早期的理论分析[1,28,4],MSDA有许多实际应用[45,6]。Ben-David等人[1]在源域和目标域的加权组合之间引入了一个H ∞ H-发散谎言等人[4]通过最小化最近k个源上的经验损失,建立了模型预期损失的一般界限。Mansour等人[28]声称,目标假设可以由源假设的加权组合来表示在更多的应用工作中,深度鸡尾酒网络(DCTN)[45]提出了一种用于数字分类和现实世界对象识别的k路域分类器和类别分类器Hoffman等人[14]提出了具有交叉熵损失的理论保证Duan等人[6]提出了通过利用大量来自不同来源的松散标记的网络图像来识别消费者视频中的事件的域选择机。与这些方法不同的是,我们的模型通过匹配矩直接匹配所有的分布。此外,我们提供了一个具体的证明,为什么匹配的时刻多分布工程多源域适应。矩匹配分布的矩具有在两个域之间,已经提出了不同的矩匹配方案。例如,MMD匹配两个分布的一阶矩。Sun等人[39]提出了一种匹配二阶矩的方法。Zhang等人[48]提出在RKHS中对齐无限维协方差矩阵Zellinger等人[47]引入了一个矩匹配正则化器来匹配高矩。随着生成式对抗网络(GAN)的广泛应用,基于GAN的矩匹配算法被提出. McGAN[29]利用GAN来匹配特征分布的均值和协方差。GMMN [22]和MMD GAN [20]被提出用于将分布矩与生成神经网络对齐。与这些方法相比,我们的工作重点是匹配多个域的分布矩,更重要的是,我们证明了这对多源域适应至关重要。3. DomainNet数据集众所周知,深度模型需要大量的训练数据。不幸的是,现有的用于视觉域自适应的数据集要么规模小,要么类别数量有限。我们收集了迄今为止最大的领域适应数据集DomainNet。DomainNet包含6个域,每个域包含345类常见对象,如表10、表11和表12所列(见附录)。主要功能包括Clipart(CLP,见附录,图9):收集Clipart图像;Infograph(inf,见图10):带有特定对象的信息图图像;绘画(pnt,见图11):以绘画形式对物体的艺术描绘;Quickdraw(qdr,参见图12):游戏“Quick Draw!“1;真实(rel,见图13):照片和真实世界的图像;和草图已经被机器学习社区研究了很长时间时间为了减少域名差异,请登录https://quickdraw.withgoogle.com/data剪贴画infographpaintingquickdraw真实素描实例数实例数家具(9.93%)哺乳动物(8.22%)工具(7.33%)电力(6.45%)布料(6.48%)立 体 声功 率出 口远 程控 制手 机建筑(6.39%)相 机 冷却 器 洗 碗机电 脑 收 音 机烤 箱风 扇 微 波 计算 器 高 尔 夫俱 乐 部 风 车灯 塔 桥 池 塘花 园 帐 篷埃 菲 尔 铁 塔 广 场 摩天 大楼 谷 仓滑 水 池城 堡 庄园长 城 花 园 水 龙 带跳 水 板 教 堂 医院监狱 钉杯咖 啡 杯 剪 刀地 图 信 封 背包 书 蜡 烛 望远 镜 铅 笔 钟绷 带 蜡 笔 纸夹 闹 钟 画 笔记 号 笔 橡 皮日 历 胡 子眼睛 大 脑手 山 羊胡 子 脸头 骨 鼻子 腿胡 子手 指 牙齿 脚手 臂膝 盖脚 趾肘笑 脸 嘴 卡 车火 车 面 包车 自 行 车拖 拉 机 消防 车公 共汽 车摩 托车 校 车汽 车皮 卡 警 车 推 土机 过 山车 救 护车 面 包牛 排冰 淇 淋 甜 甜圈 冰 棒 汉 堡蛋 糕披 萨三 明治 热狗 棒 棒 糖饼 干生 日 蛋 糕 花 生河 太 阳龙 卷风 海滩山月 亮 海洋 雪 花 闪 电云雨 飓风 星彩 虹蜘 蛛海 龟蛇 鱼鲨 鱼章 鱼青 蛙蜗 牛龙 虾 蝎 子 鳄鱼 蟹 雪 人 羽毛 泰 迪熊动 物迁 徙 交 通 灯 龙天 使 美 人 鱼篝 火 消防 栓蒙 娜 丽 莎 停 止 标志 大 炮 萨 克斯 管鼓 小 提琴 吉 他 长 号竖 琴钢 琴小 号 大 提 琴单 簧 管 草 莓西 瓜葡 萄 菠萝 蓝 莓 梨 香蕉 黑 莓 苹 果通 气 管 瑜 伽足 球曲 棍 球 棍 网 球拍 飞 碟 曲 棍 球 冰球 篮 球 棒 球 棒 棒球树 花棕 榈 树 叶室 内 植 物 草仙 人 掌灌 木 鸟猫 头 鹰企 鹅 天 鹅鹦 鹉 鸭 火 烈鸟 蘑 菇 芦 笋洋 葱 花 椰 菜胡 萝 卜 豌 豆土 豆 菜 豆 三角 形 之 字 形波 浪 形 六 边形 圆八边 形 线注 射 器办公室(5.76%)人体(5.52%)蜡 烛池蟹胡 萝卜足 球 扫 帚三 明治 雪花 降 落 伞 城 堡睡 袋 牙 齿 望 远镜 袋 鼠 步 枪车 轮 皮卡热 狗 裤 子 熊猫 螺 丝 刀 警 车骆 驼 闪 电 铅 笔手 臂麦 克风 壁 炉 扩音 器钢 琴 棒棒 糖 喇 叭 键盘 豌 豆 蚊 子网 球 拍 交 通 灯 人字 拖 飞 碟 龙 屋奶 牛带长 城 钻 石 绷 带 天使 美 人鱼钳 笔 记 本电 脑 雨 膝浴 缸 蜡 笔仙 人 掌花 园 软 管 跳 水板 钱 包曲 棍 球夹 克消 防栓 黑 莓蝙蝠斧头 秋 千 套 装口 红 煎 锅 水槽 篮 球t恤饼 干 脚 趾立 体 耙形回 形 针回 旋镖 闹 钟教 堂 棒 球 棒 救 护车 邮 箱 画 笔 笑 脸明 信 片 遥 控土 豆耳科 医 院蒙 娜 丽 莎 刀 叉 蚂蚁 照 相机油 漆 罐 冷却 器 监狱串 豆 线 鼠相 框 沙 漏 打 火机 落 地 灯 飓风 洗 碗机 大提 琴 计 算 机灌 木 丛 标 记花 生 单 簧 管收 音 机 水 桶烤 箱 针 八 角形 棒 球 扇 枝形 吊 灯 铁 砧椅 式航 空母 舰 锤星冠 微 波 橡 皮罗 盘 键停 止 标 志大 炮 计 算 器匹 配 锯 伪 装彩 虹 梳 妆 台日 历 吊 扇道路运输(4.64%)食品(4.04%)自然(3.93%)冷血动物(3.92%)其他(3.60%)音乐(2.80%)水果(2.79%)体育树(2.54%)鸟类(2.40%)蔬菜(2.31%)形状(2.04%)厨房(1.97%)水上交通(1.88%)空运(1.21%)昆虫(1.15%)勺 子酒瓶煎 锅 刀叉 沙漏 打 火 机 匹配 潜 艇 快 艇帆 船 独 木 舟游 船航 母直 升 机热气 球 降 落伞飞 机 蝴 蝶 蜜蜂 蚊 蚁1409多个源域共享权重第i个分类器加权第i次最终预测域共享权重目标域j阶分类器在源域第j域特征提取器矩匹配分量第i个源域第j个源域目标域测试阶段图3.基于矩匹配的多源域自适应算法(M3SDA).我们的模型由三个部分组成:i)特征提取器,ii)矩匹配组件,以及iii)分类器。我们的模型以多源标注的训练数据为输入,并将学习到的知识转移到未标记的目标样本中进行分类不失一般性,我们以第i个域和第j个域为例.特征提取器将源域映射到公共特征空间中。矩匹配组件尝试将第i和第j个域与目标域匹配,以及将第i个域与第j个目标样本的最终预测基于第i和第j分类器的加权输出。(Best以彩色显示!)(skt,见图14):特定对象的草图。来自剪贴画,信息图,绘画,真实和DS和DT之间的力矩距离定义为:草图域是通过搜索类别名称来收集的Σ2MD2(DS,DT)=. 1ΣNE(Xk)−E( Xk)<$2结合域名(例如,在不同的图像搜索引擎中。一个主要的挑战-k=1. N−1N−1Ni Ti=1ΣNΣ问题是下载的数据包含很大一部分+NE(Xk)−E( Xk).(一)的outliers。为了清理数据集,我们雇佣了20名注释员来手动过滤离群值。这个过程总共花了大约2,500个小时(超过2周)。为了控制注释质量,我们为每个图像分配两个注释器在过滤过程之后,我们保留了423.5k图像,1.2从网络上抓取的数百万张图片该数据集的剪贴画和信息图域的每个类别平均约有150个图像,绘画和草图域的每个类别约有220个图像,真实域约有510个图像。数据集的统计概述如图2所示。quickdraw域可直接从https://quickdraw.withgoogle.com/网站。原始2ij2i=1 j=i+1M3SDA我们提出了一个基于深度神经网络的MSDA矩匹配模型。 如图3所示,我们的模型包括特征提取器G,矩匹配组件, 和一组N 分类器C={C1,C2,...,C N}。特征提取器G映射DS,DT到一个共同的潜在特征空间。矩匹配分量使等式1中定义的力矩相关距离最小化。在具有交叉熵损失的注释源域上训练N个分类器。总体目标函数为:ΣN数据被呈现为一系列具有节奏的离散点,真实信息 我们使用B样条[5]算法来控制.minG、C i=1LD +λminMD2(DS,DT),(2)G在每一个罢工的所有点,以获得一个完整的图纸。我们为每个类别选择500张图像来形成快速绘制域,该域总共包含172.5k张图像。4. 多源DA给定DS={D1,D2,., DN}为已标记源域的集合,DT为未标记目标域,其中所有域都由输入空间X上的有界有理测度定义,多源域自适应问题的目标是在给定的假设空间H中找到一个假设,该假设使得DT上的测试目标误差最小。定义1. 假设X 1,X 2,., X N,X T是i.i.d.的集合。从D1,D2,...,DN,DT,则其中LDi是域Di上分类器Ci的softmax交叉熵损失,λ是权衡参数。M3 SDA假设p(y|x)将在对齐p(x)时自动对齐,这在实践中可能不成立。为了缓解这一限制,我们进一步提出了M3SDA-β.为了对准p(y|x)和p(x)同时,我们遵循[ 38 ]提出的训练范式。 特别是,我们利用两个分类器每域 到 形式 N对 的 分类器 C′为{(C1,C1′),(C2,C2′),., (CN,CN′)}。培训过程-dure包括三个步骤。i)。我们训练G和C′来正确分类多源样本。目标是相似的1410C不ǫ不ǫ′′ni=1i到等式2。ii)。然后,我们针对固定的G训练分类器对。目标是使每对分类器在目标域上的差异尽可能大。例如,C1和C1′的输出应具有较大的对于一个经验分布,我们将相应的经验分布r或r表示为r_r_D(h),如r_r_S(h)和r_r_T(h)。特别是,我们研究的算法,迷你-最大化源误差的共X个组合,即,GIV ENA差异。 在[38]之后,我们定义了权向量α =(α1,. . . ,α N),Nj=1 αj= 1,我们两个分类器的输出之间的L1距离目标是:将假设h的α加权源误差定义为ΣN(h)=ααj=1j j jminC′ΣNi=1ΣNLDi−我|PCi(DT) −PCi ′(D T)|、(3)dj(h)。 经验α加权源误差可以类似地定义并表示为α(h)。前理论界[1,14,49]的目标er-其中P Ci(DT)、P Ci(DT)分别表示目标域上的Ci、C i的输出。iii)。最后,我们固定C′并训练G,以最小化每个分类器对的差异在目标域上。目标函数如下:ΣN误差是基于源之间的H H-发散,和目标域。虽然为一般的多源域自适应提供了理论见解,但这些基于H ∞ H-发散的界限并不直接激励基于矩的方法。为了提供一个具体的见解矩为基础的方法,我们介绍了第k或-minG|PCi(DT) −P′(DT)|、(四)我我本文用dCMk(·,·)表示域间的交矩发散,并将[1]中的分析推广到这三个训练步骤周期性地执行,直到整个网络收敛。在测试阶段,来自目标域的测试数据通过特征生成器和N个分类器转发。我们提出了两种模式来组合分类器的输出:• 对分类器的输出进行平均,标记为M3SDA• 导出权重向量W=(w1,. . .,wN−1)(<$N −1w = 1,假设第N个域是目标)。最后的预测是加权平均的输出-多源域的跟随矩定界适应交叉矩散度的定义和定理的证明见附录定理1. 设H是VC维D. 设m为来自所有源的标记样本的大小{D1,D2,., DN},Sj是从μ j中提取的大小为βjm(jβ j= 1)的标记样本集,并由地面真值标记函数fj 标 记 。如 果h∈H是 α∈H (h )的 经验 极小 元,且h∈=minh∈H∈T(h)是目标误差最小化器,则对于任何δ∈( 0,1),任何n>0,存在N个整数{nj}N和N个常数j=1N推杆为此,如何推导权向量成为一个关键问题。权重向量的主要原理是使其表示{anj}j=1,假设概率至少为1−δ,T(h目标域和源域。在我们的设置中,加权向量由仅源accu导出在第i个域和第N个域之间,e.ΣN+j=1.αj2λj+anjJΣǫk=1ΣdCMk(Dj,DT),(六)w=acc/N−1acc..i ij=1 j2米4其中,ηα,β,m,δ= 4(Nj)(2d(log(d)+1)+2 log(δ))4.1. 理论见解继[1]之后,我们引入了一个严格的多源域自适应二元分类模型.一个-mainD=(μ,f)由输入空间X上的概率测度(dis-p)μ和标记函数f:X → {0,1}定义。假设是一个函数h:X→ {0,1}。 h不符合域标号的概率定义域分布μ下的函数f为:D(h)=|h(x)− f(x)|]中。(五)对于源域DS和目标域DT,我们指的是假设的源误差和目标误差。j=1βjm且λj=minh∈H{<$T(h)+<$j(h)}.定理1表明,学习假设的目标误差的上界取决于目标域和每个源域之间的成对矩散度dCMk(DS,DT)2、直接动机暂时匹配我们之外的方法。特别是,它激励我们的多源域自适应方法来调整每个目标-源之间的时刻帕赛河更重要是,很明显,界限的最后一项kdCMk(Dj,DT)的下界是由两两的di-源域之间的聚散度。 要看到这一点,请考虑1411分别为ΔS(h)=ΔDS(h)和ΔT(h)=ΔDT(h)。活泼地 当计算公式5中的期望值时,注意,当N = 1时,单源只是一种特殊情况。1412标准模型mt,up,sv,sy→mmmm,up,sv,sy→mtmm,mt,sv,sy→向上mm,mt,up,sy→svmm、mt、up、sv→syAvg源合并源仅DAN [25]DANN [8]63.70±0.8367.87±0.7570.81±0.9492.30±0.9197.50±0.6297.90±0.8390.71±0.5493.49±0.8593.47±0.7971.51±0.7567.80±0.8468.50±0.8583.44±0.7986.93±0.9387.37±0.6880.33±0.7682.72±0.7983.61±0.82源仅63.37±0.7490.50±0.8388.71±0.8963.54±0.9382.44±0.6577.71±0.81DAN [25]63.78±0.7196.31±0.5494.24±0.8762.45±0.7285.43±0.7780.44±0.72珊瑚[39]62.53±0.6997.21±0.8393.45±0.8264.40±0.7282.77±0.6980.07±0.75多源DANN [8]JAN [27]ADDA [40]71.30±0.5665.88±0.6871.57±0.5297.60±0.7597.21±0.7397.89±0.8492.33±0.8595.42±0.7792.83±0.7463.48±0.7975.27±0.7175.48±0.4885.34±0.8486.55±0.6486.45±0.6282.01±0.7684.07±0.7184.84±0.64DCTN [45]70.53±1.2496.23±0.8292.81±0.2777.61±0.4186.77±0.7884.79±0.72MEDA [44]71.31±0.7596.47±0.7897.01±0.8278.45±0.7784.62±0.7985.60±0.78丹麦[38]72.50±0.6796.21±0.8195.33±0.7478.89±0.7887.47±0.6586.10±0.73M3SDA(我们的)69.76±0.8698.58±0.4795.23±0.7978.56±0.9587.56±0.5386.13±0.64M3 SDA-β(我们的)72.82±1.1398.43±0.6896.14±0.8181.32±0.8689.58±0.5687.65±0.75表2. 数字分类结果。mt、up、sv、sy、mm分别是MNIST、USPS、SVHN、Synthetic Digits、MNIST-M的缩写。我们的模型M3SDA和M3SDA-β分别达到了86.13%和87.65%的准确率,大大优于其他基线。由两个源D1、D2和目标DT组成的玩具示例,由于dCMk(·,·)是度量,所以t对角不等式意味着以下下限:dCMk(D1,DT)+dCMk(D2,DT)≥ dCMk(D1,D2).这促使我们的算法也对齐的时刻之间的每对源域。直观地说,如果源域本身没有对齐,则不定理1的进一步讨论及其与我们算法的关系在附录中提供。5. 实验我们对以下任务进行了广泛的评估:数字分类( MNIST , SVHN , USPS , MNIST-M , SyntheticDigits)和图像识别(EST-Caltech 10,DomainNet数据集)。总共进行了714次实验。实验在具有24个GPU的GPU集群上运行,总运行时间超过21,440GPU小时。由于篇幅所限,我们只报告主要成果;更多实施细节在补充材料中提供在整个实验中,我们将等式2中的权衡参数λ设置为0.5。 在参数敏感性方面,我们已经观察到,如果λ在0.1 <$1之间,则不显著。我们所有的实验都在PyTorch3平台上实现5.1. 数字识别五位数据集来自五个不同的来源,即MNIST[19],合 成 数 字 [8] , MNIST- M[8] , SVHN 和 USPS 。 在DCTN[45]之后,我们从MNIST、MINST-M、SVHN和合成数字中的训练子集和测试子集中分别采样了25000个图像和9000个图像。USPS数据集总共只包含9298张图像,因此我们采用3http://pytorch.org将整个数据集作为一个域。在我们所有的实验中,我们轮流将一个域设置为目标域,其余的作为源域。我们采用四种最先进的基于差异的方法:深度自适应网络[25](DAN),联合自适应网络(JAN),流形嵌入分布对齐(MEDA)和相关对齐[39](CORAL),以 及 四 种 基 于 对 抗 的 方 法 : DANN ( AdversarialDiscriminativeDomainAdaptation),ADDA(Adversarial Discriminative Domain Adaptation)最 大 分 类 器 离 散 ( MCD ) 和 深 度 鸡 尾 酒 网 络 [45](DCTN)作为我们的基线。在源组合设置中,所有的源域都组合成一个正弦,GLE域,基线实验以传统的单域自适应方式进行。结果示于表2中。我们的模型M3SDA达到了86.13%的平均准确率,M3SDA-β将性能提升到87.65%,大幅优于其他基线。一个有趣的观察结果是MNIST-M数据集的结果较低。这个phe-这种现象可能是由于负迁移的存在[31]。为了公平比较,所有实验都基于相同的网络架构。对于每个实验,我们运行相同的设置五次,并报告平均值和标准差。(See详细实验设置和分析的附录5.2. Office Caltech10Office-Caltech 10 [11]数据集是从标准Office 31 [37]数据集扩展而来的。它由来自4个不同域的相同10个对象类别组成:亚马逊,加州理工,数码单反,还有网络摄像头.Office-Caltech 10数据集上的实验结果如表4所示。我们的模型M3SDA在该数据集上获得了96.1%的平均准确率,M3SDA-β进一步将性能提高到96.4%。所有实验都基于在ImageNet上预训练的ResNet-101。据我们1413AlexNetCLPINFPNTQDRrelskt平均值丹CLPINFPNTQDRrelskt平均值JanCLPINFPNTQDRrelskt平均值DANNCLPINFPNTQDR relskt平均值CLP65.5 8.2 21.4 10.5 36.1 10.8 17.4CLP不适用9.1 23.4 16.2 37.9CLP不适用7.8 24.5 14.3 38.1CLP不适用9.1 23.2 13.7 37.6INF32.9 27.7 23.8 26.4 13.7 19.8INF17.2 15.6 4.4 24.8 13.5 15.1INF17.6 18.7 8.7 28.1 15.3 17.7INF17.9 16.4 2.1 27.8 13.3 15.5PNT28.1 7.5 57.6 2.6 41.6 20.8PNT29.9 8.9不适用PNT27.5 8.2无7.1 43.1 23.9 22.0PNT29.1 8.6不适用5.1 41.5 24.7 21.8QDR13.4 1.2 2.5 68.0 5.5 7.1五点九QDR14.2 1.6 4.4不适用QDR17.8二、二 7.4不适用QDR 16.8 1.8 4.8不适用9.3 10.2 8.6rel36.9 10.2 33.9 4.9 72.8 23.1 21.8rel37.4不适用26.4 23.7rel33.5 9.1 32.5 7.5不适用rel36.5不适用24.5 22.4SKT35.5 2019 - 01 - 21 10:00:00SKT39.1 8.8 28.2 13.9 36.2不适用SKT35.3 8.2 27.7 13.3 36.8不适用SKT37.9 8.2 26.3 12.2 35.3不适用24.0Avg.29.4 6.8 20.7 6.4 28.1 15.117.8Avg.27.6 2019 - 05 - 29 10:00:00Avg.26.3 19.5 19.4 19.519Avg. 27.6 2019 - 01 - 29 10:00:00RTNCLP INF PNT QDR relskt平均值AddaCLP INF PNT QDR relskt平均值MCD CLP INF PNT QDR relskt平均值SECLP INF PNT QDR relskt平均值CLP不适用8.1 21.1 13.1 36.1 26.5CLP11.2 24.1 3.2 41.9 30.7 22.2CLP不适用14.2 26.1 1.6 45.0 33.824.1CLP不适用9.7 12.2 33.4 23.1 16.1INF15.6 15.3 3.4 25.1 12.8 14.4INF19.1不适用16.4 3.2 26.9 14.616.0INF23.6 21.2 1.5 36.7 18.0 20.2INF10.3不适用9.6 1.2 13.1 6.9 8.2PNT26.8 8.1不适用5.2 40.6 22.6 20.7PNT31.2不适用8.4 39.1 25.4 22.7PNT34.4 14.8无1.9 50.5 28.4 26.0PNT17.1 9.4不适用QDR15.1 1.8 4.5不适用8.5 8.97.8QDR15.7 2.6 5.4不适用9.9 11.9 9.1QDR15.0 3.0 7.0不适用QDR 13.6 3.9 11.6不适用16.4 11.511.4rel35.3不适用22.9 21.6rel39.5不适用25.7 24.2rel42.6不适用29.3 27.2rel31.7不适用26.3 18.9SKT34.1不适用21.9SKT35.3 8.9 25.2 14.9 37.6不适用SKT41.2 13.7 27.6 3.8 34.8不适用SKT18.7 7.8 12.2 7.7 28.9不适用Avg.25.4 7.2 19.2 8.4 28.4 18.717.9Avg.28.2 9.3 20.1 8.4 31.1 21.719.8Avg.31.4 13.1 24.9 2.2 35.7 23.921.9Avg. 18.3 8.7 13.1 3.4 24.1 16.714.1表3. DomainNet数据集上的单源基线。在DomainNet数据集上评估了几个单源适应基线,包括AlexNet [18],DAN [25],JAN[27],DANN [8],RTN [26],ADDA [40],MCD [38],SE [7]。在每个子表中,按列的域被选择为源域,而按行的域被选择为目标域。绿色数字表示每列或每行的平均性能。红色数字表示所有30个(源、目标)组合的平均准确度。0.80.60.40.220 50 100 150 200 250 300 345数量的类别表4. 数据来源于Caltech10 dataset。A、C、W和D分别代表亚马逊、加州理工学院、网络摄像头和数码单反相机。所有实验都基于在ImageNet上预训练的ResNet-101。我们知道,我们的模型在该数据集上报告的所有结果中实现了最佳性能。我们也尝试了AlexNet,但它的效果不如ResNet-101。5.3. DomainNet实验单源自适应为了证明DomainNet的内在困难,我们评估了多个用于单源自适应的最先进算法:深度对齐网络(DAN)[25]、联合自适应网络(JAN)[27]、域对抗神经网络(DANN)[8]、残差传输网络(RTN)[26]、自对抗深度域自适应(ADDA)[40]、最大分类器离散 化(MCD )[38]和自集 成(SE)[7]。由于DomainN
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- OptiX传输试题与SDH基础知识
- C++Builder函数详解与应用
- Linux shell (bash) 文件与字符串比较运算符详解
- Adam Gawne-Cain解读英文版WKT格式与常见投影标准
- dos命令详解:基础操作与网络测试必备
- Windows 蓝屏代码解析与处理指南
- PSoC CY8C24533在电动自行车控制器设计中的应用
- PHP整合FCKeditor网页编辑器教程
- Java Swing计算器源码示例:初学者入门教程
- Eclipse平台上的可视化开发:使用VEP与SWT
- 软件工程CASE工具实践指南
- AIX LVM详解:网络存储架构与管理
- 递归算法解析:文件系统、XML与树图
- 使用Struts2与MySQL构建Web登录验证教程
- PHP5 CLI模式:用PHP编写Shell脚本教程
- MyBatis与Spring完美整合:1.0.0-RC3详解
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功