深度哈希网络的无监督域自适应算法

168 浏览量更新于2023-10-15 收藏 1.24MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1用于无监督域自适应的深度哈希网络Hemanth Venkateswara，Jose Eusebio，Shayok Chakraborty，SethuramanPanchanathan认知普适计算中心，亚利桑那州立大学，坦佩，亚利桑那州，美国{hemanthv，jeusebio，shayok.chakraborty，panch}@ asu.edu摘要近年来，深度神经网络已经成为各种应用领域的主要机器学习工具然而，训练深度神经网络需要大量的标记数据，这在时间、劳动力和人类专业知识方面是一域自适应或迁移学习算法通过利用不同但相关的源域中的标记数据来开发目标域的模型来解决这一挑战此外，数字数据的爆炸性增长已经对其存储和检索提出了根本性的挑战。由于其存储和检索效率，近年来已经见证了散列在各种计算机视觉应用中的广泛应用。在本文中，我们首先介绍了一个新的数据集，家庭，以评估主适应算法。该数据集包含来自多个领域的各种日常物品的图像。然后，我们提出了一种新的深度学习框架，可以利用标记的源数据和未标记的目标数据来学习信息哈希码，以准确地分类看不见的目标数据。据我们所知，这是第一个利用深度神经网络的特征学习能力来学习代表性哈希码以解决域适应问题的研究工作。我们对多个传输任务的广泛实证研究证实了该框架在学习有效散列码方面的有用性，这些散列码优于现有的竞争基线，用于非监督域自适应。1. 介绍深度学习算法自动学习一组可区分的特征，并在各种计算机视觉应用中表现出值得称赞的不幸的是，训练深度模型需要大量的标记数据，这可能是耗时和昂贵的。然而，来自不同但相关领域的标记数据通常是可用的，这推动了算法的发展，该算法可以利用源领域中的标记数据来开发机器学习。为目标域创建模型。在训练和测试分布之间存在偏移的情况下学习判别模型被称为迁移学习或域适应[17]。无监督域自适应是一种挑战性设置，其中标记数据仅在源域中可用;在目标域中没有可用的标记数据。传统的浅迁移学习方法分两个阶段开发模型，特征提取和领域自适应。特征是固定的，然后训练模型以对齐源和目标域[16，20，33，38，42，43，44]。另一方面，深度迁移学习过程利用深度网络的特征学习能力来学习可迁移的特征表示以进行域适应，并已展示出令人印象深刻的经验性能[17，18，31，34，46]。现代数字数据的爆炸性增长对其存储、检索和计算要求提出了根本性挑战。在此背景下，由于其快速查询速度和低内存成本，哈希已成为最流行和最有效的技术之一[48]。散列技术将高维数据转换为紧凑的二进制代码，并为相似的数据项生成相似的二进制代码。出于这一事实的动机，我们建议训练一个深度神经网络来输出二进制哈希码（而不是概率值），这可以用于分类。我们看到在网络的最后一层估计哈希值而不是标准概率向量的两个优点：（i）在没有标签的情况下，散列值用于为目标数据开发唯一的损失函数，以及（ii）在预测期间，测试样本的散列值可以与训练样本的散列值进行比较，以得到更鲁棒的类别预测。在本文中，我们首先介绍了一个新的数据集，Office- Home，我们使用它来评估我们的算法。Office-Home数据集是一个对象识别数据集，包含来自4个域的图像。它有大约15，500张图片，分为65个类别。我们进一步提出了一种新的深度学习框架，称为域自适应哈希（DAH）来学习信息哈希码，以解决无监督域自适应的问题。我们提出50185019我一个独特的损失函数，用于训练具有以下组件的深度网络：（i）用于标记源数据的监督散列损失，其确保属于相同类的源样本具有相似的散列码;（ii）未标记目标数据的无监督熵损失，其迫使每个目标样本与源类别中的恰好一个紧密对齐并且与其他类别不同，以及（iii）基于多核最大平均差异（MK-MMD）的损失，其寻求学习网络层内的可转移特征以最小化源域和目标域之间的分布差异。图1说明了DAH的不同层和损失函数的组成部分。2. 相关工作已经有许多方法来解决无监督域自适应中的域转移问题。一种直接的方法是，通过调整分类器来对目标数据进行分类来修改为源数据训练的分类器[1，4]，或者学习变换矩阵来线性变换源数据，以便与目标对齐[27，42]。当训练域自适应分类器时，一些其他过程重新加权源域中的数据点，以选择与目标相似的源数据，[9，10，19]。减少域差异的标准程序是将源数据和目标数据投影到公共子空间，从而对齐它们的主轴[16，44]。域自适应训练网络的过程，以学习网络的完全连接的最后层中的可转移特征[31，46]。在深度结构域适应的其他方法中，Ganin et al.[17]训练域对抗网络来学习使源域和目标域不可区分的特征，Long等人。[34]，训练网络使用残差传递网络进行特征自适应和分类器自适应。已经开发了无监督散列技术来提取唯一的散列码，以用于数据的有效存储和检索[22，25]。基于神经网络的散列在最先进的无监督散列技术中处于领先地位[7，11，14]。结合哈希和自适应的最接近的工作出现在跨模态哈希中，其中深度哈希技术嵌入多模态数据并学习两个相关领域的哈希码，如文本和图像[5，6，29]。然而，这些算法不是无监督的，它们主要用于提取多模态数据的公共哈希码以用于检索目的。据我们所知，目前还没有使用深度哈希网络进行无监督域自适应的工作。现在，我们将介绍域自适应哈希（DAH）网络，用于通过深度哈希进行无监督域自适应。3. 域自适应哈希网络在无监督域自适应中，我们考虑来自两个域的数据;源和目标。来源包括通过非线性对齐减少域差异对于标记数据，Ds={xs，ys}ns而目标只有i i i=1数据可能具有最大平均离散度未标记数据Dt={xt}nt。数据点xxx属于i i=1i(MMD)- 提供分布差异的措施再生核希尔伯特空间中两个数据集之间的关系[13]。基于核PCA的方法应用MMD来实现域的非线性对齐[32，33，38]。基于流形的方法在计算机视觉的域自适应中也很流行，其中域的子空间被视为流形上的一个点，并且变换被其中X是某个输入空间。对应的标签表示为y∈ Y：={1，. . . ，C}。领域自适应学习的范式试图解决数据的领域转移问题，其中源和数据的数据分布是不同的，即，e. Ps（X，Y）=Pt（X，Y）.尽管域转移，我们的目标是训练一个深度神经网络分类器。），它可以预测拉-学习对齐两个域[20，23]。一项关于受欢迎bels{yt}nt，用于目标数据。i i=1计算机视觉领域自适应技术是一种先进的技术。见[41]，迁移学习方法的更一般的调查可以在[39]中找到。所有上述技术都可以被称为浅学习过程，因为模型是使用预定特征来学习的近年来，深度学习在学习计算机视觉应用的高度区分特征方面非常成功[8]。像深度CNN这样的深度学习系统学习数据的表示，这些数据在多任务迁移学习设置中捕获不同任务之间的潜在变化因素[3]。这些代表也解开了允许任务之间知识转移的变化因素[12，18，37]。Yosinski等人[49]演示了网络的下层如何产生通用特征，上层如何输出任务特定特征。基于此，深度学习Pro...我们将神经网络实现为深度CNN，由5个卷积层Conv 1-Conv 5和3个全连接层FC 6-FC8组成，随后是损耗层。在我们的模型中，我们引入了一个哈希层hash-fc8来代替标准的fc8层，以学习二进制代码hi，对于每个数据点xi，其中hi∈{−1，+1}d。 hash-fc 8层由两个损失函数驱动，（i）源数据的监督哈希损失，（ii）目标数据的无监督熵损失。受监督的散列丢失确保散列值是不同的和有区别的，即，如果xi和xj属于同一类别，则它们的散列值hi和hj相似，否则不同。无监督熵损失基于目标散列值与源散列值的特征表示的相似性将它们对齐网络的输出表示为h（x），其中h（x）∈Rd，我们将其转换为哈希码h =sgn（h（x）），其中sgn（. ）5020K∗我1+ei=1第l层。最终层输出表示为Us和Ut。MK-MMD测度d2（. ）是源和目标表示之间的多核最大平均差异，[24]。对于非线性映射φ（. ）与再生核Hilbert空间Hk和核k（. 其中，k（x，y）=φφ（x），φ（y）φ，MMD被定义为，.... 2d 2（U 1，U 1）=. E[φ（us，l）]− E[φ（ut，l）]...（二）Kst....K图1：域自适应哈希（DAH）网络，为源和目标输出哈希代码网络特性内核（。），isdet e r m i ne das.aconvexk个PSD核的组合，{k m}k，K：=k：k=用一批源数据和目标数据训练卷积m=1μ m层conv1 -conv 5以及完全连接的层fc6和fc7从VGG-F网络进行微调。MK-MMD损失训练DAH学习对齐源和目标的特征表示。hash-fc8层被训练为输出d维的向量。监督散列损失驱动DAH估计每个对象类别的唯一散列值。无监督熵损失将目标哈希值与其对应的哈希值对齐。m=1 β m k m，m=1β m=1，β m≥0，μm.我们设定根据[34]，βm= 1/κ，在实践中效果很好3.2.源数据一对散列值hi和h i的hj与点积hj，hj，由下式给出：distH（hi，hj）=1（d−h<$hj），其中d是来源类别。最好用彩色观看2我是符号函数。一旦网络已经被训练，x被分配标签y的概率由f（x）= p（y）给出|h）。我们使用Ds和Dt训练网络，并使用f（. ）的情况。为了解决域转移的问题，我们需要对齐目标和源的特征表示我们通过在网络的多个层上减少源和目标特征表示之间的域差异来做到这一点在下面的小节中，我们将讨论域自适应哈希（DAH）网络的设计，hash长度点积hi，hj可以被处理为散列码的相似性度量点积的值越大（高相似性），距离dist H越小，而点积越小（低相似性），距离distH越大。设sij∈ {0，1}为xi和xj之间的相似度。如果xi和xj属于同一类别，则sij=1和0，否则。给定相应的散列值hi和hj，xi和xi之间的相似性概率.σ（h<$hj），sij= 1详细p（s ij|hi，hj）=我1−σ（h<$hj），sij=0，（三）3.1.减少域差异近年来，深度学习方法在使用最先进的算法进行自适应方面非常成功[17，31，34，46随着深度CNN的层层上升，特征表示从通用过渡到特定于任务的[49]。卷积层conv1到conv5已经被证明是通用的，因此很容易转移，而全连接层则更具任务特定性，需要在转移之前进行调整。在DAH算法中，我们试图最小化MK-MMD损失，以减少完全连接层的源和目标特征表示之间的域差异，F={fc6，fc7，fc8}。这样的损失函数已经被使用其中，σ（x）=1−x是sigmoid函数。随着点积hi，hj的增加，p（s ij=1）的概率|hi，hj）也增加，即，xi和xj属于同一类别。随着点积减小，概率p（s ij=1|hi，hj）也减小，即，xi和xj属于不同的类别。对于具有给定标签的源数据，我们构造了（ns× ns）相似矩阵S ={si j}，其中si j= 1，如果xi和xj属于同一类别，否则为0.令H={hi}ns为源数据散列值的集合。如果假设H的元素是独立同分布的，给定H的相似性矩阵的负对数似然性可以写为，minL（H）= −logp（S|H）在以前的研究[31，34]。多层MK-MMDH损失由下式给出，Σ。。=−⊤ΣΣM（Us，Ut）=Σ d2（U1，U1），（1）s ijhi hj− log 1 + exp（hi hj）。sij∈Sk s tl∈F（四）通过最小化等式（4），我们可以确定散列值。在那里，Ul ={us，l}nsU l ={ut，l}nt是一套使用H表示源数据，si i=1ti i =1源数据和目标数据的输出表示形式，层l，其中u是x的输出表示，相似矩阵S。哈希损失已被用于预-对监督哈希的研究[30，50]。方程我我H5021i=12K（4）是一个离散优化问题，很难解决。我们通过求解ui∈Rd来引入离散约束hi∈ {−1，+1}d的松弛，其中网络输出的熵损失由下式给出1tCUs={ui}ns是网络的输出，ui=（xi）H（Us，Ut）=−nti=1j =1 pijlog（pij）（7）(the上标表示域已被删除，方便代表）。然而，连续松弛引起（i）近似误差，当用ui，u j代替h i，hj时，以及（ii）量化误差，当所得实数码ui被二进制化时[50]。我们通过具有tanh（. ）作为神经网络的最终激活层，使得ui的分量界于-1和+1之间。此外，我们还引入了一个量化损失||ui−sgn（ui）||2沿着[22]的路线，其中sgn（. ）是符号函数。现在可以概述监督散列的连续优化问题;最小化熵损失给出了倾向于独热向量的概率向量pi目标数据点输出仅类似于来自任何一个类别的源数据点输出。强制与来自类别的K个源数据点的相似性保证了基于多个源类别数据点与目标数据点之间的共同相似性来3.4.域自适应哈希网络我们提出了一个深度无监督域adap的模型Σ。。⊤ΣΣ基于散列（DAH）的数据处理，minL（Us）=−Ussij∈Ssijuiuj−log1 +exp（uiuj）源和目标之间的约束域自适应（1），源的监督散列（5）和无监督散列伊根... 2在深度卷积神经网络中对目标（7）进行散列加.. ui− sgn（ui）..二、（五）i=1工作DAH网络被训练以最小化minJ=L（Us）+γM（Us，Ut）+ηH（Us，Ut），（8）3.3. 目标数据的无监督哈希在没有目标数据标签的情况下，我们使用相似性度量来指导网络学习目标数据的判别哈希值。理想的目标输出t，必须是si。与来自U其中，U：={Us<$Ut}和（γ，η）分别控制域自适应（1）和目标熵损失（7）的重要性。使用H=sgn（U）从网络的输出获得散列值H。损失条款（5）和ithsj K歼类别{uk}k=1. 我们假设在不损失（7）在网络的最后一层确定，一般性地，对于每个类别j，K个源数据点，其中，j∈ {1，. . . ，C}，并且u，j是来自cat的第k个源输出。网络输出U。MK-MMD损耗（1）在每个完全连续的层输出{U1，U1}kts t埃戈里河此外，ui必须与大多数其他源输出属于不同类别（J1）的US1。强制执行与所有K个数据点的相似性使得目标数据类别分配更加稳健。我们概述了一个概率测度来捕捉这种直觉。设p ij为输入目标数据点xi被分配给类别j的概率，其中，ΣKex p（utusj）连接层F={fc6，fc7，fc8}，其中我们采用线-无偏MK-MMD的耳时估计，如所述[24]和[31]。DAH使用标准的反向传播来训练。（8）的导数的详细推导w.r.t. U在补充材料中提供。网络架构：由于域自适应设置中图像的缺乏，我们通过调整pij=0k=1ik（六）预训练的VGG-F [8]网络到DAH。VGG-FC ΣKexp（utusl）已经在ImageNet 2012数据集上进行了训练，并且它l=1k=1ik5个卷积层（conv1 -conv 5）和3个完全卷积层The ex p （ . ）已经不产生 DIFFERENTIITY 的DIFFERENTIITY，并且分母确保JPij =1。当目标数据点输出仅与一个类别相似且与所有其他类别不同，概率向量pi=[pi1，. . .，pIC]T倾向于是独热向量。一个独热向量可以被看作是pi的低熵实现。因此，我们可以将所有的pi设想为独热向量（低熵概率向量），其中目标数据点输出在一个且仅一个类别中类似于源数据点输出为此，我们引入了一个损失，以捕获目标概率向量的熵。的连接层（fc6，fc7，fc8）。我们引入了哈希层hash-fc8，它在fc8的位置输出Rd中的向量为了解释哈希近似，我们引入了一个tanh（）层。然而，当使用tanh（）时，我们遇到了梯度消失的问题[26]，因为它在大输入时饱和。因此，我们在tanh（）前面加上一个批量归一化层，以防止tanh（）饱和。实际上，hash-fc8： ={fc8→batch-norm→tanh（）}。hash-fc8在微调学习率时提供了比深度哈希网络更高的稳定性[30，50]。图1示出了所提出的DAH网络。5022图2：来自Tosh-Home数据集的示例图像。该数据集由组织成4个域的日常对象的图像组成;艺术：绘画，素描和/或艺术作品，剪贴画：剪贴画图像，产品：没有背景的图像和现实世界：用相机捕获的常规图像。该图显示了65个类别中16个类别的示例。表1：EST-Home数据集的统计数据。Min：#是所有类别中的最小图像数量，Min：Size和Max：Size是所有类别中的最小和最大图像大小，Acc.是分类精度。域最小值：#最小值：尺寸最大值：尺寸ACC艺术15117×85像素4384×2686像素44.99±1.85剪贴画3918×18pix.2400×2400像素53.95±1.45产品3875×63像素。2560×2560像素66.41±1.18真实世界2388×80像素。6500×4900像素59.70±1.044. 家庭数据集有监督的深度学习模型需要大量标记的训练数据。不幸的是，现有的基于视觉的领域自适应数据集的大小有限，不适合验证深度学习算法。基于视觉的领域适应的标准数据集是面部表情数据集CKPlus[35]和MMI[40] ，数字数据集 SVHN[36] ， USPS 和MNIST[28]，头部姿势识别数据集PIE[33]，对象识别数据集COIL[33]，Office[42]和E-Caltech[20]。这些数据集是在深度学习流行之前创建的，不足以训练和评估基于深度学习的领域自适应方法。例如，对象识别数据集Office拥有31个类别的4110张图像，而Office-Caltech拥有10个类别的2533张图像我们发布了用于基于领域自适应的对象识别的Tosh-Home数据集，可用于评估用于领域自适应的深度学习算法。该数据集由4个域组成，每个域包含来自65个日常对象类别的图像，总共约15，500张图像。这些领域包括：艺术：以素描、绘画、插图等形式对物体进行艺术描绘; Clipart：剪贴画图像的收集;产品：没有背景的对象图像，类似于Office中的Amazon类别公共域图像从网站如 www.deviantart.com 和www.flickr.com下载，以创建艺术和现实世界域。从多个剪贴画网站收集剪贴画图像。产品域图像是使用网络爬虫从www.amazon.com专门收集的。根据质量、大小和内容手动过滤收集的图像该数据集每个类别平均有大约70张图像，每个类别中最多有99张图像。创建此数据集的主要挑战是在所有4个域中获取足够数量的公共域图像。图2描述了Office-Home数据集中16个类别的抽样，表1概述了数据集的一些Meta数据。表1中的Acc.列是指使用LIBLINEAR SVM [15]分类器（5倍交叉验证）的分类准确度，其中使用VGG-F网络提取深度特征。该数据集可公开用于研究1。5. 实验在本节中，我们进行了大量的实验来评估DAH算法。由于我们提出了一种基于散列的域自适应技术，我们评估了无监督域自适应的目标识别准确率，并研究了无监督域自适应散列的学习散列码有关实施细节，请访问 https://github.com/hemanthdv/da-hash5.1. 数据集Office[42]：这是目前领域适应计算机视觉社区中对象识别该数据集由办公室环境中的日常物品它有3个域;亚马逊（A），Dslr（D）和Webcam（W）。了数据集数据集;真实世界：使用普通相机1https://hemanthdv.github.io/officehome-dataset/5023大约4100张图片，其中大部分图片（2816张图片）位于Amazon域中。我们对此数据集采用不同转移任务对的通用评估协议[31，34]。我们考虑6个传输任务的所有组合的源和目标对的3个域。我们引入了这个新的数据集，并以与Office数据集类似的方式对其进行评估。我们考虑12个转移任务的艺术（Ar），剪贴画（Cl），产品（Pr）和现实世界（RW）域的所有组合的源和目标的4个域。考虑所有不同的转移对使我们能够以综合的方式评估域之间的固有偏差[45]。5.2. 实现细节我们使用MatConvnet框架实现DAH [47]。由于我们训练了预训练的VGG-F，因此我们微调了conv1-conv5、fc6和fc7的权重。我们设定它们的学习率是hash-fc8的学习率的十分之一我们在300个epoch中将学习率在10−4到10−5之间变化，动量为0。9和重量衰减5×10−4。我们设置K=5（来自类别的样本由于Office数据集中有31个类别，因此源批次大小为31×5=155。对于目标批次，我们随机选择155个样品。总批次大小为310。对于K-Home数据集，K=5，65个类别，我们得到的批量大小为650。我们为所有实验设置d=64（哈希码长度）既然有不平衡-在相似矩阵Si，j ∈ {0，10 }中，我们设置相似矩阵Si ，j∈{0，10}的值。增加相似对的相似性权重可以提高DAH的性能。对于熵损失，我们设置η=1。对于MK-MMD损失，我们遵循[24]中提到的方法来确定参数。我们通过验证二进制域分类器来估计γ，以区分源数据点和目标数据点，并选择在验证集上给出最大误差的γ对于MMD，我们使用具有由训练数据中的成对距离的中值给出的带宽σ的高斯核为了结合多核，我们用乘法改变带宽σm∈[2−8σ，28σ]，因子2。我们定义目标分类器f（xt）= p（y|ht）表2：Office数据集上域适应实验的识别准确率（%）。{Amazon（A），Dslr（D），Webcam（W）}. A→W意味着A是源，W是目标。实验A→ DA→ WD→ AD→ WW→ AW→ DAvg.GfK48.5952.0841.8389.1849.0493.1762.32TCA51.0049.4348.1293.0848.8396.7964.54珊瑚54.4251.7048.2695.9747.2798.5966.04JDA59.2458.6251.3596.8652.3497.7969.37丹67.0467.8050.3695.8552.3399.4072.13DANN72.8972.7056.2596.4853.2099.4075.15DAH-e66.2766.1655.9794.5953.9196.9972.31DAH66.4768.3055.5496.1053.0298.8073.04将DAH与最先进的深度学习方法进行域适应比较：（v）深度适应网络（DAN）[31]和（vi）域对抗神经网络（DANN）[17]。对于所有的浅层学习方法，我们从VGG-F网络的fc7层中提取并使用深度特征，该网络是在ImageNet 2012数据集上预先训练的我们还评估了熵损失对DAH散列的影响。DAH-e是DAH算法，其中η被设置为零，这意味着目标哈希值不会被驱动为与源类别对齐。我们遵循无监督域自适应的标准协议，其中所有标记的源数据和所有未标记的目标数据都用于训练。结果和讨论：在表2和表3中报告了每个转移任务中目标分类的结果，其中准确度表示正确分类的目标数据样本的百分比。我们提出的结果与哈希长度d=64位。DAH算法在Office- Home数据集的所有域中始终优于基线然而，对于Office数据集，DANN略微超过由于域对齐是类别不可知的，所以在存在大量类别的情况下，对齐的域当类别的数量很大时，如在M-Home中，DAH在提取可转移特征以实现更高的准确性方面做得最好我们还注意到DAH比DAH-e提供更好的性能;因此，我我在6方面。目标数据点被分配给类利用源和目标的散列码，利用y_i=m_ax_j（p_i_j），5.3. 无监督域自适应在本节中，我们研究了DAH在无监督域自适应中的性能，其中标记数据仅在源域中可用，而在目标域中没有标记数据。我们将DAH与最先进的域自适应方法进行比较：（i）测地线流核（GFK）[20]，（ii）传输分量分析（ TCA ） [38] ，（ iii ）相关对齐（CORAL）[44]和（iv）联合分布自适应（JDA）[33]。我们也目标数据上的熵通过7帮助改进源和目标样本的对齐，这提高了准确性。特征分析：我们还使用t-SNE嵌入研究了倒数第二层（fc7）输出的特征表示，如[12]所示。图3a描绘了使用深度（VGG-F）、DAN和DAH特征的域对之间的A距离。Ben-David等人[2]将A-距离定义为两个域之间的距离，可以视为两个域之间的差异。虽然很难估计其精确值，但近似距离度量由2（1−2）给出，其中是训练用于区分以下各项的二元分类器的泛化误差：5024表3：在WEB-Home数据集上进行域适应实验的识别准确率（%） {艺术（Ar），剪贴画（Cl），产品（Pr），真实世界（Rw）}。Ar→Cl意味着Ar是源，Cl是靶。实验Ar→ ClAr→PrAr→RwCl→ ArCl→ PrCl→ RwPr→ ArPr→ ClPr→ RwRw→ArRw→ ClRw→PrAvg.GfK21.6031.7238.8321.6334.9434.2024.5225.7342.9232.8828.9650.8932.40TCA19.9332.0835.7119.0031.3631.7421.9223.6442.1230.7427.1548.6830.34珊瑚27.1036.1644.3226.0840.0340.3327.7730.5450.6138.4836.3657.1137.91JDA25.3435.9842.9424.5240.1940.9025.9632.7249.2535.1035.3555.3536.97丹30.6642.1754.1332.8347.5949.7829.0734.0556.7043.5838.2562.7343.46DANN33.3342.9654.4232.2649.1349.7630.4938.1456.7644.7142.6664.6544.94DAH-e29.2335.7148.2933.7948.2347.4929.8738.7655.6341.1644.9959.0742.69DAH31.6440.7551.7334.6951.9352.7929.9139.6360.7144.9945.1362.5445.54两个领域。我们使用了具有 5 倍交叉验证的LIBLINEAR SVM [15]分类器来估计平均值。图3a表明，与DAN和Deep特征相比，DAH特征在源和目标之间具有最小的差异。这也用图3b-3d中的t-SNE嵌入证实。深度特征显示域之间的重叠非常小，类别描述了最小的聚类。随着我们转向DAN和DAH功能，领域重叠和聚类得到改善，DAH提供了最佳的可视化效果。这证实了DAH算法利用深度神经网络的特征学习能力来学习代表性哈希码10.90.80.70.60.50.40.30.20.10NoDAITQK均值BABDNNDAHSuh0 0.2 0.4 0.6 0.81召回(a) 亚马逊10.90.80.70.60.50.40.30.20.10NoDAITQK均值BABDNNDAHSuh0 0.2 0.4 0.6 0.81召回(b) Webcam以解决域适配问题。5.4. 无监督域自适应哈希在本节中，我们研究了我们的算法的性能，以从数据中生成紧凑和有效的哈希码，用于在没有标签可用的情况下对看不见的测试实例进行分类。这个问题已经在文献中得到了解决，并得到了有希望的经验结果[7，11，21]。然而，在现实世界的设置中，标签可以从不同但相关的（源）域获得;因此，利用来自源域的标记数据来学习目标域的代表性散列码的策略具有极大的实际重要性。我们的工作是第一个发现和解决这个问题。我们考虑以下场景来解决这个现实世界的挑战：（i）给定的数据集没有标签，哈希码需要以完全无监督的方式学习。我们对基线无监督哈希方法（ITQ）[22]和（KMeans）[25]以及最先进的无监督哈希方法（BA）[7]和（BDNN）[11]进行了评估。(ii)受保护的数据可从不同但相关的源域获得。在标记的源数据上训练散列模型，并将其用于学习目标数据的散列码。我们将此方法称为NoDA，因为不执行域自适应。我们使用深度成对监督散列（DPSH）算法[30]用源数据训练深度网络，并应用该网络为目标数据生成散列(iii)标记的数据可从不同但相关的源域获得，并且我们使用我们的DAH公式通过以下方式来学习目标域的散列码：图5：Office数据集的64位精度-召回率曲线。无域自适应哈希（NoDA），浅无监督哈希（ITQ，KMeans），最先进的深度无监督哈希（BA，BDNN），无监督域自适应哈希（DAH）和监督哈希（SuH）的比较最好用彩色观看。表4：64位时的平均精度。对于NoDA和DAH结果，Art是Clipart、Product和Real-World的源域，Clipart是Art的源域。类似地，Amazon和Webcam是源目标对。实验野田ITQKMeansBABDNNDAHSuh亚马逊0.3240.4650.4030.3670.4910.5820.830Webcam0.5110.6520.5580.4800.6560.7170.939艺术0.1550.1910.1700.1560.1930.3020.492剪贴画0.1600.1950.1780.1790.2060.3330.622产品0.2390.3930.3410.3490.4070.4140.774真实世界0.2810.3230.2790.2730.3360.5330.586Avg.0.2780.3700.3220.3010.3820.4800.707减少域不一致。(iv)标记的数据在目标域中可用。这种方法属于监督哈希（SuH）（因为它使用目标域中的标记数据来学习同一域中的哈希码），并表示性能的上限。它被包括来比较无监督哈希算法相对于有监督算法的性能。我们使用DPSH算法[30]在目标数据上训练深度网络，并使用它在验证子集上生成哈希码。结果和讨论：我们应用精确度-召回率曲线和平均平均精确度（mAP）指标来评估散列方法的有效性，与之前的研究类似[7，11，21]。结果如图所示。精度精度502521.510.50Ar -> ClAr -> PrAr -> Rw(a) A-距离（b）深部特征（Ar，Cl）（c）DAN特征（Ar，Cl）（d）DAH特征（Ar，Cl）图3：fc7层的特性分析。(a)A-Deep、DAN和DAH的距离，（b）、（c）和（d）来自Art（·）和Clipart（+）域的10个类别的t-SNE嵌入。最好用彩色观看。10.910.910.910.90.80.80.80.80.70.70.70.70.60.60.60.60.50.50.50.50.40.40.40.40.30.30.30.30.20.20.20.20.10.10.10.100 0.2 0.4 0.6 0.81召回(a) 艺术00 0.2 0.4 0.6 0.81召回(b) 剪贴画00 0.2 0.4 0.6 0.81召回(c) 产品00 0.2 0.4 0.6 0.8 1召回(d) 真实世界图4：64位时的精确度-召回曲线（针对P2P-Home数据集）。无域自适应哈希（NoDA），浅层无监督哈希（ITQ，KMeans），最先进的深度无监督哈希（BA，BDNN），无监督域自适应哈希（DAH）和监督哈希（SuH）的比较。最好用彩色观看。图4和图5（精确度-召回率曲线）和表4（mAP值），其中我们呈现具有代码长度d=64位的散列。d=16位的散列性能也遵循类似的趋势，并在补充材料中提出。为了简洁起见，我们放弃了Dslr的结果，因为它与Webcam非常相似，几乎没有域差异。我们注意到，由于域不匹配，NoDA具有最差的性能。这表明在部署哈希网络以提取哈希码之前需要考虑与NoDA相比，无监督散列方法ITQ，KMeans，BA和BDNN的性能略好。所提出的DAH算法包括散列码学习和域适应在一个单一的集成框架。因此，它能够以有意义的方式利用源域中的标记数据来学习目标域的有效散列码这解释了其改进的性能，如图4和图5以及表4所示。监督哈希技术（SuH）使用来自目标的标签，因此描述了最佳性能。建议DAH框架consistently提供了最好的性能相对于SuH相比，与其他哈希程序。这证明了我们的框架的优点，在学习代表性的哈希码，利用标记的数据从不同的域这样的框架在现实世界中将非常有用。6. 结论在本文中，我们提出了一种新的域自适应哈希（DAH）框架，该框架利用深度神经网络的特征学习能力来学习有效的哈希码，以实现无监督域自适应。DAH框架解决了两个重要的实际问题：具有弱监督或标签不足的类别分配（通过域自适应）以及在无监督设置中的散列码估计（目标数据的散列码）。因此，通过单一的综合框架解决了两个实际挑战这项研究是第一次将散列码学习与非监督域自适应相结合。我们还介绍了一个新的数据集，可用于进一步的研究，在do-main适应。鸣谢：本材料基于美国国家科学基金会（NSF）资助编号：1116360的工作。本材料中表达的任何观点、发现、结论或建议均为作者的观点，不一定反映NSF的观点DeepDANDAHNoDAITQK均值BABDNNDAHSuhNoDAITQK均值BABDNNDAHSuhNoDAITQK均值BABDNNDAHSuh瞬间的NoDAITQK均值BABDNNDAHSuh精度精度精度精度5026引用[1] Y. Aytar和A.齐瑟曼。Tabula rasa：用于对象类别检测的模型转移。InIEEE ICCV，2011. 2[2] S. 本-戴维布利泽，K。克拉默，A。库莱萨河Pereira和J.W.沃恩从不同领域学习的理论。Machine learning，79（1-2）：151-175，2010. 6[3] Y. Bengio，A. Courville和P。文森特表征学习：回顾与新观点。 IEEE Transactions on Pattern Analysis andMachine Intelligence，35（8）：1798 2[4] L. Bruzzone和M.马康西尼Domain adaptation problems：A dasvm classification technique and a circular validationstrategy.IEEE，PAMI，32（5）：770-787，2010年。2[5] Y. Cao，M. Long，J. Wang，Q. Yang和P. S. Yu.用于跨模态检索的深度视觉语义哈希。在ACM-SIGKDD，2016. 2[6] Z. Cao，M. Long和Q.杨用于异构多媒体检索的传递散列网络。在AAAI，2016。2[7] M. A. C a rre e ir a-P e r p i na'nandR. 我是一个爱我的人。与二进制自动编码器。在Proceedings of the IEEEConference on Computer Vision and Pattern Recognition中，第557二、七[8] K. Chatfield，K. Simonyan、A. Vedaldi和A.齐瑟曼。魔鬼的回归细节：深入研究卷积网。InBMVC，2014. 二、四[9] R.查托帕德亚岛太阳，W。凡岛Davidson ，S. Pan-chanathan和J.烨多频域自适应及其在疲劳早期检测中的应用。ACM Transactions on Knowledge Discovery fromData（TKDD），6（4）：18，2012. 2[10] W.- S. Chu，F.De la

下载后可阅读完整内容，剩余1页未读，立即下载