博物馆展品识别挑战及其在领域适应性中的挑战

33 浏览量更新于2023-10-13 收藏 1.37MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

博物馆展品识别对监督领域适应性的挑战Piotr Koniusz* 1，2，Yusuf Tas*，1，2，Hongguang Zhang2，1，MehrtashHarandi3，Fatih Porikli2，Rui Zhang41Data 61/CSIRO，2澳大利亚国立大学，3莫纳什大学4湖北文理学院名.姓@{ data61.csiro.au1，anu.edu.au2，monash.edu3}，renatazhang@sina.com4抽象。我们研究了一个开放的艺术品识别问题，并提出了一个新的数据集，称为开放博物馆识别挑战（Open MIC）。它包含了在几个博物馆的10个不同展览空间拍摄的展品照片，这些展览空间展示了绘画、钟表、雕塑、玻璃器皿、文物、科学展品、自然历史作品、陶瓷、陶器、工具和土著工艺品。Open MIC的目标是通过提供一个补充的测试平台来刺激领域适应，自我中心识别和少量学习的研究。著名的Office数据集，准确率达到？90%。为了形成我们的数据集，我们用手机和可穿戴设备捕获了每件艺术品的许多图像摄像机以分别形成源数据分割和目标数据分割为了实现强大的基线，我们建立在最近的方法上，该方法对齐源和目标CNN流的每类散点矩阵。此外，我们利用正定性质，这样的表示使用端到端Bregman分歧和黎曼度量。我们提出了基线，如培训/评估每个展览和培训/评估的组合集涵盖866个展览身份。由于每个展览都提出了不同的挑战，例如，照明质量、运动模糊、遮挡、杂乱、视点和比例变化、旋转、眩光、透明度、非平面性、剪切，我们将结果分解为w.r. t。这些因素。1介绍领域自适应和迁移学习在计算机视觉和机器学习中被广泛研究[1，2]。它们受到人类认知能力的启发，从很少的数据样本中学习新概念（参见。在来自ImageNet数据集的数百万个标记图像上训练分类器[3]）。一般来说，给定一个新的（目标）任务来学习，出现的问题是如何识别这个任务和以前的（源）任务之间的所谓共性[4，5]，并将知识从源任务转移到目标任务。因此，必须解决三个问题：转移什么，如何转移，何时转移[4]。领域自适应和迁移学习利用注释和/或未标记的数据，并对目标数据执行手头的任务，例如，从少量注释样本中学习新类别（监督域自适应[6，7]），利用可用的未标记数据（无监督[8，9]或半监督域自适应[10，7]）。相似的是一个-以及从一个/几个样本中训练鲁棒类预测器的少射学习[11]。*两位作者的贡献相等。我们的数据集可以在claret.wikidot.com上找到。2P. Koniusz，Y.Tas，H.Zhang，M.哈兰迪F.Porikli和R.张最近，用于监督，半监督和无监督域自适应的算法，例如跨域和任务的同时深度转移[7]，知识的二阶或高阶转移（So-HoT）[5]和学习不变希尔伯特Space[12]与卷积神经网络（CNN）[13，14]相结合，在经典基准测试（如Ofice数据集[15 ]）上达到了最先进的结果-90%的准确率。这样好的结果是由于CNN在大规模数据集（如ImageNet [3]）上的微调。事实上，CNN的微调本身就是一个强大的域自适应和迁移学习工具[16，17]。因此，这些作品显示出饱和度为CNN在Office [15]数据集及其较新的Office+Caltech 10变体上具有功能[18]。因此，我们提出了一个新的数据集的任务，在博物馆空间，挑战域适应/微调，由于其显着的域转移的展览识别。对于源域，我们通过Android手机以受控的方式捕获照片，例如，我们确保每个展品在照片中居中且无遮挡。我们防止不利的捕捉条件，并没有混合多个对象的照片，除非他们都是一个展览的一部分。我们从自然环境中的不同角度和距离拍摄了每件艺术品的2对于目标域，我们采用了以自我为中心的设置，以确保在野生捕获过程。我们为每个展览配备了2名志愿者，让他们自由漫步并与艺术品互动这样的捕获设置可应用于偏好和推荐系统，例如一位策展人用Android手机拍摄展品的训练照片，而参观者则用可穿戴相机从自我中心的角度捕捉数据，以便系统对最受欢迎的展品进行推理。Open MIC包含来自10种不同类型博物馆展览空间的10个不同的源-目标图像子集，每个子集都展示了不同的光度和几何挑战，如第5节所述。为了证明Open MIC的内在困难，我们在第5节中详细介绍的监督域自适应中选择了有用的基线。它们包括对源和/或目标数据进行微调CNN，并训练最先进的So-HoT模型[5]，我们为该模型配备了非欧几里德距离[19，20]，以实现强大的端到端学习。我们提供各种评估方案，包括：（i）每个展示子集的训练/评估，（ii）对覆盖所有866个身份标签的组合集的训练/测试，（iii）对w.r.t.由我们注释的各种场景因素，例如照明质量、运动模糊、遮挡、杂乱、视点和比例变化、旋转、眩光、透明度、非平面性、剪切等。.此外，我们引入了一个新的评估指标的启发，以下显着性问题：由于大量的展品可以在目标图像中捕获，我们要求我们的volun- teers列举在降序排列的标签最显着/中央展品，他们有兴趣在给定的时间，其次是不太显着/遥远的展品。由于我们理想地想要了解志愿者我们注意到，与注释和分类相关的过程并非没有噪声。因此，我们建议不仅要查看ImageNet [3]中已知的前k个准确度，还要检查是否有任何前k个预测包含在目标图像枚举的所有地面实况标签的前n个部分中。我们称之为top-k-n测度.博物馆展品识别挑战3(a)(b)（c）第（1）款图1：管道。图1a示出了在分类器级别合并的源网络流和目标网络流。分类和对齐损失和k从两个流中获取数据Λ和Λ*以进行端到端学习。损失k对齐S++矩阵流形上的方差。图1b（顶部）示出了沿着测地线路径（我们的）的对准。图1b（底部）示出了对准通孔欧几里德区[5]的文件。在测试时，我们使用目标流和分类器，如图1c所示。为了获得令人信服的基线，我们平衡了现有方法的使用[5]与我们的数学贡献1和评估。So-HoT模型[5]使用Frobenius度量对从CNN获得的类内统计数据进行部分对齐。这种建模背后的假设是，部分对齐的统计量捕获了源域和目标域之间的所谓共性[4，5];从而促进知识转移。对于图1中的管道，我们使用VGG16网络[14]的两个CNN流，它们对应于源域和目标域。我们建立分散矩阵，每个流每个类，从特征向量的fc层。为了利用正定矩阵的几何，我们通过Jensen-Bregman对数发散（JBLD）[19]以端到端的方式正则化和对齐散射，并与仿射不变黎曼度量（AIRM）[20，21]进行比较。然而，非欧几里德距离的梯度的评估是缓慢的大型矩阵。我们通过使用Nystro¨ m预测表明，对于每个源/每塔获取的典型数据点数量，在域自适应中为≥ 50类，评估这样的距离是快速和准确的。我们的贡献是：（i）我们收集/注释新的具有挑战性的开放MIC数据集其中域包括由Android电话和可穿戴相机拍摄的图像;后者由于以自我为中心的捕获过程而表现出一系列逼真的失真，(ii)我们计算有用的基线，提供各种评估协议，统计数据和top-k-n结果，以及包括结果w.r. t的分解。（iii）我们使用非欧JBLD和AIRM距离进行监督域自适应方法的端到端训练，并且我们利用Nystrom投影使这种训练易于处理。据我们所知，这些距离由于其高计算复杂度而尚未在监督域自适应中使用2相关工作下面，我们将描述针对当前问题的最流行的数据集，并解释Open MIC的不同之处。随后，我们描述了相关的域适应方法。数据集。用于评估域转移影响的流行数据集是Office数据集[15]包含31个对象类别和三个域：Amazon，DSLR1我们处理大协方差矩阵的原则性的方式使用欧几里德距离是次优的光我们使非欧几里德距离易于处理。4P. Koniusz，Y.Tas，H.Zhang，M.哈兰迪F.Porikli和R.张网络摄像头数据集中的31个类别由办公室环境中常见的对象组成，例如键盘，文件柜和笔记本电脑。亚马逊域包含从在线商家网站收集的图像。它的对象显示在干净的背景上，并以固定的比例显示。DSLR域包含从不同视点捕获的对象的低噪声高分辨率图像，而Webcam包含低分辨率图像。Office数据集及其对Caltech 10域的更新扩展[18]被用于许多域适应论文[8，7，9，6，22，23，24，12]。Office数据集主要用于在域之间传输有关对象类别的知识。相比之下，我们的数据集解决了域之间的实例传输。Open MIC数据集的每个域包含37-此外，我们的目标子集是以自我为中心的方式捕获的。，我们没有将对象对齐到图像的中心或控制快门等。.技术报告[25]中提出了最近用于域适应的大量数据集，以研究使用对象识别中的跨数据集域偏移 ImageNet，Caltech-256，SUN和Bing数据集。更大的是最新的视觉领域十项全能挑战[26]，它结合了ImageNet，CIFAR-100，Aircraft，Daimler行人分类，Describable textures，德国交通标志，Omniglot，SVHN，UCF 101 Dynamic Images，VGG-Flowers等数据集相比之下许多艺术品在我们的数据集是细粒度的，在没有专业知识的情况下难以区分Office-Home数据集包含诸如真实图像、产品照片、剪贴画和对齐良好的对象的简单艺术印象等领域[27]。Car Dataset [28]包含域适应方法[29]使用170个类，每个类有100个样本。基于属性的域自适应。然而，我们的Open MIC并不局限于实例汽车或刚性物体。共有866个类别，Open MIC包含10个不同的子集，包括绘画，钟表，雕塑，科学展品，玻璃制品，文物，古代动物，植物，雕像，陶瓷，本土艺术等。我们捕捉到了各种各样的材料，其中一些是非刚性的，可能会发光，运动或出现在大规模和视角变化，以形成极端而现实的域转移。在一些子集中，我们也有大量的2帧用于无监督域自适应。域自适应算法。深度学习已经在许多最近的作品中用于领域适应的上下文中，例如。，[7，9，6，22，23，24，5].这些作品建立了所谓的域之间的共性。在[7]中，作者提出通过交叉熵来对齐两个域，交叉熵对于监督和半监督设置“最大程度地混淆”两个域。在[6]中，作者使用到格拉斯曼流形上的低维子空间中的线性投影来捕获源域和目标域之间的方法[22]通过深度回归网络学习源和目标之间的转换我们的模型的不同之处在于，我们的源和目标网络流通过JBLD或AIRM距离彼此共正则化2我们遵循传统的领域适应范式，即博物馆展品识别挑战5N .Dist.参考文献Frobeniusd2（Σ，Σ*）因瓦Tr. Geo. dif▽Σ||Σ−Σ∗||2不等式如果S+，则S腐是的没有fin.fin.d2（Σ，Σ*）∂Σ2（−）AIRM[20]|. |aff . /||aff./ inv. 是是∞-一个∗−F1111 1JBLD [19] log. + 。−对数|ΣΣ |aff./ inv. 没有无∞. 没关系1222∞ −2Σ−2log（Σ−2Σ∪Σ−2）Σ−2.F∗2 2∞（Σ+Σ*）−1−1Σ−12表1：Frobenius、JBLD和AIRM距离及其性质。这些距离是-一对任意矩阵Σ和Σ * 是S中的点（和/或S+ Frobenius）。它尊重源和目标矩阵的非欧几里德几何（其他dist.也可以使用[31，32]）。我们通过非欧几里得距离对齐协方差[5]对于视觉域，域适应可以在空间局部意义上应用，以瞄准所谓的域移位的根在[24]中，作者利用所谓的我们的工作与这种方法是我们的想法可以扩展到空间本地设置。通常使用源和目标分布之间的相关性。在[33]中，子空间形成来自不同域的数据的联合表示也可以应用度量学习[34，35]在[8]和[36]中，源数据和目标数据分别经由相关性和最大平均差异（MMD）在无监督设置中对齐。我们使用的基线[5]可以被视为具有多项式内核的端到端可训练MMD，因为特定于类的源和目标分布通过张量上的内核化Frobenius范数对齐我们的工作有点相关。然而，我们首先通过Nystr？ m投影将源和目标CNN流的最后一个fc层的类特定向量表示投影到公共空间，然后将它们与JBLD或AIRM距离相结合，以利用散射矩阵的（半）正定性质。我们执行端到端的学习，需要非平凡的衍生物的JBLD/AIRM距离和Nyst ro¨ m预测的计算效率。3背景其次，我们讨论散射矩阵，Nystro¨ m投影，Jensen-Br egmanLogDet（JBLD）散度[19]和仿射不变黎曼度量（AIRM）[20，21]。3.1符号设x∈Rd是d维特征向量.I表示索引集合{1，2，… N}个。Σ矩阵的Frobenius范数由下式给出：2MNm，n，其中Xmn表示X中第（m，n）个元素。对称半正定空间和对称正定矩阵为Sd和Sd.所有系数都等于1的向量用1表示，+++是在位置（m，n）处具有一的全零矩阵。3.2Nystro¨ mApproximation在我们的工作中，我们依赖于Nystrom投影，因此，我们首先回顾了它们的机制。++X6P. Koniusz，Y.Tas，H.Zhang，M.哈兰迪F.Porikli和R.张′ZZ1.提案设X∈Rd×N和Z∈Rd×N′存储N个特征向量，N′在它们的列中分别具有维度d的枢轴（用于近似的向量）设k：Rd×Rd→R是正定核.我们形成两个核矩阵KZZ∈N′ ′S++和KZX∈RN×N，它们的第（i，j）个元素分别为k（zi，zj）和k（zi，xj）. 然后，Nystro¨ m特征映射Φ~∈RN×N，其列对应于X中的输入向量s，以及k（xi，xj）是其第（i，j）个条目的k内核K X X的Nystr o ¨ m应用估计，由下式给出Φ~=K−0。5KZX和KXX≈Φ~TΦ~。（一）证据详情见[37]。注1.（1）的近似质量取决于核k、数据点X、枢轴Z和它们的数目N ′。在续集中，我们利用了一个特定的设置，其中KXX=Φ<$TΦ<$，这表明没有近似损失。3.3散布矩阵我们经常使用在特征向量上的协方差Σ≡Σ（Φ）和Σ*≡Σ（Φ*）之间操作的距离d2（Σ，Σ*）因此，我们给出了d2（Σ，Σ*）的一个有用的导数.特征向量Φ。第二个提案令Φ =[Φ1，… φN]和Φ*=[φ*，...，φ**]是quan的特征向量-1NttyN和N*例如，由Eq. （1）和用于评估Σ和Σ*与μ和μ*是Φ和Φ*的平均值。则d2≡d2（Σ，Σ*）w.r.t.Φ和Φ*是：2 ∗22 ∗2d（（二）ΦN∂Φ∗N然后让Z是某个投影矩阵。对于Φ′= Z[Φ1，…φN]和Φ′ *= Z[φ*，…，φ***]1N对于协方差Σ′，Σ′ *，意味着μ′，μ′ *和d′2≡d2（Σ′，Σ′ *），我们得到：2 *T′22 * T′2d（Σ，Σ）=2Zd′（三）ΦN∂Φ∗NΣ证据参见我们的补充材料。3.4非欧几里得距离在表1中，我们列出了具有导数w.r.t.的距离d。在续集中使用。我们指出的属性，如不变性旋转（rot。）、仿射主元（aff. ）和反转（inv. ）. 我们指出哪些距离满足三角不等式（Tr. 不等式）以及哪些是测地距离（Geo. ）.最后，我们指出如果距离d及其梯度▽Σ是有限的（fin. ）或无穷大（∞）。最后一个属性表明JBLD和AIRM距离需要一些正则化，因为我们的协方差是S+。4问题公式化在本节中，我们为监督域自适应方法So-HoT [5]配备了JBLD和AIRM距离以及Nyst rom¨ m投影，以快速进行评估。博物馆展品识别挑战7CF∗2NnNcn′24.1监督域自适应假设IN和IN*是N个源的索引，N* 得到训练数据点。INc和IN*是c∈IC 的类特定指标，其中C是类的数量（展示恒等式）。此外，假设我们具有来自的fc层的特征向量源网络流，每个图像一个，以及它们相关联的标签y。这样的对是giv en byΛ<${（φn，yn）}n∈IN其中φn∈Rd，yn∈IC，n∈IN.针对目标数据，通过类比y，我们定义对Λ*≡{（φ*，y*）}n∈I*，其中φ*∈Rd且y*∈IC，nnNnn∈I特定于类别的特征向量集被给出为Φc≡ {φc}n∈I和Φ∪≡{φ∪c}n∈I∪，c∈IC. 则Φ≡（Φ1，… ΦC）和Φ*≡（Φ*，…， Φ*）。我们写c nNc1C上标中的星号（例如， φ*）表示与目标网络相关的变量而源相关变量没有星号。我们的问题是分类器和对齐损失和k之间的权衡。图1显示了我们的设置。我们损失k取决于两组变量（Φ1，…ΦC）和（Φ*，…，Φ*）-每台一套1C网络流特征向量Φ（Θ）和Φ*（Θ*）取决于我们优化的源网络流Θ和目标网络流Θ*的参数。Σc≡Σ（Π（Φc）），Σ∗≡Σ(Π(Φ∗)),µc(Φ) andµ∗(Φ∗) denote the covariances and means, respectively,C c c每类每网络流一个协方差/均值对具体而言，我们解决：arg min∗ ∗（W，Λ）+||W −W *||2+（4）W， W，Θ，Θ2σ1Σ2∗σ2Σ∗2S. t. ||φn||2≤τ，||≤ τ，C ||≤τ,C c∈Idg（Σc，Σc）+Cc∈I ||二、||2.′*C Cn∈IN，n∈IN联系我们k（Φ，Φ*）注意，图1a通过椭圆/曲线形状指示k沿着精确（或近似）测地线在S+流形上执行对准。对于，我们采用通用Softmax损失。对于源和目标流，矩阵W，W∈Rd×C包含未归一化的概率。在等式（4）中，分离类别特定的dis-covered值。分配由k处理，而吸引两个网络流的类内散射由k处理。变量η控制W和W*之间的接近度，这鼓励分类器的决策边界之间的相似性。系数σ1、σ2控制覆盖度。和平均对齐，τ控制向量φ的2范数。Nystr？ m投影用Π表示。表1指示JBLD和AIRM距离上的反向传播涉及Σc和Σ*的反演，对于每个c ∈ IC，根据（4）。由于从最后一个fc层的2048维特征向量中形成了fcc和fcc，因此反演的成本太高，无法进行微调，例如，，4s/迭代是禁止的。因此，我们展示了如何将Nystrom¨ m投影与dg相结合。3号提案让我们选择Z = X =[Φ，Φ*]作为枢轴和源/目标特征向量，核k是线性的，并将它们代入等式（1）。（一）. 然后我们得到Π（X）=（ZTZ）−0。5ZTX=ZX=（ZTZ）0。5=（XTX）0。其中，X（X）是X在其自身上的等距投影，例如，，（XTX）0的列向量之间的距离。5对应于X中列向量的距离。因此，Π（X）是等距变换w.r.t. 距离，即d2（Σ（Φ），Σ（Φ*））=d2（Σ（Π（Φ）），Σ（Π（Φ*）。G g证据首先，我们注意到以下情况：KXX=Π（X）TΠ（X）=（X TX）0。5（XTX）0=. 5XTX.（五）8P. Koniusz，Y.Tas，H.Zhang，M.哈兰迪F.Porikli和R.张CF图2：开放MIC的源子集。(Top)绘画（Shn），钟表（Clk），雕塑（Scl），科学展览（Sci）和玻璃制品（Gls）。如每个展览展示的3张图像所示，我们在捕获过程中涵盖了不同的视角和尺度（下图）每个展览有3件不同的艺术品，如文物（Rel），自然历史展览（Nat），历史/文化展览（Shx），Porce- lain（Clv）和土著艺术（Hon）。请注意文物的复合场景，自然历史和文化展品的细粒度性质以及展品的非平面性。注意Π（X）=ZX将X投影到大小为d′=N+N*的更紧凑的子空间中如果d′≠d，其中包含X的生成空间，构造为Z=X。当量（5）意味着Π（X）在X上最多执行旋转，因为点积（用于获得K XX的条目），就像欧几里得距离仅是旋转不变的，例如没有仿射不变性。作为（XTX）0. 如果Π（X）与X相等，则这意味着Π（X）不执行缩放、剪切或反转。表1中的距离都是旋转不变的，故d2（Σ（Φ），Σ（Φ*））=d2（Σ（Π（Φ）），Σ（Π（Φ*）））。G g一个严格的证明表明，如果Z=UλVT的SVD，则Z是复合旋转V UT：Z=（ZTZ）−0。5ZT=（V λUTUλV T）−0。5V λUT= V λ−1V TV λUT= V U T。（六）实际上，对于每个类c∈IC，我们选择X=Z=[Φc，Φ*]。然后如Z[Φ，Φ*]=（XTX）0. 在图5中，我们具有Π（Φ）=[y1，… yN]和φ（ΦN）=[yN+1，.，yN+N*]其中Y =[y1，… yN+N*]=（XTX）0. 五、对于典型的N≈30和N*≈3，我们得到边长d′≈33而不是d=4096的协方差。第四个提案。通常，平方根的倒数（XTX）−0。Z（X）的S只能通过代价高昂的SVD来区分。然而，如果X =[Φ，Φ*]，则Z（X）=（XTX）−0。5XT和Π（X）= Z（X）X，如Prop. 3，如果我们考虑链式法则，我们需要：2 ∗dg（Σ（Π（Φ）），Σ（Π（Φ））⊙Σ（Π（Φ））则Z（X）可视为微分中的常数Π（X）=X= Z（X）Jmn。（八）XmnXmnXmn证据它是根据欧几里得、JBLD和AIRM距离的旋转不变性得出的。让我们写Z（X）= R（X）= R，其中R是旋转矩阵。因此，我们有：d2（Σ（Π（Φ）），Σ（Π（Φ*）=d2（Σ（RΦ），Σ（RΦ*））=d2（RΣ（Φ）RT，RΣ（Φ*）RT）。g g g因此，即使R依赖于X，距离d2也不会被任何有效GR即对于Frobenius范数，我们有：||RΣRT−RΣ*RT||2=Tr.ΣRATRTRART=博物馆展品识别挑战9F图3：开放MIC的目标子集的实例。从左到右，每一列都说明了绘画（Shn），时钟（Clk），雕塑（Scl），科学展览（Sci）和玻璃制品（Gls），文化遗迹（Rel），自然历史展览（Nat），历史/文化展览（Shx），瓷器（Clv）和土著艺术（Hon）。请注意各种光度和几何失真。Tr. RTRATAΣ=Tr. ATAΣ=||Σ−Σ∗||2，其中A = Σ−Σ*。因此，我们得到：T*T 2T* 2∂||R（Φ）R−R（Φ）R||F ⊙RΣ（Φ）R⊙Σ（Φ）=||Σ（Φ）−Σ（Φ）||F ⊙Σ（Φ）3其中RΣ（Φ）RT完成了证明。Σ（Φ）Σ（Φ）复杂性协方差之间的Frobenius范数加上它们的计算具有组合复杂度O（（d′+1）d2），其中d′=N+N<$.对于非欧几里德距离，我们考虑评估矩阵的平方根的主导成本和/或通过SVD的反演，以及构建散布矩阵的成本。因此，我们有O（（d′+1）d2+d ω），其中常数2 <ω <2。376涉及SVD的复杂性最后，计算Nystro¨ m投影，建立相关变量并运行非欧距离，对于dd′，其复杂度为O（d′2d+（d′+1）d′2+d′ω）=O（d′2d）.对于典型的d′=33和d=2048，非欧几里得距离为1。7×慢速4比弗罗贝纽斯规范更好。然而，结合我们的投影的非欧几里得距离比单纯评估的非欧几里得距离和Frobenius范数快210倍和124倍这将每次培训的时间从几天缩短到6此外，虽然CORAL [8]等无监督方法仅对齐两个协方差（源和目标），但我们最苛刻的监督协议可在866个类这需要对齐2×866个协方差。对于通过JBLD的初始比对，我们需要6天（或更多4天）来完成。使用Nystr o¨ m预测，JBLD需要70小时。5实验下面我们将详细介绍我们的CNN设置，讨论Open MIC数据集和我们的评估。设置. 在训练和测试时，我们分别使用图1a和1c中所示的设置。我们数据集中的图像是纵向或横向的。因此，我们提取每个图像3个正方形补丁，覆盖其整个区域。对于训练，这些补丁是训练数据点。为了测试，我们对来自一组补丁的3个预测进行我们简要比较了VGG16 [14]和GoogLeNet [40]，以及Office和Open MIC子集上的Eucldean，JBLD和AIRM距离表33为了简化符号，表示链式规则中乘法的求和4对于CPU，因为CUDA BLAS中的大型矩阵（d≥2048）的SVD接近于难以处理。10P. Koniusz，Y.Tas，H.Zhang，M.哈兰迪F.Porikli和R.张所以JBLDAIRMsp1 55.8 57.757.2sp2 58.9 58.958.9sp3 69.6 71.471.4sp4 53.8 五十七点七五十七点七sp5 58.3 60.460.4根据59.3 61.261.1VGG16和GoogLeNet产生类似的分数，而JBLD和AIRM击败了欧氏距离。因此，我们在下文中采用VGG16和JBLD。参数这两个流都在ImageNet上进行了预训练[3]。我们在每个流的全连接层和最后两个卷积层两个流的微调需要30我们将τ设为2的平均值在ImageNet上采样的fc个特征向量的范数和超平面接近度η= 1。Z（X）的逆=（XTX）−0。5XT和矩阵Σ和Σ*在对角线上被1 e-6正则化。最后，我们将σ1和σ2设置在0.005-办公室它有DSLR，Amazon和Webcam域名。为了简洁起见，我们检查我们的管道是否匹配亚马逊网络摄像头域转移（A W）文献中的结果打开麦克风。建议的数据集包含来自10个不同类型的博物馆展览空间的10个不同的源-目标图像子集，如图所示2和3;见[41]。其中包括深圳博物馆的绘画作品、故宫博物院的钟表馆、印度和中国雕塑、襄阳科学博物馆的欧洲玻璃艺术、湖北省博物馆的文物藏品、上海自然博物馆的自然、古代动植物、陕西历史博物馆的综合性历史文化展品，克利夫兰艺术博物馆的雕塑、陶器和铜人，檀香山艺术博物馆的土著艺术。对于目标数据，我们用图像中可见的艺术作品的标签来注释每个图像。可穿戴相机被设置为每10秒捕获一个图像，并且在野外操作，例如在野外。志愿者无法控制快门、对焦和居中。因此，我们的数据表现出许多现实的挑战，例如。、传感器噪声、运动模糊、遮挡、背景杂波、变化视点、比例变化、旋转、眩光、透明度、非平面表面、剪切、多个展品、活动光、颜色不稳定、非常大或非常小Shn Clk SclSci GlsRel NatSHXCLV议员总Inst.79 113 4137 98100 1111668140866Src+ 566 413 225 637 601775 763292853111218560Src.417 650 160 391 575587 69526975039707645Tgt+Tgt.515 323 130 1692 964 1229 868 776 682 417404 305 112 1342 863 863 668 546 +307K fr 625 364 +73K fr75966092 +380K fr表2：独特的展示实例（Inst. ）和源中的Open MIC的图像的数量（Src. ）和目标（Tgt. ）子集加背景（Src+）和（Tgt+）。我们也有380K帧（fr）。D表3：基线设置的验证。（左）AlexNet、VGG16和GoogLeNet流上的Office（一个新的域名转移）。我们比较了组合源+目标域（S+T）、基于二阶（So）欧几里德方法[5]和我们的JBLD/AIRM分布的基线微调。（中）最先进的技术。（右）在（Clk）结构域移位和VGG16上打开MIC亚历克斯VGG16谷歌净净S+T82.4 88.66 88.92所以84.589.45JBLD85.6 90.80 91.33AIRM85.2 90.72 91.20DLID [6] 51.9DeCAF6 S+T [38] 80.7[39]第三十九话 53.6来源CNN [7] 56.5目标CNN [7] 80.5来源+目标CNN [7] 82.5OM。会议+软件实验室。[七]《中国日报》82.7博物馆展品识别挑战11仅举几个在图3中可见的现象。关于开放MIC数据集的数字和统计数据在表2中给出。每个子集包含37-和测试分割。总的来说，我们的数据集包含866个独特的展品标签，8560个源（7645个展品和915个背景）和7596个目标（6092个展品和1504个背景，包括一些未识别的展品）图像。基线。我们提供基线，例如（i）在源子集上微调CNN(S) 以及对随机选择的目标分割进行测试，（ii）仅对目标（T）进行微调，并对剩余的不相交目标分裂进行评估，（iii）对源+目标（S+T）进行微调并对剩余的不相交目标分裂进行评估，（iv）训练由我们配备有非欧几里德距离的最先进的域自适应So-HoT算法[5]我们包括评估方案：（i）培训/评估。每个展示子集，（ii）在具有所有866个身份标签的组合集上训练/测试，（iii）测试w.r.t.场景我们注释的因素（第5.2节，挑战III），（iv）无监督域适应。5.1与最新技术水平的比较首先，我们验证了我们的参考方法执行的标准杆或更好的比国家的最先进的方法。表3显示JBLD和AIRM距离比基于欧几里得的So-HoT方法（So）[5]好1。6%（A/CN. D，Office，VGG16），0的情况。9%（Clk、Open MIC、VGG16）和最近的方法，例如”[7]《明史》：“二也。9%的准确度（A D，Office，AlexNet）.我们还观察到GoogLeNet的性能优于基于VGG16的模型0。百分之五在验证了我们的模型之后，我们选择在VGG 16流上评估我们提出的Open MIC数据集，以确保与So-HoT模型的一致性[5]。监督vs无监督域自适应。监督域自适应的目标是每个类使用少量的源和目标训练样本，所有样本都被标记，以模仿人类从非常少的样本中学习的能力相比之下，无监督表4：挑战I. 打开10个子集的MIC性能，用于数据5个分割。基线（S），(T) 和（S+T）以及我们的JBLD方法。我们报告了前1名、前1-5名、前5-1名、前5-5名的准确率和综合得分平均ktop-k-k。详见第5.2节。sp1sp2sp3sp4sp5top-1top-1-5top-5top-5-5平均ktop-k-S T公司简介45.3 45.3 59.060.048.4 52.6 53.762.146.1 52.7 60.464.849.5 50.5 54.864.549.5 57.0 63.469.947.7 51.6 58.364.348.2 54.2 60.266.464.5 68.8 76.981.666.0 73.3 79.584.259.0 63.4 71.076.6S T S+TJBLDS T S + TJBLDS T S+ T公司简介55.851.9 55.8 57.756.5 60.9 65.2 65.259.3 58.9 65.617.6 69.7 73.1 78.655.444.6 50.0 58.944.4 50.0 44.4 50.056.9 57.2 67.115.2 75.5 76.2 76.958.958.9 67.9 71.455.6 38.9 44.469.9 62.0 65.717.0 69.1 72.2 74.051.948.1 46.155.0 55.0 55.058.1 59.2 64.212.2 67.6 69.762.541.7 60.4 60.456.2 56.2 62.5 62.557.3 53.3 61.517.1 69.3 71.7 72.756.956.0 61.253.5 52.2 54.358.5 58.1 64.9 66.815.8 70.2 72.6 74.458.956.3 60.354.7 55.4 57.360.2 61.7 67.8 70.219.4 85.1 86.0 89.076.7 63.8 78.2 86.967.4 66.6 70.083.3 82.7 88.631.1 90.791.077.8 75.0 82.7 91.069.4 69.8 71.1 72.085.6 86.3 89.4 91.342.7 94.5 94.895.869.4 65.6 73.6 81.263.7 62.5 65.1 65.175.3 76.0 80.7 82.531.2 87.9 88.990.5sp1sp2sp3sp4sp5top-1top-1-5top-5top-5-5平均ktop-k-S T公司简介18.5 65.0 63.366.316.5 65.7 63.068.019.1 70.4 67.470.718.3 68.5 62.867.118.1 61.0 59.362.618.1 66.1 63.267.024.0 76.8 73.279.526.2 87.1 85.890.328.7 90.0 89.493.725.2 82.8 80.585.2S T S+TJBLDS T S + TJBLDS T S+ T公司简介38.056.2 52.631.5 58.647.4 65.8 66.2 71.465.6 71.1 70.3 75.839.952.5 52.5 59.631.8 39.8 27.4 47.847.0 70.2 65.1 72.263.9 67.2 70.543.756.2 59.4 59.925.7 47.7 31.249.7 64.1 61.5 67.768.5 70.2 71.8 79.041.859.8 62.0 67.933.0 38.8 26.2 44.748.3 63.0 64.0 68.567.8 63.6 79.3 76.944.662.0 63.0 67.425.7 35.8 28.442.3 62.8 54.1 65.867.5 65.8 75.0 80.041.657.3 57.9 62.729.9 41.1 48.547.0 65.2 62.2 69.166.7 67.6 73.4 77.343.562.8 61.9 67.731.5 47.7 31.950.8 69.5 66.6 73.970.2 70.3 76.3 79.760.6 79.3 75.5 84.351.6 62.5 51.2 75.065.3 84.3 79.9 87.782.1 85.288.365.3 82.8 80.1 87.054.9 67.3 54.8 77.670.5 89.2 84.4 91.088.1 88.8 91.792.755.774.0 72.4 79.645.1 57.161.5 80.6 76.5 83.579.7 81.0 84.5 86.7SHNRelClkNatSCLSHXSciCLVGLS议员12P. Koniusz，Y.Tas，H.Zhang，M.哈兰迪F.Porikli和R.张这种情况下可以使用大量未标记的目标训练样本。我们在没有监督协议的Office-Home数据集[27]上运行了我们的代码我们选择Cl-Ar/Pr-Ar结构域偏移，每类20个源和3个目标训练图像（全部标记），其产生48.1/49.3（So）和49.2/50.5%（JBLD）准确度。使用所有可用目标数据点的无监督方法[27]产生了34.69/29.91%的准确率。5.2开放MIC挑战下面我们将详细介绍我们在Open MIC数据集上面临的挑战，并展示我们的结果。挑战岛下面我们使用每个子集的JBLD距离运行我们的监督域自适应。我们准备了5个培训、验证和测试部分。对于源数据，我们使用每个类可用的所有样本。对于目标数据，我们每个类分别使用3个样本进行训练和验证，其余的用于测试。我们报告前1和前5的准确性。此外，由于我们的目标图像通常包含多个展品，我们问一个问题，前k个预测中的任何一个是否与我们的专家志愿者根据感知的显着性排序的前n个图像标签中的任何一个如果是，我们将其视为正确识别的图像。我们计算这些有效的预测和通过测试图像的总数进行归一化。我们将该测度记为top-k-n，其中k，n∈I~5. 最后，我们指出了一种r- 曲线下类型的度量Av_g_k_top_k_k，其奖励场景中最主要对象的正确识别，并且如果顶部预测

下载后可阅读完整内容，剩余1页未读，立即下载