基于领域注意力的通用目标检测系统

48 浏览量更新于2023-10-17 收藏 1.36MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

7289基于领域注意力王旭东1，蔡兆伟1，高大山2，Nuno Vasconcelos11加州大学圣地亚哥分校212西格玛技术{xuw080，zwcai，nuno}@ ucsd.edu，dgao@12sigma.ai摘要宽面水彩丽莎尽管越来越多的努力，通用表示的视觉识别，很少有人解决了对象检测。在本文中，我们开发了一个有效的和高效的通用目标检测系统，能够在各种图像域，从人脸和交通标志到医学CT图像。与多域模型不同，该通用模型不需要感兴趣的领域的先验知识。这是通过引入一个新的家庭的适应层，基于挤压和激励的原则，和一个新的域注意力机制。在所提出的通用检测器中，所有参数和计算跨域共享，并且单个网络始终处理所有域。在一个新建立的11个不同数据集的通用目标检测基准上的实验表明，所提出的检测器的性能优于一组单独的检测器，多域检测器和基线通用检测器，其参数比单域基线检测器增加1.3倍代码和基准测试可在DotaPascalVOCKITTI剪贴画漫画MS-Coco厨房深部病变http://www.svcl.ucsd.edu/projects/universal-detection/的网站。1. 介绍近年来，目标检测取得了重大进展[11，44，2，26，13，3]，这得益于具有挑战性和多样化的目标检测数据集的可用性，例如 PASCAL VOC [6] ， COCO [27] ， KITTI [9] ，WiderFace [58]等。然而，现有的检测器通常是特定于域的，例如在单个数据集上训练和测试。这部分是由于对象检测数据集是多样的并且它们之间存在非平凡的域移位。如图1所示，检测任务可以根据类别（人脸、马、医学病变等）而变化。相机视点（从飞机、自主车辆等拍摄的图像），图像样式（漫画、剪贴画、水彩、医学）等。一般来说，高检测性能需要专门针对目标数据集的检测器。这给实际应用带来了重大问题，实际应用通常不限于任何一种图1.我们的通用对象检测基准的示例。图1的域。因此，需要能够检测对象而不管收集图像的域的系统。一个简单的解决方案是为每个感兴趣的域设计一个专门的检测器，例如：使用在D个数据集上训练的D个检测器，并在每个时间点加载专用于感兴趣域的检测器。然而，出于两个原因，这可能是不切实际的。首先，在涉及自治系统的大多数应用中，感兴趣的域可以频繁地改变，并且不一定是先验已知的第二，整个模型大小随域D的数量线性增加。最近的一个趋势，被称为通用AI，是要求一个通用模型解决多个任务[21，25，62]，或者在多个领域解决同一任务[40，1]。然而，在这一领域的现有努力主要解决图像分类，很少针对对象检测的问题。事实上，现代对象检测器是复杂的系统，由骨干网络、建议生成器、边界框回归器、分类器等组成，使通用对象检测器的设计7290D3特征提取器A1A2A3特征提取器A1A2A3DA特征提取器DA特征提取器特征提取器特征提取器O1O2O3O1O2O3O1O2O3O1O2O3D1D2D3D1D2D3D1D2D1D2D3(a) 单域检测器组(b) 自适应多域检测器(c) 通用检测器(d) 关注领域的通用检测器图2.三个领域的多领域和通用对象检测器蓝色和DA是域通用的，但其他颜色是域特定的。比通用图像分类器更具挑战性在这项工作中，我们考虑设计一个对象检测器，能在多个域操作。我们首先建立一个新的通用对象检测基准，称为UODB，由11个不同的对象检测数据集组成（见图1）。这比Decathlon [40]多领域识别的基准要更好。据我们所知，我们是第一个使用深度学习攻击通用对象检测的公司我们期望这一新基准将鼓励在这方面作出更多努力。然后，我们提出了一些架构，如图2所示，以解决通用/多域检测问题。图2左边的两个架构是多域检测器，它们需要有关域的先验知识右边的两个架构是单向探测器，不需要这样的知识。当在未知域上操作时，多域检测器必须使用不同的域特定参数集重复推理过程，而通用检测器仅执行一次推理。图2（a）的检测器是一组特定于域的检测器，没有共享参数/计算。多域学习（MDL）[20，35，24，59，19，5]通过在各个域之间共享参数并添加小的特定于域的层来改进这一点。在[40，1]中，昂贵的卷积层被共享并补充了轻量级的域特定自适应层。受这些启发，我们提出了一类新的用于检测的光适配器，其基于[15]的挤压和激发（SE）机制，以及未提及的SE适配器。这导致图2（b）的多域检测器，其中在整个网络中引入特定于域的SE适配器以补偿域偏移。在UODB上，此检测器的性能优于图2(a)参数少了105倍相比之下，图2（c）的通用检测器共享所有参数/计算（除了输出层之外）。ers）跨域。它由一个始终处于活动状态的单一网络组成。就参数共享而言，这是最有效的解决方案，但单个模型很难覆盖具有非平凡域移位的许多域。因此，该解决方案不如图2（b）的多域检测器。为了克服这个问题，我们提出了图2（d）的域关注通用检测器。这利用了一个新的域注意（DA）模块，其中首先添加了一组新的通用SE适配器（始终处于活动状态），然后引入了基于特征的注意机制以实现域敏感性。该模块通过通用SE适配器库学习将网络激活分配给不同的域，并通过域注意机制对它们的响应进行软路由。这使得适配器能够专门针对各个领域。由于该过程是数据驱动的，因此域的数量不必与数据集的数量相匹配，并且数据集可以跨越多个域。这允许网络利用跨域的共享知识，这在常见的单域检测器中不可用。我们在新建立的UODB上的实验表明，这种数据驱动形式的参数/计算共享能够实现比图2的其余架构更好的多域检测性能。2. 相关工作目标检测：R-CNN [12]，Fast R-CNN [11]和Faster R-CNN [44]检测器的两阶段检测框架近年来取得了巨大成功。许多作品都扩展了这个基础架构。例如，MS-CNN[2]和FPN [26]建立了一个特征金字塔来有效地检测各种尺度的对象; R-FCN [4]提出了一种位置敏感的池化，以实现进一步的加速; Cascade R-CNN [3]引入了一种多级级联，用于高质量的对象检测。与此同时，单级物体探测器，如YOLO [42]和SSD [29]，因其相当好的性能和较高的探测效率而受到欢迎。7291速度然而，这些检测器中没有一个可以在没有微调的情况下在多个数据集/域上达到高检测性能。在前深度学习时代，[23]提出了一个通用的检测器[8]，通过将数据集特殊偏差添加到检测器。但这种解决方案是有限的，因为它不能与深度学习检测器相比。多任务学习：多任务学习（MTL）研究如何将多个任务作为一个输入域同时进行联合学习。各种多任务网络[25，62，13，28，50，63]已经被提出用于诸如对象识别、对象检测、分割、边缘检测、人体姿势、深度、动作识别等任务的联合解决方案，通过利用跨任务的信息共享。然而，共享并不总是有益的，有时会损害性能[7，22]。为了解决这个问题，[32]提出了一个十字绣单元，它结合了不同类型的任务，消除了在每个任务的基础上搜索多个架构的需要。[62]研究了几种不同任务的共同结构和关系。多领域学习/适应：多域学习（MDL）解决了先验已知的多个域的表示的学习[20，36]。它使用一个参数的组合，共享跨做-电源和特定于域的参数。后者是自适应参数，受到域自适应工作的启发[38，30，46，31]，其中从源域学习的模型适用于目标域。[1]表明，多域学习是可行的，只需将特定于域的BN层添加到共享网络中。[40]通过残余适配器学习了多个视觉域，而[41]则根据经验研究了有效的参数化。然而，由于检测器训练的批量约束，它们建立在BN层上并且不适合检测。相反，我们提出了一种替代的SE适配器，灵感来自注意模块：[49]提出了一个用于机器翻译的自注意模块，类似地，[51]提出了一个用于视频分类的非本地网络，基于时空依赖/注意机制。 [15]关于改变nel关系，引入SE模块自适应地重新校准通道特征响应，在ImageNet识别上取得了良好的效果。在这项工作中，我们引入了一个域注意模块的启发SE使数据驱动的域分配的网络激活，更具有挑战性的问题，通用对象检测。3. 多域目标检测多域目标检测问题是在不同的域上检测目标。3.1. 通用对象检测基准为了训练和评估通用/多领域目标检测系统，我们建立了一个新的通用目标检测系统，11个数据集的保护基准（UODB）：Pascal VOC [6]，WiderFace [58]，KITTI [9]，LISA [33]，DOTA [53]，COCO[27]，水彩画，剪贴画，漫画，厨房[17[10]和深病变[55]。该集合包括流行的VOC [6]和COCO [27]，由日常对象的图像组成，例如：自行车、人类、动物等。这20个VOC类别在CrossDomain[ 17 ]上被复制，其中包括水彩、剪贴画和漫画三个子集，分别以水彩、剪贴画和漫画风格描绘对象。Kitchen [10]由手持Kinect收集的常见厨房物品组成，而WiderFace [58]包含在网络上收集的人脸KITTI [9]和LISA [33]都描绘了交通场景，用安装在移动车辆上的摄像机收集。KITTI涵盖车辆、行人和骑自行车者的类别，而LISA则由交通标志组成。DOTA [53]是一个监视风格的数据集，包含车辆，飞机，船舶，港口等对象。从航空摄影机拍摄的照片最后，DeepLesion [55]是医学CT图像上的病变数据集。每个数据集的代表性示例如图1所示。表1总结了更多详细信息。总之，UODB涵盖了类别，相机视图，图像风格等方面的广泛变化，从而为通用/多域目标检测的评估建立了良好的套件。3.2. 单域检测器组Faster R-CNN [44]被用作本工作中提出的所有检测器的基线架构。作为单域对象检测器，Faster R-CNN分两个阶段实现。首先，区域建议网络（RPN）产生初步的类不可知检测假设。第二阶段使用感兴趣区域检测网络处理这些数据，以输出最终检测结果。如图2（a）所示，多域检测的最简单解决方案是每个数据集使用独立的检测器。我们使用该检测器库作为多域检测基线。这种解决方案是最昂贵的，因为它意味着复制所有检测器的所有参数。图3显示了相应数据集上11个检测器的卷积激活的统计数据（均值和方差）可以提出一些意见。首先，这些统计数据在数据集之间的差异很大。虽然VOC和COCO的激活分布相似，但DOTA、DeepLesion和CrossDomain具有相对不同的分布。其次，统计数据在网络层之间存在差异早期各层的差异比后期各层的差异更明显，早期各层对主成分偏移的校正作用更大这往往会保持到输出层。它们负责将图像分配到不同的类别，并且自然会有所不同。有趣的是，这种行为也适用于RPN层，即使它们是独立于类别的。第三，许多层在数据集之间具有相似的统计数据。这对于中间层尤其如此，表明7292X残余C × H × WC × 1 × 1C× 1RC× 1RC × 1C × 1 × 1比例C × H × W~X乙状FCReLUFC全球集中共用X残余C × H × WC × 1 × 1全球集中共用C× 1FCRFC足球俱乐部RC × 1C× 1ReLUReLUFC FC FCC × 1 × 1乙状比例C × H × W~X(a) SE适配器（b）SE适配器组图4.（a）SE适配器框图和（b）SE适配器组。图3.所有单域检测器的激活统计它们可以被至少一些域共享。3.3. 自适应多域检测器受图3的启发，我们提出了一种自适应多域检测器，如图2（b）所示。在此模型中，输出和RPN层是特定于域的。网络的剩余部分，例如，所有卷积层都是共享的。然而，为了适应新的领域，我们引入了一些额外的特定领域层，如MDL [40，1]中所做的那样这些额外的层应该1）足够强大以补偿域偏移; 2）尽可能轻，以最小化参数/计算。[40，1]的适配层广泛依赖于BN。这对于检测是不可行的，其中BN层必须被冷冻，这是由于检测器训练所允许的小批量。相反，我们已经用图4（a）的挤压和激发（SE）模块[15]进行了实验。有有几个原因。首先，众所周知，基于特征的注意力在哺乳动物视觉中用作一种机制，以使感知适应不同的任务和环境[61，37，52，18，60]。因此，将基于特征的注意机制用于领域自适应似乎是很自然的。第二，SE是一个模块，它负责通道之间的相互依赖性，以调制通道响应。这可以被看作是一种基于特征的注意力机制。第三，SE模块使SENet能够在ImageNet上实现最先进的分类最后，它是一个轻量级模块。即使加入到每一个残基中-ResNet [14]的ual块，它只增加了10%的总这接近于[40]对基于BN的适配器的报告。由于这些原因，我们采用SE模块作为原子适配单元，用于构造了本文提出的所有域自适应检测器，并将其表示为SE适配器。3.4. SE适配器在[15]之后，SE适配器由图4（a）的操作序列组成：全局池化层，全连接（FC）层，ReLU层和第二个FC层，实现计算XSE=FSE（Favg（X）），（1）其中Favg是全局平均池化算子，FSE是FC+ReLU+FC层的组合。在我们的实验中，图4中的通道尺寸减小因子r被设置为16。为了实现多域对象检测，SE适配器被推广到图4（b）的架构，其被表示为SE适配器库。这包括每个域添加一个SE适配器分支和一个域交换机，这允许选择与感兴趣的域相关联的SE适配器请注意，此架构假定此域是先验已知的。它导致图2（b）的多域检测器。与图2（a）相比，该模型最多小5倍，同时在11个数据集上实现了更好的整体性能。4. 通用目标检测前一节的检测器需要感兴趣域的这对于自主系统（如机器人或自动驾驶汽车）来说是不可取的，因为确定域是要解决的问题的一部分。在本节中，我们考虑通用检测器的设计，它消除了这个问题。4.1. 通用检测器通用检测的最简单解决方案，如图2（c）所示，是所有任务共享一个检测器。请注意，即使对于这个检测器，输出层也必须是特定于任务的，通过定义检测问题。我们发现，由于图3的观察结果，使用特定于任务的RPN层也有好处。这不是一个阶段1至阶段4RPN第五阶段层索引方差是说7293SESE适配器1自适应C × 1C × 1× 1重新校准频道关注N × 1域分配SE适配器2C × NC × 1×矩阵乘法C × 1 × 1频道关注通用SE适配器组SE适配器NC × 1域敏感通道注意C × 1 × 1C × 1 × 1频道关注跳过连接C × H × W×按通道乘法C × H × W自适应再校准全局平均池化全局平均池化concatenate自适应再校准全局平均池化领域注意X残余C × H × WC × 1 × 1全球集中共用Cr× 1FC FC FCCr× 1ReLUReLUReLUC × 1FCFCFC全球集中共用C × 1C × NConcatenateFCN × 1C × 1 × 1规模SoftmaxN × 1域分配C × 1 × 1乙状比例C × H × W~X图5.建议的域自适应模块的框图（左）和详细视图（右）问题，因为任务，即系统试图检测什么类，总是已知的普遍性是指检测器处理的输入图像的域，适配器库是通用的。这是通过协调各个域适配器的输出以形成通用表示空间来实现的在图2（c）的情况下不必知道。是-X1 2N C×N尽管不通用，但完全共享检测器是本工作中考虑的所有检测器中最有效的，因为它没有特定于域的参数。另一方面，通过在所有域上强制相同的参数/表示集，它几乎不具有处理图3的统计变化的灵活性。在我们的实验中，该检测器通常表现不如图2（a）和（b）的多域检测器。4.2. 关注领域的通用检测器理想情况下，通用检测器应该具有一定的域敏感性，并且能够适应不同的域。虽然这与多域检测有很多共同之处，但有两个主要区别。首先，必须自动推断域第二，不需要绑定域和任务。例如，图1的交通任务在公共视觉域“交通场景”上操作，其可以具有许多子域，例如：由于天气条件（阳光明媚，雨天），环境（城市与农村）等。根据具体的操作条件，任何任务都可能必须在任何域中解决。事实上，域甚至可能没有明确的语义，即，它们可以是数据驱动的。在这种情况下，不需要要求每个检测器在单个域上操作，并且软域分配更有意义。考虑到所有这些，虽然域适配仍然可以用图4（a）的SE适配器来实现，但是图4（b）的强制网络完全关注单个域的硬关注机制可能是次优的。为了解决这些问题，我们建议USE=[XSE，XSE，...， XSE] ∈ R，（2）其中N是适配器的数量，X是每个适配器的输出，由（1）给出。注意，N不一定与检测任务的数量相同。USE适配器组可以被视为信号处理中常用的滤波器组的非线性推广[48]。每个分支（非线性地）沿着与特定域的统计相匹配的子空间投影输入。然后，注意力组件产生一组对领域敏感的权重，用于以数据驱动的方式组合这些预测。在这种情况下，不需要预先知道操作域。事实上，甚至可能没有单个域，因为输入图像可以激励多个SE适配器分支。4.4.域名关注图5中的注意力组件产生一组对域敏感的权重，用于组合SE银行预测。受SE模块的启发，域注意力组件首先对输入特征图应用全局池化，以去除空间维度，然后应用softmax层（线性层加softmax函数）SDA=FDA（X）=softmax（WDAFavg（X）），（3）其中WDA∈RN×C是softmax层权重的矩阵。向量SDA然后用于加权USE组输出XUSE，以产生域自适应响应的向量图5的域自适应（DA）模块。这两个组件，一个通用SE适配器组和一个域XDA =X使用 SDA ∈RC×1。（四）注意力机制，接下来讨论。如在[15]的SE模块中，XDA最终用于按通道重新缩放被适配的激活X∈RC×H×W4.3.通用SE适配器组通用SE（使用）适配器组，如图X=Fscale（X，σ（XDA））（5）图5是类似于图4（b）的SE适配器组。主要区别在于没有域切换，即的其中，Fscale（·）实现通道乘法，σ是S形函数。7294Params时间KITTI VOC WiderFace LISA厨房Avg单域31.06M×55x64.378.548.888.387.773.5自适应42.37M6x67.878.949.988.586.074.2BNA [1]31.72M5x64.071.944.066.884.366.2RA [40]82.72M6x64.370.546.969.184.667.1普遍31.64M1x66.376.745.588.485.472.5universal+DA†42.37M1.3x67.579.049.888.288.074.6通用+DA42.44M1.33x67.979.252.287.588.575.1表1.数据集细节、特定于域的超参数和单域检测器的性能。“T/V/T” means train/val/test, “size” the shortest side of inputs,以这种方式，USE库捕获由所有数据集跨越的域的特征这两个操作都是数据驱动的，并且在没有域的先验知识的情况下操作与图4（b）的硬注意力机制不同，该DA模块使跨域的信息共享成为可能，从而导致更有效的表示。在我们的实验中，域关注通用检测器优于图2的其他检测器。5. 实验在所有的实验中，我们都使用了PyTorch实现[57] Faster R-CNN的SE-ResNet-50 [15]在ImageNet上预训练，作为所有检测器的骨干。训练开始于8个同步GPU上的10个时期的学习率为0.01，另外2个时期的学习率为0.001，每个GPU每次迭代保存2个图像。批次的所有样本来自单个（随机采样）数据集，并且在每个时期中，每个数据集的所有样本仅被处理一次。与检测常见的一样，第一个卷积层，第一个残差块和所有BN层在训练期间被冻结。除非另有说明，否则在所有实验中使用这些设置同时对感兴趣的所有领域进行了多域和通用更快的R-CNN有许多超参数。在文献中，在单个域上测试检测器，这些被调整到目标数据集，以获得最佳性能。这是困难的，而且非常乏味，在现在考虑的11个数据集上做我们在数据集之间使用相同的超参数，除非这对性能至关重要并且相对容易做到，例如。锚的选择。表1中显示了主要的特定于以太网的超参数。5.1. 数据集和评估我们的实验使用了第3.1节中介绍的新UODB基准。[17]第十七章：一个人的世界表 2. 多域检测的比较。 † 表示固定分配。 “time” is therelatively run-times on the ﬁve datasets when the domain is[17]，厨房[10]和DeepLesion [55]，我们在官方训练集上训练并在测试集上测试对于Pascal VOC [6]，我们在VOC 2007和VOC 2012训练集上进行了训练，并在VOC 2007 测试集上进行了测试。对于 WiderFace[58]，我们在训练集上训练并在val集上测试对于KITTI [9]，我们遵循[2]的train/val分割进行开发，并在trainval集上进行训练，以获得测试集上的最终结果。对于LISA [33]，我们在训练集上进行训练，并在val集上进行测试。对于DOTA [53]，我们遵循[53]的预处理，在训练集上训练并在val集上测试。对于MS-COCO [27]，我们在COCO 2014valminusminival上进行了培训，并在minival上进行了测试，以缩短实验周期。所有检测器都在每个数据集上进行了评估，盟友在所有情况下，均使用Pascal VOC平均精密度（mAP）进行评价。平均mAP用作通用/多域检测性能的总体测量。还使用每个数据集的官方评估工具对域关注通用检测器进行了评估，以与文献进行比较。5.2. 单域检测表1示出了图2（a）的单域检测器组对所有数据集的结果。我们使用SE-ResNet-50的 VOC基线为78.5，优于[45，14]的 Faster表中的其他条目与文献不可比，其中不同的评价指标/工具用于不同的数据集。检测器组是多域检测的相当强的基线（平均mAP为59.4）。5.3. 多域检测表2比较了图2的所有架构的多域对象检测性能。对于单纯的-事实上，本节仅使用了五个数据集（VOC、KITTI、WiderFace、LISA和Kitchen）。该表确认，第3.3节（然而，它的性能比昂贵得多的单域检测器组高出0.7个点。请注意，后者是一个强大的基础-线，示出了多域检测器可以用一小部分计算击败单独训练的模型。Ta-数据集数据集详细信息超参数地图类T/V/T域大小BSROIsS/RKITTI37k/-/7k交通57625612812/364.3宽面113K/3K/16K脸80025625612/148.9VOC208K/8K/5K自然6002562564/378.5丽莎48k/-/2k交通80064324/388.3Dota1514k/5k/10k空中60012812812/357.5Coco8035k/5k/-自然8002562564/347.3水彩61k/-/1k水彩6002562564/352.4剪贴画60.5k/-/0.5k剪贴画6002562564/332.1漫画201k/-/1k漫画6002562564/345.8厨房115k/-/2k室内80025625612/387.7深部病变123k/5k/5k医疗5121286412/351.37295#适配器ParamsDA指数KITTIVOC 宽面LISA厨房 Coco DOTA DeepLesion漫画剪贴画水彩Avg单域-31.06M×11-64.378.548.888.387.747.357.551.245.832.152.659.4普遍-32.60M-67.580.945.587.188.545.554.745.351.143.147.059.7自适应1158.13M-68.082.150.688.587.245.754.153.050.056.157.863.0通用+DA1158.29M所有68.182.051.688.390.146.557.057.350.753.158.463.8通用+DA*641.74M第一个+中间67.682.751.887.988.746.857.054.852.654.658.263.9表3.完整通用对象检测基准测试的总体结果（11个数据集）。#适配器ParamsKITTIVOC宽面丽莎厨房Avg单个31.06M×564.378.548.888.387.773.5132.32M66.374.943.587.485.471.3337.38M67.878.447.187.789.074.1542.44M67.979.252.287.588.575.1747.50M67.979.652.289.588.775.6表4.SE适配器数量的影响表2还表明，所提出的SE适配器显著优于[1]的BN适配器（BNA）和先前提出的分类的残余适配器（RA）或[40]考虑到BN作为对象检测的自适应机制的上述不足，这并不奇怪图2（c）的通用检测器甚至更有效，仅向Faster R-CNN添加了0.5M参数，考虑了特定于域的RPN和输出层。然而，其性能（最后，关注领域的普遍性检测器（“通用+DA”）具有最佳性能。每个域的参数增加1.7%，即与多域检测器相比，它的性能比单域库基线高1.6个点。评估…的重要性在图5（b）的数据驱动域注意机制中，我们固定了软域分配，简单地在训练和推断期间平均SE适配器响应。这（表示为最后，表2显示了相对于当域未知时，五个数据集上所有方法的有效运行时间。可以看出，域“嗯”。5.4. SE适配器对于图5（b）的USE组，SE适配器的数量N不必与检测任务的数量匹配。表4总结了主注意通用检测器的性能如何取决于N。为了简单起见，我们在这个实验中再次使用5个数据集。对于单个适配器，DA模块简化为标准SE模块，域关注通用检测器简化为通用检测器。这是性能最差的。性能随着适配器数量的增加而提高。另一方面，参数的数量随着适配器的数量线性增加。在这些实验中，性能和参数之间的最佳折衷是大约5个适配器。图6.所有数据集的SE单位之间的软分配。这表明，虽然一个好的经验法则是使用5.5. 完整基准测试的结果表3显示了完整基准测试的结果。设置如上所述，但我们使用了10个学习率为0.1的epoch通用检测器的性能与单域检测器组相当，参数少10倍域关注的通用检测器（它在DeepLesion、Comic和Clipart上有很大的性能提升（>5分）。这是因为Comic/Clipart包含填充不足的类，大大受益于其他领域的信息。考虑到其医学CT图像与其他数据集的RGB图像之间的非平凡域移位， DeepLesion 的大增益是非常有趣的。 VOC 、KITTI、Kitchen、WiderFace和水彩（1- 5分），没有COCO，LISA和DOTA。相比之下，对于通用探测器，联合训练并不总是有益的。这表明了灵敏度对于通用检测的重要性。为了研究图5（b）的领域注意力模块学到了什么，我们在图6中显示了每个数据集的软分配，在其验证集上取平均值。仅第4和第5残差的第一个和最后一个块7296骨干地图[44]第四十四话ResNet-10176.4R-FCN [4]ResNet-5077.0[45]第四十五话VGG1678.8Faster-RCNN（我们的）SE-ResNet-5078.5Faster-RCNN+DASE-ResNet-5079.6Faster-RCNN+DA†SE-ResNet-5082.7骨干灵敏度[44]第四十四话VGG-1681.62R-FCN [4]VGG-1682.213-DCE，9切片[54]VGG-1684.343-DCE，27切片[54]VGG-1685.65Faster-RCNN（我们的）SE-ResNet-5082.44Faster-RCNN+DASE-ResNet-5087.29骨干容易介质硬[44]第四十四话VGG-160.9070.8500.492美国有线电视新闻网[2]VGG-160.9160.9030.802[第16话]ResNet-1010.9250.9100.806[第34话]VGG-160.9310.9210.845Faster-RCNN（我们的）SE-ResNet-500.9100.8720.556(a) VOC 2007测试结果对比。/†表示COCOtrainval/val。(b) 宽面Val.(c) 在DeepLe- sion测试集上，每幅图像的灵敏度为4 FP。骨干剪贴画水彩漫画ADDA [47]VGG-1627.4 49.849.8[44]第四十四话VGG-1626.2--SSD300 [29]VGG-1626.8 49.624.9Faster-RCNN+DT+PL[17]VGG-1634.9--SSD300+DT+PL[17]VGG-1646.0 54.337.2Faster-RCNN（我们的）SE-ResNet-5032.1 52.645.8Faster-RCNN+DASE-ResNet-5054.6 58.252.6骨干中度容易硬[44]第四十四话VGG-1681.8486.7171.12SDP+CRC [56]VGG-1683.5390.3371.13[43]第四十三话暗网-5384.1384.3076.34美国有线电视新闻网[2]VGG-1688.8390.4674.76F-PointNet [39]PointNet90.0090.7880.80Faster-RCNN（我们的）SE-ResNet-5081.8390.3471.23(d) Clipart、Watercolor和Comic测试集的比较。（e）与KITTI汽车试验台的比较。表5.与Pascal VOC、KITTI、DeepLesion、Clipart、Watercorlor、Comic和WiderFace的官方评价比较阶段显示。事实上，一些数据集，例如。VOC和COCO具有非常相似的分配分布，表明存在大量的域重叠。另一方面，DOTA和DeepLesion的分布与其余的非常不同。例如，在块“DA 4 1”上这些观察结果与图3一致，表明所提出的DA模块能够学习特定领域的知识。每个残差级的第一块和最后一块的比较，例如：“DA 4 1”与“DA 4 6”，表明后者比前者对域的敏感性低得多，这表明它们可以通用。为了验证这一假设，我们训练了一个模型，其中只有6个SE适配器用于11个数据集，并且只在第一个和中间的块中，例如该模型“universal+DA*"比11个适配器的“universal+DA”检测器以少得多的参数实现了最佳性能。它比单域基线高出4.5分。5.6. 官方评价据我们所知，这是第一个在11个数据集上探索通用/多域对象检测的工作，因此没有直接比较的文献。相反，我们使用每个数据集的官方评价将表3的“通用+DA*”检测器与文献进行了比较这是一个不公平的比较，因为通用检测器必须记住11项任务。在VOC上，我们训练了两个模型，有/没有COCO。结果如表5a所示，其中所有方法都在Pascal VOC 07+12trainval上进行了培训。请注意，我们的Faster R-CNN基线（SE-ResNet-50主干）比[14]（ResNet- 101）更强。添加通用域适配器在基线上提高了1.1个百分点以上。加上COCO，又增加了3.1分。注意：（1）这种普遍的训练不同于[ 45 ]的训练方案（在COCO上训练的网络，然后在VOC上进行微调），其中最终模型仅针对VOC进行优化;（2）只有35 K的IM-使用COCO 2014valminusminival。基线是默认的Faster R-CNN，它最初在VOC上工作，具有最小的特定于网络的变化，例如在表1中。表5e显示，这在KITTI上表现较弱。然而，添加适配器后，获得了6.4分（中等设置）。这与在KITTI上明确优化的检测器相当，例如。MS-CNN [2]和F-PointNet [39]。对于具有足够训练面部实例的WiderFace，共享知识的增益较小（参见表5b）。另一方面，在DeepLesion和CrossDomain（Clipart、Comic和Water-color）上，分别参见表5c和5d，域attentive通用检测器的性能显著优于最新技术水平。总的来说，这些结果表明，在11个数据集上操作的单个检测器在高度研究的数据集（例如VOC或KITTI）中与单域检测器竞争，并且在较少探索的领域中明显优于最新技术。这是通过相对较小的参数增加来实现的，远远小于部署11个单任务探测器所需的参数。6. 结论我们研究了通用/多域对象检测的未探索和具有挑战性的问题。我们提出了一个通用的检测器，不需要事先的领域知识，由一个单一的网络，是活跃的所有任务。所提出的检测器通过一种新的数据驱动的域自适应模块实现域灵敏度，并在新建立的基准上表现出优于多个通用/多域检测器，甚至是针对单个任务优化的单个检测器。鸣谢这项工作的部分资金来自NSF奖项IIS-1546305和IIS-1637941、12 Sigma Technologies赠送的礼物以及NVIDIA GPU捐赠。7297引用[1] Hakan Bilen和Andrea Vedaldi。通用表示法：面孔、文字、浮游生物和猫品种之间缺失的一环。arXiv预印本arXiv：1701.07275，2017。[2] Zhaowei Cai，Quanfu Fan，Rogerio S Feris，and NunoVas-concelos.统一的多尺度深度卷积神经网络，用于快速目标检测。ECCV，第354-370页，2016年。[3] 赵伟蔡和努诺·瓦斯康塞洛斯。Cascade R-CNN：深入研究高质量的对象检测。在CVPR，2018年。[4] 戴纪峰，易力，何开明，孙建。R-fcn：通过基于区域的全卷积网络的目标检测。NeurIPS，第379-387页，2016年[5] 马克·德雷兹亚历克斯·库勒萨和科比·克莱默通过置信加权参数组合的多域学习。Machine Learning，79（1-2）：123[6] Mark Everingham 、 SM Ali Eslami 、 Luc Van Gool 、Christo-pherKIWilliams 、 JohnWinn 和 AndrewZisserman 。 Pascal Visual Object Classes Challenge ： ARetrospective.International Journal of Computer Vision，111（1）：98[7] TheodorosEvgeniou ， CharlesAMicchelli ， andMassimil- iano Pontil.使用内核方法学习多个任务。Journal of Machine Learning Research，6（Apr）：615-637，2005。[8] Pedro F Felzenszwalb 、 Ross B Girshick 、 DavidMcAllester和Deva Ramanan。使用区分性训练的基于部分的模型进行对象检测。IEEE Transactions on PatternAnalysis and Machine Intelligence，32（9）：1627[9] Andreas Geiger，Philip Lenz，and Raquel Urtasun.我们准备好自动驾驶了吗？ Kitti Vision 基准套件。在CVPR，第3354-3361页[10] Georgios Georgakis 、 Md Alimoor Reza 、 ArsalanMousavian、Phi-Hung Le和Jana Kosecka。用于对象实例检测的多视图 rgb-d 数据集 arXiv 预印本 arXiv ：1609.0782

下载后可阅读完整内容，剩余1页未读，立即下载