深入理解共显著对象检测与挑战：CoSOD3k数据集和前沿算法研究

175 浏览量更新于2023-10-23 收藏 1.7MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2919深入了解共显著对象检测范登平1，2，郑林1，季戈鹏3，张定文4，傅华柱2，程明明1，1南开大学计算机科学学院TKLNDST2人工智能3武汉大学计算机学院4西安电子科技（* 平等捐款）http://dpfan.net/CoSOD3k/(a)（b）（c）（d）图1：不同的显着对象检测（SOD）任务。(a)传统SOD [75]. (b)图像内共同显着对象检测（CoSOD）[89]，其中从单个图像中检测到共同的显着对象（c）现有CoSOD，其中根据具有相似外观的一对[51]或一组[81]图像检测显著对象。(d)建议的CoSOD在野外，这需要大量的语义上下文，使其比现有的CoSOD更具挑战性摘要共显对象检测（CoSOD）是显着对象检测（SOD）的一个新兴分支，其目标是检测多幅图像中然而，现有的CoSOD数据集往往有一个严重的数据偏差，它假设每组图像包含相似的视觉外观的显着对象。这种偏差导致了理想的设置，并且在现有数据集上训练的模型的有效性在现实生活中可能会受到损害，其中相似性通常是语义或概念。为了解决这个问题，我们首先收集了一个新的高质量数据集，名为CoSOD3k，其中包含3，316张图像，分为160组，具有多级注释，即、类别、边界框、对象和实例级别。CoSOD3k在多样性、难度和可扩展性方面实现了重大飞跃，使相关视觉任务受益。此外，我们还全面总结了34种前沿算法，对其中 19 种算法在四个现有 CoSOD 数据集（MSRC，iCoSeg，Image Pair和CoSal2015）和我们的CoSOD3k上进行了基准测试，总共有1.61万张图像（最大规模），并报告了组级性能分析。最后讨论了CoSOD面临的挑战和未来的工作。我们的研究将有力地促进CoSOD社区的发展。基准工具箱和结果可以在我们的项目页面上找到。1. 介绍RGB显著对象检测（SOD）[6，18，46，90]，RGB- D SOD [22，25，98，103]和视频SOD [23]已经被在过去的十年里，计算机视觉界的一个活跃的[29，49，71，101]研究领域。SOD模仿人类视觉系统从单个图像中检测最引人注目的对象，如图所示。第1（ a ）段。作为其中的一个分支，共显对象检测（CoSOD）是近年来出现的一种基于图像集的检测方法，受到了越来越多的关注。2）由于其在集合感知作物[34]、共分割[77]、弱监督学习[100]、图像检索[11]、图像质量评估[78]和视频前景检测[24]等方面的应用价值。CoSOD的目标是提取图像中常见的显著对象，例如图1中的红衣足球运动员或蓝衣体操运动员。1（b和&c）。为了解决这个问题，目前的模型往往只关注对象之间的外观相似性。然而，这会导致数据选择偏差，并且并不总是合适的，因为在现实生活中的应用中，一组图像中的显著对象通常在纹理，颜色，场景和背景方面有所不同（参见图中的 CoSOD3k数据集）。（1）即使它们属于同一类别。为了更深入地了解CoSOD，我们将三个不同的图像GT2920斧蝶图2：来自CoSOD3k数据集的样本图像。它有丰富的注释，即。、图像级类别（顶部）、边界框、对象级蒙版、实例级蒙版。我们的CoSOD 3k将为CoSOD任务提供坚实的基础，并使广泛的相关领域受益，例如、联合分割、弱监督定位。详见补充资料。放大以获得最佳视野。捐款：• 首先，我们构建了一个具有挑战性的CoSOD3k数据集，具有更真实的设置。我们的CoSOD 3 k是迄今为止最大的CoSOD数据集，有两个方面：1）它包含13个超类、160个组、3,316个图像，每个超类都经过精心挑选，涵盖了不同的场景; 2）每个图像都有类别、边界框、对象级和实例级注释，有利于各种视觉任务，如图所示。二、• 其次，我们提出了第一个大规模的共同显着对象检测研究，回顾了34个最先进的（SOTA）模型，在四个现有的CoSOD数据集[4，51，81，93]上评估了其中的19个，以及拟议的CoSOD3k。提供了一个方便的基准工具箱，以集成各种公开可用的CoSOD数据集和多种CoSOD指标，从而实现方便的性能评估。• 最后，基于我们的综合评价结果，我们观察到一些有趣的发现，并讨论了未来研究的几个重要问题。我们的研究是促进大规模模型开发和比较的潜在催化剂。2. 相关工作数据集。目前，只有少数CoSOD数据集被提出[4，11，51，81，89，93]，如表1所示。1.一、[2019- 05-15][2019 - 05]MSRC是为从图像中识别对象类而设计的，在过去的几年里激发了许多有趣的想法。该数据集包括8个图像组和总共240个图像，具有手动注释的像素级地面实况数据。Image Pair由Li等人 [51]引入，是专门为图像对设计的，包含210个图像数据集年份#Gp #Img #平均值IL Ceg BBx HQ输入MSRC[81]2005 8 240 30组图像iCoSeg[4]2010 38 643 17C组图片[51]第五十一话2011 105 210 2两个图像[11]第十一话2014年5 15k 3k组图像[93]第二十三话 2,015年50 2，015 40C组图片WICOS[89]2018 364 364 1C单个图像CoSOD3k（我们的）2020年160 3，316 21C CCC组图片表1：现有CoSOD数据集和拟议CoSOD3k的统计数据，显示CoSOD3k提供更高质量和更丰富的注释。#Gp：图像组的数量。#Img：图像数量。#Avg：每组的平均图像数。HQ：高质量注释。IL：是否提供实例级注释。Ceg：是否为每个组提供类别标签。BBx：是否为每个图像提供边界框标签。(105组），共。iCoSeg[4]数据集于2010年发布。这是一个相对较大的数据集，包括38个类别，总共643张图像。该数据集中的每个图像组包含4到42个图像，而不是像图像对数据集中那样仅包含 2 个图像。THUR15K[11]和CoSal2015[93]是两个大规模的公开数据集，CoSal2015被广泛用于评估CoSOD算法。与上述数据集不同，WICOS[89]数据集旨在从单个图像中检测共显对象，其中每个图像可以被视为一组。尽管上述数据集在不同程度上推进在这样的小规模数据集上，方法的可扩展性无法完全评估。此外，这些数据集只提供对象级别的标签。它们中没有一个提供丰富的注释，如类别、边界框、实例等，这对于进行许多视觉任务和多任务建模是罚款共分割例如对象粗协同定位框图像29211 WPL [34]2PCSD [10]3IPCS [51]4CBCS [24]UIST 2010形态学、平移对齐ICIP 2010 120，000 8*8图像补丁稀疏特征[30]，滤波器组UWTIP 2011 Ncut，多层共板TIP 2013对比度/空间/对应提示U JU5 MI [50]6CSHS [59]7[第54话]TMM 2013功能/图像金字塔，多尺度投票U JGCutSPL 2013分层分割，轮廓图[3][64]第64话：我的世界，我的世界[64]UJU8 BR [7]9 SACS [8][92]第92话[94]第94届中国国际音乐节[96]第96届中国国际音乐节[79]第79话：我的世界14[第87话]15UMLF [27][53]第53话17DWSI [89]18[33]第三十三话[31]第31话[105]第105话：我爱你[73]第二十三话[35]第三十五话23 QGF [36][70]第70话：我的世界[65]第65届中国国际航空航天博览会[80]第80话我的世界27[44]第四十四话1个月[74]29[37]第三十七话30[45]第31话：我的世界[99]第99届中国国际音乐节[32]第三十二话DeepCO[43]第四十三话MM 2014通用/中心提示，全球通信U JTIP 2014自适应权重，低秩矩阵U JTNNLS 2015 1，000 + 9，963ASD [1]+ PVSDAE模型[92]，造影/对象先验S JIJCV 2016 ImageNet [16] pre-train SermaNet [67]，RBM [5]，IMC，IGS，IGCWJ JTPAMI 2017 （240+643）*10%MSRC-V1 [81] + iCoseg [4]SPL [97]，SVM，GIST [69]，CNN [9]W J[55]第68话：我的世界，我的世界，我的世界STIP 2017 LBP，SIFT [61]，CH，二分图J JTCSVT 2017 (240+ 2015年）*50%[86]第的世界，我的世界，我的世界S JBMVC 201810，000 +M10 K [12] + THUR-15 K [11]+ DOCAE，HSR，多级6 232 + 5 168SAAAI 2018 EdgeBox [106]，低秩矩阵，CHSJECCV 2018 ImageNet [16]预训练ResNet-50 [28]，图形优化W JCRFIJCAI 2018 ImageNet [16]预训练ResNet-50 [28]，共同注意力损失WJCRFMM 2018 ImageNet [16]预训练DHS [56]/VGGNet，Graph optimizationW JTIP 2018能源最小化，BoWU JTIP 201810，000 +210 M10K [12]+IPCS [51]+DeepLab，图形表示[94]第81话：我的世界，我的世界S JTMM 2018 ImageNet [16]预训练密集对应，质量度量S J推力NC 2019 643 iCoseg [4] GoogLeNet [72]，FSMS JNC 2019 3624CoSal2015 + PV + CRVGGNet16 [68]S JTIP 2019> 200，000 MSCOCO [55] VGGNet16 [68]，分组功能S JIJCAI 2019> 200，000MSCOCO [55] + COS + iCoseg [4]VGGNet16 [68]，循环单位+ [81]第94话：我的世界S推力AAAI 2019 200，000 COCO-SEG [74] VGGNet 19 [68]，Co-category分类SICME 2019图卷积网络[42]S JMM 2019 N/A N/A VGGNet16，PiCANet [57]，Inter-/Intra-graphS JMM 2019 N/A N/A VAE-Net [41]，分层一致性S J JCRFCVPR 2019 25，00 MB [58] VGGNet16 [68]，共享超像素功能S JCVPR 2019 10，000 M10 K [12] SVFSal [95] / VGGNet [68]，共峰搜索WJICCV 2019> 200，000 MSCOCO [55] VGGNet19 [68]，RNN，分组损失S推力表2：34种经典和尖端CoSOD方法的总结。训练集：PV = PASCAL VOC 07 [17]。CR = Coseg-Rep [15]。DO = DUT-OMRON[86]. COS = COCO子集。主要成分：IMC =图像内对比度。IGS：组内分离。IGC：组内一致性。SPL：自主学习。CH：颜色直方图。GMR：Graph-based Manifold Ranking。卷积自动编码器。HSR：高空间分辨率。FSM：CBCS [24]、RC [12]、DCL[49]、RFCN [76]、DWSI [89]等五种显著性模型SL. =监督级别。W =弱监督。S =监督。U =无监督。标准：是否使用超像素技术。Po.：是否使用建议算法。编辑：是否明确使用边缘特征。职位：是否引入后处理方法，例如CRF、GraphCut（GCut）或自适应/恒定阈值（THR）。表示深度模型。关于这些模型的更多细节可以在两篇调查论文中找到[14，91]。传统方法。先前的CoSOD研究[8，27，51，73]已经发现，可以通过将输入图像分割成许多计算单元（例如，、超像素区域[102]或像素簇[24]）。在最近的评论中可以找到类似的观察结果[14，91]。在这些方法中，启发式特征（例如，轮廓[59]、颜色、亮度），并捕捉高级特征以不同方式表达语义属性，例如通过度量学习[27]或自适应加权[8]。几项研究还研究了如何通过各种计算机制捕获图像间约束，例如平移对齐[34]、有效流形排名[54]和全局对应[7]。一些方法（例如，PCSD [10]，其仅使用滤波器组技术）甚至不需要执行两个输入图像之间的对应匹配，并且能够在集中注意力发生之前实现CoSOD。深度学习方法深度CoSOD模型通常通过联合学习共同显着的对象表示来实现良好的性能更具体地说，Zhang等人。 [92]引入了一个域自适应模型来传递CoSOD的先验知识。Wei等人。 [79]在协作学习框架中，使用组输入和输出来发现组和单个图像特征表示之间的协作和交互关系。沿着另一条线，MVSRCC [87]模型采用典型特征，如SIFT，LBP和颜色直方图，作为多视图特征。此外，其他几种方法[31，32，35，70，74，80，99]基于更强大的CNN模型（例如，，ResNet[28] ， Res2Net [26] ， GoogLeNet [72] ， VGGNet[68]），实现SOTA性能。这些深度模型通常通过弱监督（例如，， CODW [94] ， SP-MIL [96] ， GONet[33]，FASS [105]）或完全监督学习（例如，，DIM[92]，GD [79]，DML [53]）。传统模型和基于深度学习的模型的总结列于表1中二、#模型出版社年份#培训训练集主要成分SL. Sp. Po. 艾德·波斯特2922（一）0.90.80.70.60.50.40.30.20.13020100平均值：0.1380500100015002000250030003500400045005000(b)（c）第（1）款平均值：21（d）其他事项图3：拟议的CoSOD3k数据集的统计数据。(a)我们数据集的分类结构。(b)实例大小的分布。(c)CoSOD3k数据集的单词云（d）49种动物类别的图像数量最好在屏幕上查看并放大以了解详细信息。3. 申报CoSOD3k数据集。3.1. 图像采集我们构建了一个高质量的数据集CoSOD3k，其图像是从大规模对象识别数据集ILSVRC [66]中收集的。使用ILSVRC生成我们的数据集有几个好处。ILSVRC是通过场景级查询从Flickr中收集的，因此它包含了各种对象类别、各种真实场景和不同对象外观，涵盖了CoSOD中的主要挑战，为我们构建CoSOD的代表性基准数据集更重要的是，每个目标对象类别的轴对齐边界框允许我们识别明确的实例级注释。3.2. 数据注释类似于[21，63]，数据注释是以分层（从粗到细）的方式执行的（见图2）。2）。分类标签。我们为CoSOD 3k数据集建立了一个层次（三级）分类系统。选择160个常见类别以生成子类（例如，、蚂蚁、无花果、小提琴、火车等），一致的ILSVRC中的原始类别。然后，为每个子类分配上层类（中层）。最后，我们将上层类整合为13个超类。我们的CoSOD 3k的分类结构在图中给出。第3（a）段。边界框标签。第二层是包围盒，广泛应用于目标检测和定位.虽然ILSVRC数据集支持-vides边界框注释，标记的对象不一定是显著的。根据许多著名的SOD数据集[1，2，12，39，47，48，58，62，75，83，85]，我们要求三个观众在每个图像中重新绘制物体周围的边界框，这些边界框主导了他们的注意力。然后，我们合并由三个观众标记的边界框，并让CoSOD领域的两名高级研究人员仔细检查注释。之后，如[40]中所做的那样，我们丢弃包含超过六个对象的图像，以及仅包含背景的图像。最后，我们收集了160个类别的3，316个图像。对象/实例级注释。高质量的像素级掩模是Co-SOD数据集所必需的。我们聘请了20名专业的注释员，并用100个图像示例对他们进行然后，他们被指示根据前面的边界框用对象和实例级别的标签来注释图像。对于对象级和实例级标记，每个图像的平均注释时间分别约为8分钟和15分钟。不仅如此，我们还有三名志愿者对整个过程进行三重以上的交叉检查，确保标注的高质量。通过这种方式，我们获得了一个准确且具有挑战性的数据集，共有3，316个对象级和4，915个实例级显着对象注释。请注意，我们的最终边界框标签是基于像素级注释进一步细化的，以收紧目标。3.3. 数据集特征和统计信息为了更深入地了解我们的CoSOD 3k，我们在下面介绍了它的几个重要特性。CCooSSOaDl33kk蚁羚羊犰狳熊蜂鸟奶油驼牛蜈蚣狗国内_猫龙大象狐蛙大熊猫金鱼仓鼠马等足类水母考拉熊瓢虫狮子蜥蜴龙虾猴子水獭人豪猪兔子黄纹红熊猫蝎海豹绵羊臭鼬蜗牛蛇松鼠海星猪蜱老虎乌龟鲸鱼斑马2923KNDK度量PCSD[10个国家]中央名册[八十八]ESMG[五十四]CBCS[24日]IPCs[五十一]囊[八]《中国日报》UMLF[27日]CSHS[59个]HCNco[60个]昏暗[92]第二章EGNet[104]第二章CPD[82]第二章CSMG[99]第一章Sα ↑.401.656.664.685.747.775.810.810.838.729.842.879.902Fβ ↑.378.652.651.800.786.837.870.856.867.867.835.880.925E ↑.598.762.767.856.848.887.898.899.896.905.887.917.952M ↓.242.226.198.152.168.169.163.148.073.256.076.054.067表3：13种CoSOD方法在Image Pair [ 51 ]数据集上的基准测试结果。为了简化，我们使用↑和↓分别表示更大和更小更好。前三名的表演用红色、绿色和蓝色突出显示。CoSOD3k实例大小。大型（>30%）中型小型（5%）实例数12≥3图像数量439317313032371 644 334表4：拟议的CoSOD3k数据集中的实例大小和数量的统计。图4：CoSOD3k的混合特定类别掩码和总体类别掩码的重叠掩码的可视化。混合特定类别掩码。图4示出了单个类别和总体类别的平均地面实况掩码。可以观察到，一些具有独特形状的类别（例如，飞机、斑马和自行车）可以呈现形状偏置图，而具有非刚性或凸形状（例如，金鱼、鸟和公共汽车）可能没有明显的形状偏差。整体类别掩码（图的左侧）。（4）呈现中心偏置图，不存在形状偏置，符合显著物体的作用。当然-4. 基准实验4.1. 实验设置评估指标。为了提供全面的评估，两个广泛使用的指标：最大F-测度（F β）[1]、MAE（M）[13]和最近提出的两种测度：S-测度（S α）[19]、最大E-测度（E β）[20]适用于多幅图像中CoSOD性能的评估。设D={G1，. . .，Gi，. . .，G q}表示具有q个图像组的整个数据集，并且I i是第k个im。众所周知，人类通常倾向于更多地关注图像组G i={I i，. - 是的- 是的，I i，. -是的- 是的，我我{\fn方正粗倩简体\fs12\b1\bord1\shad1\3cH2F2F2F}Ni是1kNi在拍摄照片时，将镜头对准场景的中心这是很容易的。当在其算法中采用高斯函数时，SOD模型获得高分由于篇幅所限，我们将160种混合物专用类别的面具Gi中的图像的数量。ND是总数量，在整个数据集中的图像的BERD. 每个指标∈ {S α，E5& TA B。（3）整个数据集。数据集上的平均度量补充材料。D定义为Q（D）=1Qi=1Nik=1 （I i）. 到足够的对象多样性。如Tab.所示。6（第二行）和图。3（c），我们的CoSOD3k涵盖了一个大型的超级集，课程包括蔬菜，食品，水果，工具，必需品，提供对算法性能的深入了解在组水平测试中，我们还提供了组平均得分，如T（G）=1Ni（Ii）.尼日k=1k交通，化妆品，球，仪器，厨房用具，动物(Fig.3d）和其他，使得能够全面了解真实世界场景。大小的。实例大小被定义为前景实例像素与总图像像素的比率。选项卡. 4总结了我们的CoSOD3k中的实例大小。分布（图） 3 b）的实例大小为0。02%，86。5%（平均值：13.8%），产生了广泛的范围。实例数。能够将对象解析为实例对于人类理解、分类和与世界交互至关重要。为了使学习方法能够获得实例级的理解，具有实例标签的注释是非常需要的。考虑到这一点，与以前的CoSOD数据集相比，我们的CoSOD3k包含具有实例级注释的如表1所示。4，实例数（1，2，≥3）的比例为7：2：1。竞争对手在这项研究中，我们评估/比较了19种SOTACoSOD模型，包括10种传统方法[8，10，24，27，51，52，54，59，60，88]和9个深度学习模型[33，65，82、92、94、96、97、99、104]。方法的选择基于两个标准：（1）代表性，和（2）发布代码。基准协议。我们评估了四个现有的CoSOD数据集，即。， Image Pair[51] ， MSRC[81] ， iCoSeg[4] ，CoSal2015[93]和我们的CoSOD3k。总共有363组，约61K图像，使其成为最大和最全面的基准。为了公平起见，我们直接使用默认设置（例如，，PCSD [10]，IPCS [51]，CSHS [59]，CBCS [24]，[52]、欧洲安全监测组[54]、南部非洲控制系统[8]、联合国难民事务高级专员办事处[88]、人道主义协调委员会-飞机斑马自行车金鱼鸟总线CoSOD3k2924Nco [60]，UMLF [27]，CPD [82]，EGNet [104]）或使用作者提供的CoSOD图（例如，，IML [65]，CODW[94]，GONet [33]，SP-MIL [96]，CSMG [99]）。2925iCoSeg CoSal2015MSRC度量CBCS ESMG RFPR CSHS[24][52][59]第二届世界杯足球赛囊 UMLF编码器[27]第28届世界杯足球赛昏暗[92]第二章CODW[94]第94话密耳[97]第97话IML[65]第六十五话GONet[33]第三十三话SP-MIL CSMG[96]第99话CPD[82]第二章EGNet[104]第二章Sα ↑.480.532.644.666.707.754.797.657.713.720.781.795.769.722.714.702Fβ ↑.630.606.696.727.782.776.849.705.784.768.840.846.824.847.762.752E ↑.676.675.746.784.810.822.880.725.820.800.856.863.855.859.795.794M ↓.314.303.302.289.224.198.184.309.264.216.174.179.218.190.173.186Sα ↑.544.552N/A.592.694.689.662.592.648.673-.751N/A.774.814.818Fβ ↑.532.476N/A.564.650.634.690.580.667.620-.740N/A.784.782.786E ↑.656.640N/A.685.749.749.769.695.752.720-.805N/A.842.841.843M ↓.233.247N/A.313.194.204.271.312.274.210-.160N/A.130.098.099Sα ↑.658.728.744.750.752.815.703.758.750.727.832.820.771.821.861.875Fβ ↑.705.685.771.765.770.823.761.797.782.741.846.832.794.850.855.875E ↑.797.784.841.841.817.889.827.864.832.799.895.864.843.889.900.911M ↓.172.157.170.179.154.114.226.179.184.186.104.122.174.106.057.060表5：现有三个经典数据集上16种领先CoSOD方法的基准测试结果[4，81，93]。 “-”表示数据集的整个图像已用作训练集。请注意，UMLF方法采用MSRC和CoSal2015中的一半图像来训练它们的模型。“得分“指示由特定模型（例如，，SP-MIL，UMLF），该模型已经在该数据集上训练过参见Tab。2更多的训练细节（一些方法训练了更多的数据）。4.2. 定量比较图像对上的性能。第一个CoSOD数据集是图像对[51]，如Tab.3 .第三章。Image Pair [51]数据集在每组中只有一对图像，大多数共同显着的对象具有相似的外观。因此，与其他共显对象检测数据集相比，它相对容易，并且前1模型，即，CSMG [99]，获得了很高的性能（Sα>0.9）。在MSRC上的表现。MSRC数据集[81]在每组中有更多的图像。从标签。5，可以观察到UMLF [27]，GONet[33]，IML [65]和SP-MIL [96]是这个数据集上的前4个模型。有趣的是，我们发现所有这些模型都采用超像素方法来推断多个图像的共现区域。这些工作在MSRC数据集上取得了良好的效果，该数据集包含大量具有相似外观的显著对象。然而，它们的性能在 iCoSeg 上急剧下降（例如，，GONet：没有。2 → No. 5）和我们的CoSOD3k作为超像素技术的结果，专注于颜色相似性，因此对语义感知数据集不够鲁棒。iCoSeg上的性能。iCoSeg数据集[4]最初设计用于图像共分割，但广泛用于CoSOD任务。可以在Tab中看到。5、两个SOD模型（EGNet [104]和CPD [82]）达到了最先进的性能。一个可能的原因是iCoSeg数据集包含大量具有单个对象的图像，这些图像可以通过SOD模型容易地检测到。这部分表明iCoSeg数据集可能不适合评估共显对象检测方法。在CoSal2015上的表现。选项卡. 5显示了CoSal2015数据集的评估结果[93]。一个有趣的观察是，前2名的模型仍然是EGNet [104]。和CPD [82]，这与iCoSeg数据集上的模型排名一致。这意味着一些性能最好的显著对象检测框架可能更适合于扩展到CoSOD任务。CoSOD3k的性能。我们的CoSOD 3k的结果见表1。六、为了更深入地了解每组，我们报告了13个超类模型的性能。我们可以观察到，较低的平均分数是实现类，如其他（例如。、婴儿床、铅笔盒）、乐器（例如：钢琴、吉他、大提琴等），必要的（例如，、水罐）、工具（例如，、斧头、钉子、链锯）和球（例如，足球、网球），其在这些真实场景中包含复杂每行的前1名性能（Sα=0.76）清楚地表明，所提出的CoSOD 3k数据集具有挑战性，并为进一步研究留下了充足的空间。请注意，几乎所有基于深度的模型（例如，[2019 - 04 - 19][2019 -04 - 19][2019 - 04][2019 - 04-19][2019 - 04 - 19]形式优于传统方法（CODR [88]，CSHS [59]，CBCS[24]和ESMG [54]），证明了利用深度学习技术解决CoSOD问题的潜在优势。另一个有趣的发现是，边缘特征可以帮助为结果提供良好的边界。例如，传统（ CSHS [59]）和深度学习模型（例如，， EGNet[104]）引入边缘信息以辅助检测。4.3. 定性比较在CoSOD 3k上的10种最先进算法的两个视觉结果如图所示。五、可以看出，SOD模型，例如，，EGNet[104]和CPD [82]，检测所有显著对象，但忽略相应的信息。例如，它的结果香蕉包含其他几个不相关的对象，例如。橘子、菠萝和苹果。类似的情况也发生在马群的图像中，2926#子类4591112104714994917160[ 24 ]第二十四话.512.496.602.523.506.512.505.554.516.505.511.547.498.528[ 59 ]第59话.521.549.635.556.530.574.569.525.535.554.573.592.516.563美国（SPL.488.553.649.517.458.527.484.478.545.492.516.568.486.532[ 88 ]第十八届中国国际音乐节.632.646.696.595.586.649.602.574.576.612.616.682.573.630美国（公告牌成人另类歌曲榜.593.626.663.538.534.569.530.515.540.528.545.577.517.559[ 27]第二十七话.711.689.697.534.648.669.615.567.559.671.634.667.559.632美国（公告牌百强单曲榜.767.693.763.671.680.762.691.664.655.727.688.791.623.720加拿大（公告牌加拿大百强单曲榜.645.774.756.612.666.770.632.714.612.751.725.780.617.711美国（公告牌百强单曲榜.769.732.788.705.733.824.719.676.611.796.745.846.649.757[ 104 ]第104话：我爱你.795.746.792.712.740.809.728.683.621.800.742.850.659.762平均.643.650.704.596.608.667.608.595.577.644.630.690.570.639表6：我们的CoSOD 3k上的每个超类平均性能（Sα）。蔬菜蔬菜，妮斯。=必要的，Traf。=交通，Cosm。= 化妆品，Inst.=仪器，Kitch。=厨房用具，电气 =电子，动画。动物，Oth。其他。 “全部”是指整个数据集的分数。我们只评估10个最先进的模型，这些模型发布了它们的代码。请注意，CPD和EGNet是socbenchmark（http：//dpfan.net/socbenchmark）中的前2个SOD模型。栅栏（第二图像）和骑手（第一和第四图像）与马一起被检测。另一方面，CoSOD方法，例如，，CSMG[99]，可以识别常见的显着对象，但不能产生准确的预测地图，特别是在对象边界。基于上述观察，我们得出结论，CoSOD仍然远未解决，后续模型仍有5. 讨论从评价中可以看出，在大多数情况下，目前的SOD方法（例如，，EGNet [104]和CPD [82]）可以获得比CoSOD方法（例如，，CSMG [99]和SP-MIL [96]）。然而，这并不意味着当前的数据集不够复杂，直接使用SOD方法来获得良好的性能-CoSOD数据集上的SOD方法的性能实际上低于SOD数据集上的性能，例如HKU-IS [48]（EGNet的Fβ= 0.937）和ECSSD [85]（EG的Fβ= 0.943Net [104]）。相反，这是因为CoSOD中的许多问题仍在研究中，这使得现有的CoSOD模型不太有效。在本节中，我们讨论了四个重要问题，这些问题尚未被现有的共显对象检测方法完全解决，应该在未来进行研究。可扩展性。可扩展性问题是设计CoSOD算法需要考虑的最重要的问题之一。具体而言，它表明了CoSOD模型处理大规模图像场景的能力。CoSOD的一个关键特性是模型需要考虑每个组的多个图像。然而，实际上，图像组可能包含许多相关图像。在这种情况下，不考虑可扩展性问题的方法将具有巨大的计算成本和运行时间，这在实践中是不可接受的。因此，如何解决可伸缩性问题成为该领域的关键问题，特别是当将CoSOD方法应用于实际应用。稳定另一个重要问题是稳定性问题。当处理包含多个图像的图像组时，一些现有的方法（例如，，HCNco[60]，PCSD [10]，IPCS [51]）将图像组划分为图像对或图像子组（例如，，GD [79]）。另一个方法学派采用基于RNN的模型（例如，，GWD [43]），其需要分配输入图像的顺序所有这些策略都会使整个过程不稳定，因为没有原则的方法来划分图像组或分配相关图像的输入顺序。这也将影响CoSOD方法的应用。兼容性. 将SOD引入CoSOD是构建CoSOD框架的一种直接而有效的策略。然而，大多数现有的工作只是介绍SOD模型的结果或特征作为有用的信息线索。利用SOD技术的另一个步骤是将基于CNN的SOD网络与CoSOD模型相结合，为CoSOD构建统一的端到端可训练框架。为了实现这一目标，需要考虑CoSOD框架的兼容性，使其便于集成现有的SOD技术。指标. 根据CoSOD设计了CoSOD的评价指标，即：计算平均值SOD的得分。与SOD相比，CoSOD涉及到图像间共显对象的关系信息，这对CoSOD评价更为重要，也带来了更多的挑战。例如，当前CoSOD度量假设目标对象在所有图像中具有相似的大小。对于不同图像中不同大小的目标，CoSOD度量（Sα，Eβ，Fβ，Min Sec. 4）喜欢大物件。此外，目前的CoSOD指标是偏见的目标检测性能在单一的图像，而不是识别相应的目标在多个图像。因此，如何为CoSOD设计合适的指标是一个悬而未决的问题。蔬菜食品水果工具不Traf CosmBall Inst.基奇电机股份动画。Oth 所有2927香蕉马图5：CoSOD 3k上现有的前10个模型的定性示例。补充材料中有更多的例子。6. 结论在本文中，我们提出了一个完整的调查共显对象检测（CoSOD）。通过识别严重的数据偏倚，即假设每组图像包含具有相似视觉外观的显著对象，在当前CoSOD数据集中，我们构建了一个新的高质量数据集，称为CoSOD3k，其包含在语义或概念水平上具有相似性的共同显著对象。值得注意的是，CoSOD3k是迄今为止最具挑战性的CoSOD数据集，它包含160个组，总共3，316个图像，使用类别，边界框，对象级和实例级注释进行注释。它在多样性、难度和可扩展性方面实现了重大飞跃，有利于相关的视觉任务，例如：，联合分割，弱监督定位、实例级检测等方面的研究，对这些研究领域的未来发展具有重要意义。此外，本文还提供了一个全面的研究，总结了34个前沿算法，基准测试其中19个在四个现有的数据集以及拟议的CoSOD 3k数据集。基于评估结果，我们提供了有见地的讨论在CoSOD研究领域的核心我们希望这项工作中提出的研究将有力地推动CoSOD社区的发展。在未来，我们计划增加数据集的规模，以激发新的想法。致谢。这研究是支持通过新一代人工智能重大项目。2018AAA0100400，国家自然科学基金（61922046），天津自然科学基金（17JCJQJC 43700）。ESMGCBCSCSHS昏暗UMLF编码器CSMGIMLEGNetCPDGT图像2928引用[1] RadhakrishnaAchanta ， Sheila Hemami ， FranciscoEstrada和 SabineSüsstrunk。频率调谐凸极区检测。在 IEEECVPR，第1597-1604页[2] Sharon Alpert，Meirav Galun，Ronen Basri，和AchiBrandt.基于概率自底向上聚类和线索整合的图像分割在IEEE CVPR，2007年。[3] 巴勃罗·阿贝莱斯，迈克尔·梅尔，查利斯·福克斯，还有吉坦德拉·马利克.轮廓检测与分层图像分割。IEEETPAMI，33（5）

下载后可阅读完整内容，剩余1页未读，立即下载