交互式多类微小目标检测

182 浏览量更新于2023-10-25 收藏 1.9MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

14136交互式多类微小目标检测Chunggi Lee Seonwook Park Heon Song JeongunRyuSanghoonKim HaejoonKim Se'r gioPereira DonggeunYoo卢尼特公司{cglee，spark，heon.song，rjw0205，seiker，oceanjoon，sergio，dgyoo}@ lunit.ioC3Det检测许多对象，注释者单击一些实例和类不同的类，即使是注释器没有指定的类注释器单击上一步检测到更多对象最终，检测到再点击几下图1.C3Det是一个用于交互式微小对象检测的深度学习框架，它将多个注释器点击与多个实例和多个对象类（每个对象类用不同的颜色描绘）相关联，以降低整体注释成本。摘要在给定图像中注释数十或数百个微小物体是费力的，但对于许多计算机视觉任务来说至关重要。这样的图像通常包含来自各种类别的对象，但迄今为止尚未探索用于检测任务的多类别交互式注释设置。为了满足这些需求，我们提出了一种新的交互式注释方法，用于多个类中微小对象的多个实例我们的方法，C3Det，涉及完整的图像上下文与注释器输入在本地和全球的方式，通过后期融合和功能相关，分别。我们在Tiny-DOTA和LCell数据集上使用两阶段和一阶段对象检测架构进行实验，我们的方法优于现有的方法在交互式注释，achieev- ing更高的mAP与更少的点击。此外，我们在用户研究中验证了我们的方法的注释效率，与手动注释相比，它的速度快2.85倍，仅产生0.36倍的任务负载（NASA-TLX，越低越好）该代码可在https：//github上获得。com/ChungYi347/Interactive-Multi-Class-Tiny-Object-Detection.1. 介绍大规模数据和注释对于成功的深度学习至关重要[22]。然而，在许多现实世界的问题中，注释是非常劳动密集型的，并且获取成本很高[8]。当处理大量微小物体时，例如在远程传感器中，注释成本会增加得更高。ing [7，15，33]、极端天气研究[24]和显微镜图像分析[12，16]。这些设置通常需要高技能的注释者和相应的高报酬。例如，计算病理学中的细胞注释需要专家医师（病理学家），其培训涉及数年的临床住院医师[3，31]。降低这些注释器的成本和工作量将直接使新的大规模微小对象数据集的收集成为可能，并有助于提高模型性能。已经提出了几个先前的工作，以减少在其他任务中的注释成本。交互式分割方法[23，35]专注于减少单个前景对象分割中的交互数量然而，微小对象注释可以受益于“许多交互到许多实例”的方法，因为一个图像可以包含许多实例。对象计数方法[4，26]从几次用户点击中计算多个实例，并遵循然而，这些方法仅突出显示与被计数的对象相同的类的对象，因此可以被分类为“一个类对一个类”方法。然而，含有微小目标的图像通常由多类目标组成。因此，tiny-object注释应该实现“多个类到多个类”的方法。为了满足上述需求，我们提出了C3Det，一个有效的交互式注释框架，微小对象检测。图1显示了用户如何与C3Det交互，从多个类中创建许多微小对象的边界框。一旦用户点击了几个对象并提供了它们的类信息，C3Det就将这些作为输入14137××地面实况晚期融合我们图2.用户输入的全局上下文很重要。“ 后期融合”不考虑全局上下文，可能会错过很远的对象(red虚线）从用户输入（标记为圆圈）。C3Det可以很好地捕捉全局上下文，并且可以检测到远处的对象。并且检测许多对象的边界框，甚至包括用户没有指定的对象类。用户重复该过程，直到注释完成。C3Det以“多个交互到多个实例”和“多个类到多个类”的方式利用用户输入，我们的方法的一个关键方面是在使每个用户点击的影响对象附近（本地上下文），以及远离（全球范围内）。为了鼓励注释器指定的类与模型预测一致，我们在模型的中间阶段（后期融合）插入用户输入（以热图形式），并在用户输入和模型预测之间应用类一致性仅这一点就可以很好地捕获本地上下文，但可能会错过远处的对象。因此，我们引入了C3（类排序的Cor-关系）模块，这是一种新颖的特征相关方案，可以将本地信息传递给远处的对象（见图2），使我们能够在保留类信息的同时学习多对多实例关系。通过大量的实验，我们证明了这些组件的组合，导致显着的性能改善.为了验证我们的性能改进是否转化为现实世界中更低的注释成本，我们对10名人类注释者进行了用户研究我们的方法，C3Det，当结合进一步的手动边界框校正，被证明是2.85快，产量只有0.36任务负载（NASA-TLX）相比，手动注释，实现相同的，甚至更好的注释质量，根据地面实况测量。这验证了C3Det不仅在模拟实验中表现出改进，而且在现实世界中降低了注释成本。总的来说，我们作出以下贡献：(a) 提出了一种多类多实例交互标注的方法，并给出了训练数据的合成和评价过程。在此设置期间，（c）我们提出了一种用于交互式微小对象检测的新颖体系结构，其考虑了所提供的用户输入的局部和全局含义，并且最后（d）我们的实验结果和用户研究验证了我们的方法在实现高注释质量的同时降低了注释成本。2. 相关工作在本节中，我们将讨论以前尝试降低注释成本的工作我们的方法和以前的方法之间的广泛差异总结在表1中。1.一、交互式目标检测交互式检测中最早的工作[36]在许多图像样本上递增地训练霍夫森林，逐渐减少假阳性和阴性。这种方法被证明是有效的注释细胞图像和行人图像，其中通常有不超过20个实例，从一个单一的类。虽然[36]采用5个或更多图像的增量学习，但我们基于CNN的模型可以立即应用于新样本，并处理更多对象。密切相关的是弱监督对象检测器（WSOD），它采用点输入[6，28]来建立点和对象之间的一对一对应关系然而，这与我们的设置不同，因为这些WSOD不学习点和对象之间的多对多对应关系，并且不产生交互式检测器。交互式对象计数。这类似于我们的微小物体设置，因为图像中的许多微小物体都被计数。早期的工作[4]学习每像素的脊回归以适应用户提供的点注释，并对指定对象类的实例进行计数。最近，在[26]中，目标类的一些框注释作为用户输入被转发到计数模型。不过，这些计算工作考虑的是罪恶的实例-14138.Σ.Σk定义2D位置，并且KKKK通过将以upos为中心的2D高斯分布与预定义的{}。Σ方法类数注释班级间关系实例数注释交互到实例关系输出[36]第三十六话11比1许多many-to-manybboxes交互式计数[4，26]11比1许多many-to-many位置交互式分割[23，35]11比11多对一轮廓我们许多many-to-many许多many-to-manybboxes表1.当考虑用户交互（通常是点的点击）和注释对象之间的关系，我们解决了gle对象类，而C3Det检测来自多个类的对象，包括用户单击未显式指定的对象。此外，我们的方法估计了所有对象的精确边界框，而[26]输出所谓的密度图。交互式对象分割。在此设置中，用户在图像上标记几个点以产生分割一个单一的前景物体。最早的方法[5]应用图切割，使用能量最小化方法基于强度变化分离前景和背景线索，产生最佳对象边界。GrabCut [29]不需要许多示例笔划来指示前景与背景，而只需要在对象上基于学习的方法首先在[35]中介绍，其中用户提供一些积极和消极的点击来进行对象分割。通过引入训练样本合成方法将问题集形式化，然后进行后续工作[1，9，14，17，20，21，30，37]。C3Det类似于这些基于学习的方法，因为我们也从边界框注释中合成用户输入以进行训练，但在以下两种方式上有所不同首先，对于每个用户输入，C3Det同时注释来自多个类的多个对象，而这些方法注释单个对象。第二，C3Det认为本地-全局关系，以检测对象远离用户3. 概述在我们深入描述我们的方法的细节之前，我们简要地介绍了我们在构建C3Det框架时所做的更广泛的决定我们所有的决定都是基于注释方法，通过以交互速率操作1.为了进一步减少所需的交互次数，我们设计了两种策略。首先，与边界框输入相比，我们选择接收用户输入作为点位置（通过鼠标点击）以及对象类。这允许注释者简单地点击一个微小的对象并指定其类，但在C3Det的输出中产生完整的边界框。其次，我们决定抢先检测尚未被注释器选择的类中的对象。这允许注释者只关注注释系统所犯的错误。结合以下章节中描述的贡献，我们提出了一个有意义的解决方案，以问题的交互式多类微小目标检测设置。4. 方法在本节中，我们将描述所提出的方法。首先，我们介绍了C3Det的整体架构。接下来，我们描述了多类和多实例交互式对象检测的训练数据合成过程。最后，我们描述了 C3Det 的每个组件：后期融合模块（LF）、类间整理相关模块（C3）和用户输入强制损失（UEL）。4.1. 网络架构C3Det检测由一些用户输入引导的给定图像中的对象，并输出边界框和尽可能多的对象的类，包括那些未由这些输入指定的对象。我们将输入图像表示为I，并且将用户输入的数量表示为K。每个用户输入被表示为u_pos，u_cls，其中k是K K用户输入的索引，uposucls∈K微小物体检测的站成本这可以通过减少注释时间和从注释器请求的交互数量来实现我们的C3Det框架解决并改进了这些方面。一个快速响应的系统既改善了注释，1 .一、. . C是对象类。在推理时，upos，ucls由用户提供，而在训练和验证时，它遵循所选择的地面实况边界框的中心点和类。在将用户输入传递给模型之前，我们先转换每个输入upos，u cls作为热图时间和用户体验。从公升中汲取灵感深度交互式分割[35]的本质，我们训练了一个卷积神经网络（CNN），它只需要在测试时进行简单的与增量学习方法相比，这具有速度优势[36]。我们稍后将在SEC中展示。6，我们的CNN为基础的系统减少注释时间显着时，与一个完全手动K标准差σ热图。输入图像I首先通过CNN特征提取器转发以产生特征图FI。单独地，用户输入热图，U1. K被传递到LF和C3模块，它们以局部和全局方式利用用户输入，1C3Det响应在我们的用户研究GUI上只需几秒钟。一个简单的（但重要的）目标：减少现实世界的年，14139晚期融合（LF）联系我们U1.K分类整理相关性（C3）3特征提取器日本语简体中文检测头U⊕ΣΣKKKK分别这些模块的输出，FLF和FC3，然后在传递到下一层之前被连接到F I（参见图2）。（3）第三章。由于C3Det只修改主干网络的输出例如，在Faster R-CNN [27]和Reti- naNet [19]的情况下，级联输出是传递给区域提案网络（RPN）和用户输入强制损失（UEL）分类法和箱回归法。4.1.1训练数据合成在训练过程中，我们根据地面实况注释模拟用户输入。首先，我们从均匀分布N u中随机抽取目标数量的用户输入[0，20]。当我们定义均匀分布时，为了仅扩展到20，可以根据需要调整该超参数。然后，我们从地面实况采样K=min（Nu，Na）对象（没有替换），其中Na表示当前样本的可用对象的数量。然后将对象中心和类索引作为用户输入传递到C3Det。4.1.2晚期融合模块（LF）当将用户输入热图合并到网络时，交互式分割中的两种常见方法是早期融合[14，30，34，35]和后期融合方法[2，25，37]。早期融合方法将用户输入的热图连接到输入图像，而后期融合方法将用户输入的热图注入到网络中的中间层图3. 整体架构。用户输入在局部（通过后期融合）和全局（通过类排序相关）上下文尺度下被处理和考虑，以用于多类多实例交互式微小对象检测。“远离用户输入必须以不同的方式受到影响。最近，在[26]中，FI和用户输入相关特征之间的相关操作被用来提高对象计数性能，使用一些样本来计数给定图像中尽可能多的相似对象。类似地，我们建议基于用户输入从F I提取模板特征，与FI进行相关（参见图2）。4），并逐类合并相关图。对于每个提供的用户输入热图Uk2，我们执行下面为了获得Tk（i）=FI（i，x，y）Uk（x，y），（1）x为oh其中i是指信道索引，并且x、y是FI和Uk中的列和行索引。然后可以如下使用该模板向量来生成相关图Mk，有[37]或没有[2，25]用CNN层处理热图。先前的见解表明，后期融合优于早期融合[25，37]，我们发现这也是Mk（x，y）=Tk我（i）FI（i，x，y）。（二）交互式微小物体检测的案例。处理不同数量的用户输入，而main-一旦计算出K个相关图，我们就基于ucls通过元素级max将它们按类通过给定输入的类信息，我们将K个用户按类别输入热图，然后对每个组应用逐像素最大运算以产生C个热图。对于没有为对象类提供输入的情况，我们简单地传递一个用零填充的热图。热图被传递到LF模块（基于CNN的特征提取器，例如ResNet-18），其输出特征图FLF。LF模块处理这些热图时，全局池化，并且因此不丢失任何空间信息。对于用户输入u_pos周围的局部区域，预测对象因此，我们可以将LF模块视为考虑用户输入的局部上下文4.1.3分类整理相关模块（C3）虽然理解本地上下文可以帮助预测用户输入附近的对象的正确类，但对象操作定义如下，FC3（c，x，y）= max{Mk（x，y）|u cls= c，<$k∈ [K]}，（3）其中c是指类别索引。没有任何关联用户输入的类简单地由一个填充零的映射表示。这种减少使我们能够产生C相关图，并将其传递到下一阶段，而不管提供了我们将这种方法描述为一种相关然后整理的方法，其中每个用户输入都是独立处理的。一个直观的替代方法是先整理后关联的方法，其中用户输入的热图首先按类组合，以每个对象类执行一次关联操作。校对然后相关的替代方案对于用户输入的选择可能更鲁棒，但也假设2热图通常被调整大小以匹配FI的大小，并且被归一化以使得其总和为1。14140KJJ×cls（jk）Σ⨂普惠制克带广播的逐元素相关运算KI克什蒂尔克��表2.Tiny-DOTA和LCell之间的统计比较Tiny-DOTA报告的补丁数量在图4. 生成相关图的过程。基于用户输入从特征图提取模板向量在模板向量和特征图之间计算相关性图GSP代表每个对象类可以由单个特征表示来描述。在我们的消融研究中（见图8c），我们表明相关然后整理的方法表现更好，因此选择它来定义我们的C3模块。由C3模块执行的显式相关操作允许跨整个图像比较局部特征。这将用户输入对模型预测的影响扩展到LF模块的考虑之外。换句话说，我们可以将C3模块视为通过学习多对多实例关系来考虑用户输入的全局上下文的4.1.4用户输入强制损失（UEL）当用户指定某个对象属于某个类时，C3Det应在其预测中反映该类。因此，我们建议通过用户输入强制损失来在用户输入和模型预测之间应用训练时间一致性损失，该用户输入强制损失强制类一致性。对于每个模拟的用户输入（upos，ucls），我们检索如第2节所述，对原始图像进行细分。第5.1条LCell包含更高的平均每片对象数。DOTA数据集[32，33]，我们的方法也应该适用于其他对象检测架构3。此外，我们提出了消融研究，以验证我们的模块的有效性。关于我们模型的实现细节，请参见我们的补充资料。5.1. 数据集Tiny-DOTA DOTA数据集[11，33]由航空图像组成，包括各种微小（例如车辆和船只）和较大的物体（例如足球场和球场）。在处理微小物体检测的[32]之后，我们过滤掉DOTA v2.0数据集中的较大物体，产生8个微小物体类。此外，我们的过程需要频繁查询测试集地面实况（用于验证时用户输入合成），但原始DOTA测试集的标签并不公开。因此，我们将原始数据集分为训练，验证和测试子集（70%/10%/20%分割）用于我们的实验。我们将这个数据集命名为Tiny-DOTA4。在[33]之后，我们从修改后的数据集中生成一系列1024 × 1024像素的补丁，步幅为512像素，并训练我们的K K关联的地面实况边界框ybbox。我们来-将这些地面实况对象中的每一个与所有J个预测对象（由j∈ {1. . . J}）。每个预测由边界框和类组成。为了计算损失，我们检查每个输入预测对之间的非零交集（IoU），并应用类一致性损失。全部损失的公式为，LUEL=1IoU（x，ybbox，ybbox >0·（yj，uk）（4）j，k其中，损失函数，例如交叉熵损失或焦点损失，取决于主任务损失。5. 实验结果为了验证所提出的方法，我们在两个多类微小对象数据集Tiny-DOTA用于检测定向边界框（OBB）的模型。LCellLCell是一个私有的乳腺癌组织病理学数据集，具有8个细胞类别的边界框注释。LCell由768个768大小的补丁组成，有3681个训练样本，250个验证样本，823个测试样本。我们在Tab中显示。平均而言，LCell中的补丁包含的对象是Tiny-DOTA中的两倍。有关LCell的更多信息，请参阅我们的补充材料。5.2. 评价程序交互式注释系统的评价是一个具有挑战性的课题。在最理想的情况下，我们可以在许多数据样本上使用大量的人工注释器进行评估，但这有点不可行，当然也不能重复。因此，我们从[35]中的交互式分割的评估程序中获得灵感，该程序绘制还有LCell。我们将C3Det的性能与几种基线方法，并表明C3 Det适用于一阶段和两阶段检测器，如RetinaNet和Faster R-CNN，分别。这些是标准的基线架构，用于检测3参见RoI Transformer结果的补充材料[10]。4为了实现结果的可重复性和未来的比较，Tiny-DOTA的训练-验证-测试分割可在https：// github上获得。 com/ChungYi 347/交互式-多类-微小目标检测。Num.类Num. 补丁平均物体/斑块火车Val测试火车 Val测试Tiny-DOTA811198 1692 2823 38.5 42.835.3LCell83681250823 79.3 82.099.614141123456789 10 11 12 13 14 15 16 17 18 19 20点击次数(a) Tiny-DOTA70656055505.3. 与基线的我们在图5中将我们的C3Det方法与一些基线方法进行了比较。对于比较的方法，在适用的情况下，我们采用了更快的R-CNN架构，带有ResNet-50（带有特征金字塔网络）特征提取器[18]。图5中标记为Faster R-CNN的线条是检测器在没有任何交互可能性的情况下简单地对标记数据进行训练时的性能。在本节中，我们将其称为基线检测器。比较的方法如下：我们的了完整的C3Det方法，包括LF和C3模块以及UEL损耗。早期融合早期融合是交互式分割中的常用方法[14，30，34，35]，因此我们通过在通过特征提取器之前将用户输入的热图连接到输入图像来12345678910 11 12 13 14 15 16 17 18 19 20点击次数在绘制热图时，我们使用较大的σ热图比(b) LCell图5.与基线方法相比，C3 Det（更快的R-CNN w/ R50-FPN）在Tiny-DOTA和LCell数据集我们后期融合早期融合PassthroughRetinaNet605550123456789 10 11 12 13 14 15 16 17 18 19 20点击次数图6.与基线方法相比，C3 Det（RetinaNet w/R50）在Tiny-DOTA上的性能模拟用户点击的任务性能5.我们模拟每个图像样本多达20次“点击”。整个测试集上的这种模拟是一个评估会话。对于每一次当所有可用的地面实况对象被提供作为模拟用户输入（对于图像样本）时，不提供进一步的用户输入（类似于第12节中的训练时间采样方法）。 4.1.1）。这导致针对增加数量的用户点击的一组预测的在每个步骤中，针对相应点击次数的所有测试集预测计算mAP6我们进行了五次独立的评估，并使用误差条显示每个数据点的平均值和标准差。其他方法7，因为较小的高斯不太有效，并且它们的信息可能在后面的层中丢失。晚期融合。后期融合也常用于交互分割[2，25，37]，并且是一种有竞争力的基线方法。我们通过使用我们的LF模块但省略C3模块和UEL损失来实现此基线。穿越。简单但有效的基线是其中用户输入的类值被简单地应用于来自基线检测器的匹配预测边界框的基线。结果我们发现，我们提出的方法表现优于所有基线一致，快速增加测试集mAP与几个点击次数，并达到更高的mAP时，提供最大点击次数。早期融合和后期融合基线方法优于朴素的穿透方法，但与我们的方法相比，差异较小5.4. 应用于单级检测器我们的方法可以适用于两个阶段和一个阶段的检测器架构。我们通过将C3 Det应用于RetinaNet架构（具有ResNet-50主干）并在Tiny-DOTA上进行评估来证明这一点。一阶段的结果显示出与两阶段情况相似的趋势（图11）。 5），基线显示出比基线检测器有适度的改进，而我们的方法显示出很大的改进。因此，我们表明，我们的方法可以适用于一级和两级架构的对象检测。5.5. 不同数量的训练数据在现实世界中，人们可能会质疑我们的方法是否适用于训练次数较少的情况5[35]还提出了一个可以按样本计算，并且不能针对mAP度量进行。6.我们计算mAP，IoU阈值为0.5。7F或在Ti n y-D OT A上评估，对于“早期融合”，我们选择σ热图=9，并且对于“后期融合”和“我们的”，选择σ热图= 1。我们后期融合早期融合PassthroughFaster R-CNN706560地图地图地图1414270656055504512345678910 11 12 13 14 15 16 17 18 19 20点击次数图7.减少训练数据的数量（完整Tiny-DOTA训练子集的百分比）仍然允许C3 Det随着点击次数的增加而提高注释质量。样品因此，我们使用Faster R-CNN架构，通过改变Tiny-DOTA中的训练数据量来进行实验。图7显示，我们的方法预测边界框，随着点击次数的增加，mAP增加，即使训练数据少到5%（只有559个样本）。然后，在现实世界中，最初可以收集一小组完全注释的数据，以便训练C3Det。然后，这可以用于帮助注释者标记附加样本。通过重复这个过程，即使是大型数据集也可以有效地进行注释。5.6. 消融研究我们对Tiny-DOTA数据集进行了三次消融研究，以了解我们的模块和损失的影响。评估的方法是基于更快的 R-CNN 架构的 C3 Det ，具有 ResNet-50 （具有FPN）特征提取器。用户输入强制损失（UEL）。图8a示出了增加用户输入强制损失导致显著更好的性能（特别是对于点击>3）与没有UEL的情况相比。很明显，UEL确保用户输入和模型预测之间的一致性这一点可以通过以下两种情况下的整体性能更好来证明：几次点击以及多次点击的情况下。此外，更小的误差条（标准。dev. 的mAP超过5次试验），表明应用UEL允许模型更好地理解和合并总体用户输入，而不会对具体提供的用户输入过于敏感LF模块和C3模块。在图8b中，我们用UEL和LF模块或C3模块训练模型，以比较LF模块的效果与C3模块的效果。我们发现，建议的LF模块和C3模块本身表现出良好的性能。然而，正是当它们组合在一起时，观察到性能的显著提升。我们假设这是因为LF模块允许模型在输入位置周围的局部区域中更好另一方面，C3模块显式地查询非常远的对象的相似性。从某种意义上说，LF模块帮助模型理解与用户输入相关的局部上下文，C3模块帮助模型理解全局上下文。这种整体方法是有益的，性能的大幅提升就是明证。分类特征相关性。我们的C3模块对每个用户输入执行特征相关，然后按类合并相关图（ correlate-then-collate）。一种替代方案是首先按类别组合用户输入的热图，然后执行相关（整理然后相关）。后一种方法假设指定类的所有对象都由类似的“模板”特征表示。此外，它承诺对用户如何定位他们的输入不那么敏感。相比之下，所选择的方法（C3）认为，来自同一类的对象可以由稍微不同的特征表示。通过对每个用户输入执行图8c中的结果表明，虽然两种方法都工作良好，但先相关后整理的方法优于先整理后相关的替代方法。6. 用户研究为了评估C3 Det在现实世界中的有效性，我们进行了一项用户研究，其中要求注释者在从Tiny-DOTA数据集拍摄的图像上注释对象的OBB。我们从这个任务的测试集中抽取了40张图像我们的研究是一项受试者内研究，其中10名参与者在两种条件下（以随机顺序）执行他们的任务。两个任务条件是：（a）全手动注释和（b）使用C3Det的交互式注释。在完全手动的情况下，注释器选择一个对象类，然后对每个对象单击4次鼠标，以绘制一个基于对象方向的四边形。在交互的情况下，注释者可以通过（a）选择一个对象类，（b）点击一个示例对象来向C3Det提供提示当注释者对C3Det的预测感到满意时，他们可以通过手动注释来修改错误标记的对象并添加丢失的对象。最后，在完成每个条件（手动或交互式）后，注释者填写NASA-TLX问卷以评估其任务负荷[13]。我们分析了每个条件的注释时间和交互次数，如图9a和图9b所示。在交互式情况下，用户可以进一步修改C3Det预测的边界框，因此我们称之为C3Det+手动条件。完全手动的替代方案简称为手动条件。C3Det +手动的平均注释时间（ 114.7s ）比手动条件（327.73s）低2.85倍。C3Det +手动（17.93）所需的交互次数比手动（58.33）少3.25倍，其中交互包括绘制和删除多边形、添加用户百分百百分之五十百分之二十百分之十百分之五地图14143我们我们的（无UEL）我们我们的w/LF我们的w/C3地图地图−707272 727070706868686666666464641 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20(a) 用户输入强制损失（UEL）1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20(b) LF和C3模块1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20(c) 相关性/整理顺序图8.C3 Det（Faster R-CNN w/R50-FPN）在Tiny-DOTA上的消融研究这些图显示了（a）用户输入强制损失（UEL）、（b）LF和C3模块的组合以及（c）相关和整理的顺序的影响140012001000800600400140120100806040100908080606040502000手动C3Det +手册200手动C3Det +手册2040手动C3Det+手册30(a) 时间(b) 相互作用(c) NASA-TLX20图9.使用NASA-TLX评估的每个样本（a）所用时间和（b）交互次数以及总体（c）任务负荷的箱形图输入（用于C3Det）、更改所选类和最终结果提交。请注意，C3Det+ Manual包括模型推理时间，并表明我们的方法可以与注释器交互。图9 c示出了每个任务会话的NASA-TLX [13]分数。手动入路的中位TLX评分为75.83，C3Det评分为27.58（越低越好）。进行了配对Wilcoxon符号秩检验和连续性校正，我们发现任务工作量的差异在0.01的显著性水平上具有统计学显著性（z′= 0.01）。二、703，p′=0。0069，r′=0. 604）。这意味使用C3Det进行注释需要更少的时间、交互和由NASA-TLX测量的工作负载。为了评估最终注释的质量，我们计算了Tiny-DOTA地面实况和通过我们的用户研究获得的注释之间的mAP度量8。我们还引入了C3Det Only条件，这是仅通过与C3Det交互获得的注释（没有用户的任何手动修改）。图10示出了比较条件下mAP随时间的增加当考虑达到67.9 mAP所需的时间时，手动条件需要714.3秒，而仅C3Det和C3Det+手动条件需要294.2秒和144.2秒。这表明，仅C3Det允许比手动更快的注释，质量相当。在C3Det + Manual中允许进一步的手动修改会导致更好的注释质量，这表明即使在交互式注释系统中，注释者也应该考虑允许手动修改。考虑到我们的用户研究参与者不是Tiny-DOTA图像的专家注释者，我们认为我们的结果也表明C3 Det8将边界框类置信度分数设置为1以计算mAP。时间（分钟）图10.不同注释方案的注释质量（mAP）与注释成本我们的C3Det+手册67.9 mAP比手动快5倍。+手册可以是一个有效的系统新手。7. 结论我们已经证明，C3Det是一个引人注目的方法，交互式多类微小物体检测。C3Det改进了注释任务，否则可能是费力和昂贵的。我们的新架构认为，本地和全球的影响，给定的用户输入在一个整体的方式。一个新提出的训练数据模拟和评估程序的交互式多类微小物体注释定义了一个明确的方法，为今后在这方面的工作。我们的实验结果和用户研究验证了我们的C3Det优于现有的方法，可以降低成本，同时实现高质量的注释我们希望我们的方法减轻了对现实世界中的注释成本和工作负载的担忧行业设置）。局限性。在我们的工作中，我们假设注释器在指定对象类时不会出错因此，C3Det可能对流氓注释器不鲁棒。另外，未来的工作可能会提出一种替代我们的基于点的用户输入，以一个交互针对多个对象，进一步降低注释成本。潜在的负面影响。我们的方法提高了注释效率的图像与许多微小的目标。不幸的是，监视图像通常包含许多微小的物体，坏人可能会从我们的工作中受益。另一方面，气候变化、农作物监测和癌症研究对人类社会非常有益，有望抵消与监测有关的担忧。Ours（correlate-then-collate）我们的（整理后相关）手动C3Det+仅手动C3Det地图时间（秒）交互数量NASA-TLX评分地图014144引用[1] David Acuna，Huan Ling，Amlan Kar，and Sanja Fidler.使用polygon-rnn++对分割数据集进行有效的交互式注释。在CVPR中，第859-868页，2018年。3[2] Eirikur Agustsson、Jasper RR Uijlings和Vittorio Ferrari。通过联合考虑所有区域的交互式全图像分割。在CVPR中，第11622-11631页，2019年。四、六[3] Mohamed Amgad，Lamees A Atteya，Hagar Hussein，Ka- reem Hosny Mohammed ， Ehab Hafiz ， Maha ATElsebaie ， Ahmed M Alhusseiny ， Mohamed AtefAlMoslemany ， Ab-delmagid M Elmatboly ， Philip APappalardo，et al. Nu- cls：A scalable crowdsourcing，deeplearningapproachanddatasetfornucleusclassification，localization and segmenta- tion.arXiv预印本arXiv：2102.09099，2021。1[4] 卡洛斯·阿尔特塔，维克多·伦皮茨基，J·艾莉森·诺布尔，还有安德鲁·齐瑟曼.交互式对象计数。见ECCV，第504-518页。Springer，2014. 一、二、三[5] Yuri Y Boykov和M-P Jolly。交互式图切割用于ND图像中目标的最佳边界载于ICCV，第1卷，第105-112页。IEEE，2001年。3[6] Liangyu Chen ， Tong Yang ， Xiangyu Zhang ， WeiZhang，and Jian Sun.以点为单位：弱半监督对象检测点。在CVPR，2021年。2[7] 宫丞和韩俊伟。光学遥感图像目标检测技术综述。ISPRS Journal of Photogrammetry and Remote Sensing，117：11-28，2016。1[8] 迈克尔·崔，詹姆斯·曼伊卡，迈赫迪·米雷马迪。人工智能能为您的业务做什么，不能做什么。 McKinseyQuarterly，1：97-108，2018. 1[9] Henghui Ding，Scott Cohen，Brian Price，and XudongJiang.Phraseclick：通过短语和点击实现灵活的交互式在欧洲计算机视觉会议上，第417-435页。Springer，2020年。3[10] 丁健，薛南，杨龙，夏桂松，陆启凯。学习 RoITransformer检测航空图像中的定向目标。在CVPR，2019年。5[11] Jian Ding，Nan Xue，Gui-Song Xia，Xiang Bai，WenYang ， Micheal Ying Yang ， Serge Belongie ， JieboLuo ， Mihai Datcu ， Marcello Pelillo ， and LiangpeiZhang.空中图像中的物体检测：大规模基准和挑战，2021年。5[12] Simon Graham、Quoc Dang Vu、Shan E Ahmed Raza、Ayesha Azam、Yee Wah Tsang、Jin Tae Kwak和NasirRajpoot。Hover-net：多组织组织学图像中细胞核的同步分割和分类。医学图像分析，58：101563，2019。1[13] 桑德拉·G Hart和Lowell E.斯塔弗兰发展NASA-TLX（任务负荷指数）：实证和理论研究的结果。《心理学进展》，第52卷，139-183页。爱思唯尔，1988年。七、八[14] 张元东和金昌洙基于反向传播细化方案的交互式图像分割。在CVPR中，第5297-5306页，2019年。三、四、六[15] 李珂，万钢，龚成，孟立秋，韩俊伟。光学遥感图像中的目标检测：综述和新的基准。 ISPRS Journal ofPhotogrammetry and Remote Sensing ， 159 ： 296-307 ，2020。114145[16] Wenyuan Li ， Jiayun Li ， Karthik V Sarma ， KingChung Ho ， Shiwen Shen ， Beatrice S Knudsen ，Arkadiusz Gertych，and Corey W Arnold. Path r-cnn用于前列腺癌诊断和组织学图像gleason分级。IEEEtransactions on medical imaging ， 38 （ 4 ）： 945-954，2018。1[17] Zhuwen Li，Qifeng Chen，and Vladlen Koltun.基于潜在差异的交互式图像分割。在CVPR中，第577-585页，2018年。3[18] 林宗义、彼得·多尔、罗斯·格希克、何嘉明、巴拉特·哈里哈兰和塞尔日·贝隆吉.用于对象检测的特征金字塔网络。在CVPR中，第2117-2125页，2017年。6[19] 林宗义、普里亚·戈亚尔、罗斯·格希克、何开明和彼得·多尔·拉尔。密集目标检测的焦面损失。在ICCV，第2980-2988页4[20] Zheng Lin ， Zhao Zhang ， Lin-Zhuo Chen ， Ming-Ming Cheng，and Shao-Ping Lu.第一次点击关注的交互式图像分割。在CVPR中，第13339-13348页，2020年。3[21] Huan Ling，Jun Gao，Amlan Kar，Wenzheng Chen，and Sanja Fidler.用

下载后可阅读完整内容，剩余1页未读，立即下载