统一多数据集目标检测:通用架构与卓越性能

PDF格式 | 1.44MB | 更新于2025-01-16 | 131 浏览量 | 0 下载量 举报
收藏
本文主要探讨了如何构建一个通用且广泛的目标检测系统,特别是针对那些跨越不同数据集且包含潜在不一致分类的问题。研究者提出了一种简单的方法,即在多个大规模数据集上训练一个统一的检测器,这种方法采用了特定于以太网的训练协议和损失函数,但共享一个通用的检测架构。与以往的做法不同,该方法无需人工干预,通过自动集成特定领域的输出到共同的语义分类,实现了多数据集之间的无缝连接。 作者们关注到了现有对象检测模型中存在的问题,即单一数据集的局限性,它们在图像领域和标签词汇表上存在局限,导致无法形成通用的识别系统。为了解决这个问题,他们提出了一个训练策略,即对每个数据集分别训练一个具有独立输出的检测器,同时保持训练过程的标准化,使之类似于在通用网络中训练特定领域的模型。这样,每个单个检测器能在各自的训练领域表现出色,同时展现出良好的泛化能力。 研究中涉及到的数据集包括COCO、OpenImages、Mapillary和Obj365等,它们覆盖了多种语义和视觉领域,如动物、车辆、家具、场景元素等。通过学习统一的标签空间,研究人员训练了一个能够适应不同数据集的对象检测器,它不仅在各个训练域中表现出高精度,还能有效应对未知领域的新挑战。 实验结果显示,这种方法所学到的分类比专家设计的分类更加优秀,且在所有数据集上都取得了显著效果。论文的成果可以通过GitHub上的UniDet项目获取,这对于推动计算机视觉领域中通用目标检测的发展具有重要意义,有助于构建出更加全面和适应性强的智能感知系统。

相关推荐