YOLO-World:开启实时开放词汇对象检测新时代

版权申诉
5星 · 超过95%的资源 1 下载量 137 浏览量 更新于2024-06-13 收藏 4.47MB PDF 举报
"YOLO-World:实时开放词汇对象检测,通过视觉语言建模和大规模数据集预训练增强YOLO的开放词汇检测能力,提出可重新参数化的视觉-语言路径聚合网络(RepVL-PAN)和区域-文本对比损失,实现高效率、高准确性的对象检测。" YOLO-World 是针对 You Only Look Once (YOLO) 系列目标检测器的扩展和优化,旨在解决其在处理开放场景时受限于预定义和训练对象类别的问题。YOLO 系列检测器以其高效的实时性能而著名,但它们对于新出现或未经过训练的物体类别往往表现不佳。YOLO-World 通过引入视觉语言建模和大规模数据集的预训练,增强了模型的开放词汇检测能力,使其能适应更广泛的环境和应用场景。 核心创新点在于 RepVL-PAN(可重新参数化的视觉-语言路径聚合网络),这是一个设计用于促进视觉和语言信息之间深度交互的网络结构。通过这种交互,YOLO-World 可以理解和识别更多未在训练集中出现的物体类别,实现零样本(zero-shot)检测,即在没有特定类别实例的情况下也能检测到这些类别。这极大地扩展了模型的泛化能力和实用性。 同时,YOLO-World 引入了区域-文本对比损失(region-text contrastive loss),这种损失函数有助于模型更好地匹配图像区域与相应的文本描述,从而提高检测精度。通过这种方式,模型能够学习到更丰富的语义信息,增强对不同物体的识别能力。 在实验中,YOLO-World 在具有挑战性的 LVIS 数据集上展示了优越的性能。它在 NVIDIA V100 显卡上以 52.0 帧每秒(FPS)的速度实现了 35.4 AP(平均精度),在保持高效的同时,精度也超越了许多现有的先进方法。此外,经过微调后的 YOLO-World 在多个下游任务如目标检测和开放词汇实例分割中也表现出色,进一步证明了其在复杂场景下的适应性和实用性。 YOLO-World 的这些进步对于推动实时开放词汇对象检测的发展具有重要意义,尤其是在自动驾驶、无人机监控、智能安防等领域,需要模型能够处理未知和多变的环境条件。代码和模型已公开,这将有利于研究者和开发者进一步探索和利用这一技术,推动目标检测技术的边界。