cvpr2024目标检测
时间: 2024-12-30 22:26:34 浏览: 20
### CVPR 2024 目标检测技术进展
#### YOLO-World:一种实时开放词汇目标检测方法
在CVPR 2024上,《YOLO-World: Real-Time Open-Vocabulary Object Detection》这篇论文介绍了一种新的开放词汇目标检测方法——YOLO-World。此模型由Tianheng Cheng和Lin Song等人提出,旨在解决传统YOLO检测器仅限于固定词汇表的问题[^3]。
YOLO-World通过引入视觉-语言建模以及大规模预训练来增强其性能。具体来说,该架构采用了可重参数化的视觉-语言路径聚合网络(RepVL-PAN),并通过区域-文本对比损失加强了图像特征与文字描述之间的关联度。这使得YOLO-World不仅能在已知类别上取得良好效果,在未见过的新类别的零样本学习场景下也展现了强大的泛化能力。
实验结果显示,YOLO-World在LVIS数据集上的平均精度达到了35.4%,同时维持着快速的推理速度。此外,这一框架还在其他多种下游任务中证明了自己的有效性,如跨域迁移等。
```python
import torch
from yoloworld import YOLOWorldModel
model = YOLOWorldModel(pretrained=True)
def detect_objects(image, text_prompts):
outputs = model(image=image, texts=text_prompts)
return outputs['boxes'], outputs['scores']
```
阅读全文