在线众包算法优化:减少冗余,提升注释效率

0 下载量 162 浏览量 更新于2024-06-20 收藏 1.01MB PDF 举报
本文探讨了一种创新的精益众包方法,旨在优化和减少大规模图像注释过程中的人力冗余和提高注释质量。在当前的计算机视觉研究背景下,大型数据集如ImageNet对于提升算法性能至关重要,然而,针对非分类任务(如边界框标注、零件关键点标注等)的高效众包策略相对匮乏。 作者提出了一种在线系统,该系统结合了人类和机器的力量。系统的核心在于使用概率模型上的顺序风险估计,通过实时评估每个工人对特定任务的熟练程度、图像难度以及随着计算机视觉模型的增量训练,逐步调整对任务的信心水平。这个模型能够有效地利用工人之间的共识,例如当多个Turkers在标注同一对象时,如果他们的意见与预估一致,便能增强对标注的可信度。 该方法的优势体现在以下几个方面: 1. 效率提升:通过在线估计和结合众包,二进制注释的时间减少了约4-11倍,对于边界框注释,减少了2-4倍的注释行数,显著节省了注释时间。 2. 质量保障:通过质量保证阈值,系统能够减少注释错误,确保最终的数据集更为精确。 3. 适应性强:适用于不同类型的任务,包括二进制标注、零件关键点标注和边界框标注,具有广泛的适用性。 4. 用户友好:设计了一个易于使用的公开工具,直接与Amazon Mechanical Turk集成,便于众包工作者操作。 5. 持续改进:系统是一个循环过程,随着更多注释的加入,计算机视觉模型和工人技能模型会不断迭代优化,提升整个注释过程的精度和效率。 作者承诺将公开分享这个端到端的系统,以便其他研究者和开发者能够在实际应用中利用这一成果,推动计算机视觉领域的进步。通过这种精益众包方法,数据集的创建不仅更加高效,而且更加可靠,为机器视觉模型的发展提供了强大支持。