基于语音的对象类标注方法

190 浏览量更新于2023-10-17 收藏 1.57MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1基于语音的迈克尔·吉利gyglim@google.com维托里奥·费拉里vittoferrari@google.comGoogle Research摘要对象类标签是用标签来注释图像的任务，标签是关于给定类词汇表中对象的存在或不存在。然而，简单地对每个类问一个yes/no问题，其成本在词汇表大小上是线性的，因此对于大词汇表是低效的改进的方法依赖于词汇表的分层组织来减少注释时间，但仍然昂贵（ILSVRC中200个类的每个图像几分钟）。相反，我们提出了一个新的接口，类通过语音注释。Speaking速度很快，并且允许直接访问类名，而无需通过列表或层次结构进行搜索。作为额外的优点，注释器可以同步说话并扫描图像中的对象，界面可以保持非常简单，并且使用它需要更少的鼠标移动。由于使用我们接口的注释者应该只说给定类词汇表中的单词，因此我们提出了一个专门的任务来训练他们这样做通过在COCO和ILSVRC上的实验，我们证明了我们的方法在2。3×-14。比现有方法节省9倍1. 介绍深度神经网络需要数百万个训练样本来获得高性能。因此，ILSVRC [6]、COCO [16]或Open Images [14]等大型和多样化的数据集是视觉识别突破和持续进步的核心。用于识别的数据集通常分为两个阶段[6，14，16，30]（图1）：（i）确定每个图像中是否存在对象类，以及（ii）为所有存在的类提供边界框或分割掩码。我们的工作集中在前者，我们称之为对象类标记。由于将一个类标记为存在需要找到该类的至少一个对象，因此我们还要求注释者点击它（对于COCO数据集也是这样做的[16]）。这个任务不仅是自然的，它还有助于后续的注释阶段[16]，并且可以用作弱监督方法的输入[1，18，19，25]。对象类标签具有传统上时间-图1：图像注释的常见阶段图示：典型地，注释器首先在图像级别提供对象类标签[6，14]（红色），有时通过点击与特定对象相关联，如[16]和我们的方法（绿色）。接下来的阶段则注释对象的空间范围，例如：带有边界框或分割（黄色）。为注释者消费一种简单的方法是对给定词汇表的每个类别分别问一这样的协议植根于词汇表，而不是图像内容。它在词汇表的大小上线性缩放，即使图像中只存在很少的类（这是典型的情况）。因此，当词汇量很大时，它变得非常低效。让我们以ILSVRC数据集为例：获取词汇表中200个对象类的标签将花费每张图像近6分钟[13]，尽管每张图像平均仅包含1.6个类。以前的方法试图通过使用类别词汇的分层表示来快速拒绝某些标签组来改进这一点[7，16]。这将注释复杂性降低到词汇大小的次线性。但即使使用这些复杂的方法，对象类标记仍然很耗时。使用[7]的分层方法标记ILSVRC的200个类别仍然需要每个图像3分钟[29]。COCO数据集的类别较少（80），并使用[16]的更有效的分层方法进行标记即便如此，一张图也要半分钟。在本文中，我们改进了这些方法，我们-53655366将语音作为输入模态。给定一个图像，注释者扫描图像中的对象，并通过点击它并说出它的名称来标记每个类。该任务基于图像内容，并自然地随图像中对象类的数量而缩放。使用语音有几个优点：（i）它允许通过简单地说出类名来直接访问类名，而不需要分层搜索。(ii)它不要求实验设计者构建自然的、直观的层次结构，这随着类变量的增长而变得困难[28]。(iii) 说话与指点相结合是自然而有效的：当使用多模态界面时，人们自然地选择指向以提供空间信息，而说话以获得语义信息[22]。此外，这两个任务可以同时完成[11，22]。(iv)由于类标签是通过语音提供的，因此任务需要更少的鼠标移动，并且界面变得非常简单（不需要在图像和类层次结构表示之间来回移动(v)最后，说话要快，例如人们在描述图像时每分钟可以说150个字[31]。相比之下，人们通常每分钟输入30-100个单词[3，12]。由于以上几点，我们的接口比分层方法更省时然而，使用语音作为输入模态带来了一定的挑战。为了可靠地将语音转录为文本，需要解决几个技术挑战，例如对语音进行分段并获得高精度的翻译。此外，由于语音本质上是自由形式的，注释者需要被训练以了解要注释的类词汇表，以便不标记其他对象或注释某些类。我们将展示如何应对这些挑战，并设计一个注释接口，允许快速，准确的对象类标签。在我们广泛的实验中，我们：• 说明语音为对象类标记提供了一种快速的方法：在COCO数据集[16]上比[ 16]的分层方法快2.3倍，在ILSVRC [28]上比[ 7 ]快14.9倍。• 演示我们的方法扩展到大词汇表的能力• 证明我们的界面能够以比[16]短3倍• 通过我们的训练任务，注释者学会了使用所提供的词汇表以高保真度命名对象。• 自动语音识别（ASR），并表明它支持从语音中获得高质量的注释。2. 相关工作使用语音作为输入模态具有悠久的历史[2]，并且最近成为计算机视觉中的研究方向[4，9，31，32]。据我们所知然而，我们的论文是第一个表明语音允许比流行的分层方法更有效的对象类标记[7，16]。我们现在讨论以前的工作在利用语音，有效的图像一个符号和学习点监督的领域利用语音输入。指和说是人类交流的一种有效而自然的方式。因此，这种方法在设计计算机界面时很快被采用：早在1980年，Bolt [2]就研究了使用语音和手势来操纵形状。大多数以前的工作在这个空间分析用户选择时提供不同的输入方式[10，21，22，23]，而只有少数方法专注于使用语音的附加效率。最值得注意的工作是[26]，它测量了在MacDraw中创建绘图所需的时间。他们将使用工具（包括通过菜单层次结构选择命令）与使用语音命令进行比较。他们表明，使用语音的平均加速率为21%，并提到这是一个在计算机视觉中，Vasudevanet al.[32]检测对象给定的口语指的表达，而Harwath等人。[9]从口语图像-字幕对中学习嵌入他们的方法获得了有希望的第一个结果，但仍然不如从谷歌的自动语音识别获得的文本标题上学习Damen等人[5]基于口头自由形式的叙述来注释EPIC-KITCHENS数据集，这些叙述仅涵盖图像中存在的一些对象。此外，这些叙述是手动转录的，然后对象类标签从转录的名词中导出，同样是手动的。相反，我们的方法是全自动的，我们从给定的词汇表中详尽地标记所有对象。最后，与我们的工作更密切相关的是，Vaidyanathanet al。[31]用口语场景描述和人类凝视重新注释了COCO的子集。虽然高效，但自由形式的场景描述在用于对象类标签时更具噪音，因为注释者可能会引用具有模糊名称的对象，提到与图像中显示的对象不对应的名词[31]，或者在不同注释者之间命名相同对象类时可能存在不一致性。我们的方法避免了解析自由形式的句子以提取对象名称和凝视数据以提取对象位置的额外复杂性次线性注释方案。注释对象类的存在的简单方法是随着词汇表的大小线性增长（每个类一个二元存在/不存在问题）。次线性方案背后的想法是将类分组为有意义的超类，以便可以一次排除其中的几个。如果一个超类（例如动物）不存在于图像中，那么人们可以跳过它的所有子类（猫，狗等）的问题。这种类分组可以有多个级别。COCO [16]和ILSVRC [7，28]5367数据集都属于这一类，但它们在如何定义和使用层次结构方面有所不同。ILSVRC [28]使用一系列分层问题进行注释[7]。对于每幅图像，17个顶级问题被问到（例如，“有生命体吗？“）.对于在场的群体，随后会问更具体的问题，如“有哺乳动物吗？“，“有狗吗？“，等图像的问题序列是动态选择的，这样它们就可以在每个步骤中消除最大数量的标签[7]。然而，这种方法涉及重复的视觉搜索，与我们的方法相反，我们的方法是由注释者扫描图像中的对象来引导的，只做一次。总的来说，这个方案每个图像需要近3分钟[29]来注释ILSVRC的200个类。最重要的是，构建这样一个层次结构并不是微不足道的，它会影响最终的结果[28]。在用于创建COCO [16]的协议中，注释者被要求为图像中存在的每个类标记一个对象，方法是从两级层次结构中选择其符号并将其拖到对象上（图11）。4）.虽然这允许将图像而不是问题作为标记任务的根，但它需要在层次结构中反复搜索正确的类，这会导致大量的时间成本。在我们的接口中，不需要这样显式的类搜索，这加快了注释过程。Open Images [14]使用图像分类器来创建可能存在的对象类的短列表，然后由注释者使用二进制问题进行验证，而不是使用层次结构使用分类器分数上的预定义阈值来生成入围列表。因此，这种方法以完整性换取速度。在实践中，[14]要求注释者验证600个类中的10个，但报告的召回率相当低，只有59%，尽管在评估中忽略了点监督。我们的注释接口的输出是图像中所有类的列表，其中包含一个点一个物体对应一个物体这种标记是有效的，并为几个图像[1，15，25]和视频[18，19]对象定位任务提供有用的监督特别是，[1，18，25]表明，对于他们的任务，当给定相同的注释预算时，点点击比其他替代方案提供更好的模型。3. 语音标注我们现在描述我们的注释任务，该任务为每个图像产生一系列带时间戳的点击位置{pi}和音频记录（第二节）。第3.1节）。由此，我们通过将音频片段与点击相关联，然后转录音频来获得对象类标签（第二节）。3.2）。在注释a-可以进行主任务，我们要求他们通过一个图2：我们的界面。给定一个图像，注释器被要求点击每个类的一个对象并说出它的名字。为了帮助记忆，我们还允许通过“显示课程”按钮复习课程词汇。3.1. 注释任务首先，给注释者提供课堂词汇，并指导他们记忆。然后，他们被要求通过扫描图像并说出他们看到的不同类的名称，用词汇表中的对象类来标记图像。因此，这是一个简单的视觉搜索任务，不需要任何上下文切换。虽然我们主要对对象类标签感兴趣，但我们要求注释者为每个类单击一个对象，因为该任务自然涉及到无论如何都要找到对象。此外，这带来了有价值的额外信息，并与COCO协议相匹配，允许进行直接比较（第12节）。4.1）。图2示出了具有示例图像的界面。为了帮助注释者将他们提供的标签限制在预定义的词汇表中，我们允许他们使用一个按钮来查看它，该按钮显示所有类名，包括它们的符号。3.2. 时间分割和转录为了给点击分配类名，我们需要转录音频并在时间上对齐转录。为了获得transmittance及其开始和结束时间，我们依赖于Google虽然可以首先转录完整的音频记录，然后将转录匹配到点击，但我们发现转录的时间分割容易出错。因此，我们选择首先根据点击的时间戳对音频记录进行分段录音的时间分割。我们创建了一个位置pi处每次单击的对象注释oi和时间训练阶段这有助于他们记住班级词汇-lary并对使用界面充满信心（第3.3）。1https://cloud.google.com/speech-to-text/5368（一）（b）第（1）款图3：培训过程。3a显示了训练任务：用单击标记每个类的对象，并说出和写下其名称。图3b示出了在每个图像之后提供的反馈。特岛对于每个对象注释，我们创建一个音频片段[ti−δ，ti+1]，即范围从当前点击之前不久到下一次点击的间隔。最后，我们转录这些并将结果分配给它们对应的对象注释。根据经验，使用一个小的验证集，我们发现δ=0。5s表现最好，因为人们经常在点击对象之前稍微开始说话[22]。转录对象类名称。语音转录提供了备选方案的分级列表。为了找到词汇表中最可能的类，我们使用以下算法：（i）如果一个或多个transname与词汇表中的某个类匹配，则我们使用最高排名; ii）在没有匹配的罕见情况下，我们使用word 2 vec [20]表示词汇表和所有transmittance，并根据它们的余弦相似性使用词汇表中最相似的类-是的这个类ci然后被视为oi的标签。3.3. 注释员培训在处理主要任务之前，注释器会经过一个训练阶段，在每个图像之后提供反馈，并在80个图像之后汇总统计数据。如果他们达到了我们的精度目标，他们就可以继续执行主要任务。如果他们失败了，他们可以重复训练，直到他们成功。培训的目的。培训有助于注释者对界面有信心，并确保他们正确解决任务并提供高质量的标签。因此，它已成为普遍的做法[14，16，25，28，30]。当我们想要从预定义的vo注释类当然，语言是自由的。在我们最初的实验中，我们发现由于这种差异，与显示显式类列表的接口相比，注释器产生的召回率较低。因此，我们设计了我们的训练任务，以确保注释者记住词汇表并使用正确的对象名称。事实上，在用这个过程训练了标注器之后，他们很少使用词汇表中没有的对象名称，并且获得了高召回率，与[16]（Sec.4.2和4.4）。培训程序。训练任务与主任务类似，但我们还要求注释者输入他们所说的单词（图1）。（见第3a段）。这允许测量抄写准确性，并在最终的类别标签中剖析不同的错误来源（第12节）。4.4）。在每张图像之后，我们通过将他们的答案与预先注释的基本事实进行比较，提供这有助于注释者记住类词汇表，并学会识别所有对象类（图10）。第3b段）。为了技术上的简单性，我们将这种反馈基于书面文字，而不是转录的音频。通过要求。在训练开始时，注释器被赋予了他们需要达到的最小召回率和精确率的目标注释者需要标记80张图像，并在每张图像后得到反馈，列出他们在该图像上的错误，以及他们在给定目标方面的整体表现如何。如果他们在标记80张图像后达到目标，他们就成功通过了培训。在失败的情况下，他们被允许重复训练，只要他们愿意。4. 实验在这里，我们提出了使用基于语音的界面和[16]的分层界面注释图像的实验。首先，在Sec。4.1我们重新实现了[16]的接口，并将其与[16]中的官方报告结果进行了然后，我们将我们的界面与COCO数据集上的[16]进行比较，其中词汇表有80个类（第4.2）。节中4.3我们通过在ILSVRC数据集上进行实验，将注释扩展到200个类的词汇表。最后，第4.4提供了额外的分析，如转录和点击精度以及每个对象的响应时间4.1. 层次化接口[16]在用于COCO [16]的接口中，注释者被要求为图像中存在的每个类标记一个对象，方法是从两级层次结构中选择其符号并将其拖到对象上。虽然[16]提供了粗略的时间，但我们选择重新实现他们的接口以进行公平的比较，并对注释时间的花费进行详细的分析（图16）。4）.首先，我们让五名人群工作人员通过了一项培训任务，该任务与我们的界面所使用的任务相当（第二节）。3.3）。然后，他们注释了一个随机子集的300 im-53691.00.80.60.40.20.0COCO上的注释时间与精度基于语音的注释（Ours）分层（Linet al.[16]）0 5 10 15 20 25 30 35 4045每个图像的时间[s]图5：我们的方法与[16]的分层界面图中的每个点对应于一个单独的注释器。F1分数是查全率和查准率之间的调和平均值数据集：COCO。图4：我们对[16]的分层接口的重新实现。COCO验证集的年龄（每个图像由所有工作人员注释）。结果注释者占29分。平均每张图像9秒，与27秒一致。在[16]中报告了4秒。因此，我们可以得出结论，我们的实现在效率方面是注释者已经产生了89.3%的精确度和84.7%的召回率的注释（表1）。①的人。因此，它们提供的标签是准确的，并重新覆盖了大多数对象类.我们还注意到，COCO地面实况本身并不是没有错误的，因此限制了最大可实现的性能。事实上，我们的记忆力和精确度与[16]中报道的数字相当。时间分配。为了更好地理解符号时间是如何花费的，我们记录了鼠标和键盘事件。这使我们能够估计在符号层次结构中搜索正确的对象类所花费的时间，并测量拖动符号所花费的时间。平均搜索时间为14小时. 8 s和拖动时间3. 每幅图像4秒。这两项加起来占总注释时间的61%，而其余的时间则花在其他任务上，这提供了一个时间目标，可以通过避免这两个操作来节省时间，就像在我们的界面中所做的那样。在本节的剩余部分，我们将比较基于语音的方法和这种注释方法.4.2. 我们在COCO在本节中，我们将评估我们的方法并将其与[16]进行比较。我们界面的注释是由一组新的人群工作人员完成的，以避免使用以前的分层界面这些工人都是印度国民，说的英语带有印度口音。因此，我们使用一个模型的印度英语的自动语音识别。我们还提供了类词汇作为短语提示2，这对于获得这些短语的高转录准确性至关重要（Sec.4.4）。速度和语义准确性。图5和Tab. 1显示结果。我们的方法提供了一个加速2。在相似的F1评分（精确度和召回率的调和平均值）下，超过[16]3倍。节中4.1我们估计注释速度最多可以提高2. 6×通过避免符号搜索和拖动。有趣的是，我们的接口提供了接近这个目标的加速比，证实了它的高效率。尽管处理语音存在额外的挑战，但平均精度仅比[16]低2%。因此，自动语音转录不会对标签质量产生太大影响（我们将在第二节中进一步研究这一点）。4.4）。回忆几乎是相同的（低0.8%），证实了这一点，感谢我们的培训任务（第二节）。3.3），注释者记住词汇表中的类定位准确。我们进一步评估的定位精度的点击，通过使用地面实况分割掩模的COCO。具体来说，给定一个具有类ci的对象注释oi，我们评估其点击位置pi位于类C的地面实况片段上。如果类ci不是在图像中，我们忽略了在评估中的点击。评估，以避免混淆语义和位置错误。这一分析表明，我们的接口导致高损失-阳离子准确度：九十六。0%的点击位于对象上。对于分层接口，它相当低，为90。百分之七。虽然这似乎令人惊讶，但可以解释为位置标记方式的差异。在我们的界面中，用户直接点击对象，而[16]需要2https://cloud.google.com/speech-to-text/docs/基础知识#phrase-hintsF1分数53701.00.80.60.40.20.0LSVRC上的注释时间与准确度基于语音的注释（Ours）分层（Linet al.[16]）0 5 10 15 20 25 30 35 4045每个图像的时间[s]表1：我们的界面（语音）和系统方法的准确性和速度[7，16]。我们的界面在标签质量相当的情况下速度明显更快。拖动一个相对较大的，半透明的类符号到它（图。4）.我们界面的部分速度增益是由于同时提供语义和位置信息。然而，这可能对点击准确性产生负面影响。为了测试这一点，我们将其与 [1] 中的注释器在PASCAL VOC数据集上获得的点击准确度进行比较。他们的点击定位准确率为96.7%，与我们的96.0%相当，尽管与COCO相比，数据集更简单，平均对象更大因此，我们可以得出结论，说话时点击不会负面影响定位精度。4.3. 我们在ILSVRC 2014上的界面在这里，我们将我们的界面和[16]的分层界面应用于200个类的更大词汇表，使用来自ILSVRC [28]验证集的300个图像。对于[16]，我们基于[28]提供的多层次结构手动构建了一个两级符号层次结构。该层次结构由23个顶级类组成，如速度和语义准确性。图6示出了在速度和准确性方面与[ 16 ]的比较，而图6示出了在速度和准确性方面与[ 16 ]的比较。图10显示了使用我们的接口获得的示例注释。在选项卡中。1，我们还比较了[7]的速度，该方法用于注释该数据集。我们的方法比这两种方法都快得多：比[16]快2.6倍，比[7]快14.9倍。我们还注意到，[7]只生成图像中存在的类的列表，而我们的接口和[16]还提供了每个类一个对象的位置。尽管注释这个数据集的难度增加了，它比COCO有更多的类，但我们的接口产生了高质量的标签。F1评分与[16]相似（81.9%vs. 82.2%）。虽然我们的界面的召回率较低，但精度较高。图6：我们的方法与分层界面[16]。图中的每个点对应于一个单独的注释器。数据集：LSVRC。图7示出了每个图像的注释时间的直方图。尽管词汇量很大，但大多数图像的注释速度非常快，因为该数据集中的大多数图像包含的类很少。事实上，存在于图像中的对象类的数量与其标注时间之间存在很强的相关性（秩相关性0.55）。这突出了基于图像内容而不是词汇表的方法的优势：它们的注释时间对于具有很少类别的图像是低的。相反，基于词汇表的方法不能充分利用这种类稀疏性。每个类问一个是非问题的简单方法实际上会更慢，因为确定类的不存在比确认它的存在要慢[8]。4.4. 对我们的界面的其他分析时间分配。为了了解有多少注释时间花在什么上，我们分析了ILSVRC数据集上说话和移动鼠标的时间。在总的注释时间中，26.7%用于说话。鼠标移动占总注释时间的74.0%，说话时占62.4%。在说话过程中鼠标移动的时间比例相当高，这证实了人类可以自然地同时进行视觉处理和为了帮助注释者标注正确的类，我们允许他们通过接口上的按钮来查询类词汇表（图2）。2）的情况。这花费了总注释时间的7.2%，这是一个相当小的份额。注释者在不到20%的图像中查阅词汇表。当他们查阅它时，他们平均花7.8秒看它。总的来说，这表明注释者对类词汇表有信心，并确认我们的注释者培训阶段是有效的。此外，我们分析了图中注释者说出对象名称所8，它显示了一个直方图讲话Lin等[16个]Deng等[七]《中国日报》Coco召回精度百分之八十三点九百分之八十七点三百分之八十四点七百分之八十九点三时间/图片时间/标签13.1s4.5s29.9s11.5sF1分数5371从上次点击开始的时间[s]LSVRC数据集25点击之间的时间间隔76205154103500 10 20 30 40 50 60 70每个图像的时间[s]210012345678910点击次数11121314的端图7：使用我们的界面注释图像所需时间的直方图。数据集：ILSVRC。LSVRC数据集20151050电话：+86-0512 - 8888888传真：+86-0512 - 88888888持续时间[s]图8：在ILSVRC上说出对象名称所花时间的直方图。说出对象名称的速度很快，通常不到2秒。演讲时间可以看出，大多数名字都是用0表示的。5到2秒。每次点击响应时间。在图9中，我们分析了在COCO数据集中注释图像的第一个和后续类别所花费的时间。第一次点击一个对象需要3.3秒，而第二次只需要2.0秒。这种效应也被[1]观察到。点击第一个对象会导致整个场景中的初始视觉搜索的成本，而第二个是这种搜索的延续，因此更便宜[17，27，33]。在第二个类之后，寻找更多的类再次变得越来越耗时，因为大型和突出的对象类已经被注释了。事实上，我们发现较大的对象通常首先被注释：对象大小与注释顺序具有较高的中值秩相关性（-0. 80）。有趣的是，在[ 16 ]的界面上，这种效应不太明显（-0。50），因为注释顺序受符号搜索和层次结构中类的分组的影响。最后，我们的分析表明，注释者在说出最后一个类名和提交任务之间花费了3.9秒，这表明他们做了彻底的图9：在COCO数据集上注释对象类时，第一次和后续点击所花费的时间分析。最后扫描图像，以确保他们不错过任何类。鼠标路径长度。为了更好地理解注释图像所需的工作量，我们还分析了鼠标路径的平均长度。我们发现在ILSVRC注释器上使用[16]移动鼠标3。比使用我们接口的注释器长0倍。因此，我们的界面不仅在时间方面更快，而且在鼠标移动方面也更原因是层次化接口需要在图像和类层次结构之间来回移动鼠标（图1）。第11段）。较短的鼠标路径表明我们的界面的简单性和改进的易用性。训练时间。训练注释者在ILSVRC的200个类上达到良好的水平，对于我们的接口需要1.6个小时，或者对于[16]的分层接口需要1个小时。相反，使用我们的接口与4474小时[16]。因此，培训的成本可以忽略不计，即使考虑到培训，我们的界面也比[16]更有效转录准确性。注释者培训任务为每个注释对象提供口语和书面类名（第12节）。3.3）。使用这些数据，我们评估的自动语音识别（ASR）的准确性。为此，我们只考虑对象，如果他们有transmitting结果附加。这使得分析集中在转录准确性上，忽略了其他错误来源，例如不正确的时间分割或注释者在点击对象后忘记说出类名。选项卡. 图2显示了两种设置下的转录精度：使用和不使用词汇作为短语提示。短语提示允许指示可能出现在语音中的短语或单词，从而帮助ASR模型更频繁地正确转录它们。使用短语提示是获得高转录准确性所必需的。多亏了他们，Recall@3在COCO上的回收率为96.5%，持续时间[%]图像百分比5372图10：ILSVRC上的注释示例。对于每次点击，我们显示ASR模型的三个备选项（橙色）和最终的类标签（绿色）。前三个图像显示了我们的方法产生的典型注释。最后一个是失败案例：虽然正确的名称在备选项中，但与类别名称匹配的不正确转录排名较高，因此最终的类别标签是错误的。召回@1回忆@3COCO w/hints百分之九十三点一百分之九十六点五COCO w/o hints百分之七十点五百分之八十四点七ILSVRC w/hints百分之九十三点三百分之九十七点五ILSVRC w/o提示百分之七十点二百分之八十九点五图11：使用我们的界面（绿色）或[16]（红色）注释图像时产生的典型鼠标路径比较。圆圈表示点击。由于界面的简单和自然，我们的鼠标路径非常短。关于ILSVRC因此，前三个transname通常包含正确的类名，然后我们按照第二节中的描述提取。3.2.事实上，我们实际上认为上面的数字是主要任务中转录准确性的下限，因为在这里我们将转录与包含一些拼写错误的原始书面类名进行比较。此外，这里的注释器处于训练阶段，因此仍然在学习任务。总的来说，上述证据表明ASR提供了很高的准确性，对于标记对象类名来说绝对足够好。词汇用法。由于语音是自然的自由形式，我们感兴趣的是了解注释者使用词汇表之外的对象名称的频率。Thus, we anal- yse how often the written class name in theannotatortrain- ing task does not match a vocabulary name.我们发现，COCO上的注释者基本上只使用词汇表中的名称在ILSVRC上，他们仍然主要使用词汇表中的名称，尽管类的数量更多，导致错误记住他们的名称的风险更大（96.3%在词汇表中）。一些词汇表外的名字实际上是词汇表中名字的这些案件可能是表2：转录准确度。使用短语提示时准确度很高（见文本）。映射到它们在词汇表中的正确名称，如第2节所述。3.2.例如，对于ILSVRC数据集，一些注释器说在其他情况下，注释器使用词汇表外的名称，因为它们实际上标记了不在词汇表中的对象类（例如，“fork” and“rat”, which are not classes of我们发现我们的注释者训练任务有助于减少词汇表外名称的使用：在ILSVRC上，词汇名称的使用从训练中的96.3%增加到主任务中的97.5%。5. 结论我们提出了一种新的方法，快速对象类标记，传统上一直非常耗时的任务我们方法的核心在于言语：注释器简单地通过说出存在的对象类的名称来标记图像。在COCO和ILSVRC上的大量实验中，我们已经展示了我们方法的优点：它提供了相当大的速度增益2。3×-14。9倍于以前的方法[7，16]。最后，我们对我们和以前的接口进行了详细的分析，从而为构建高效的注释工具提供了我们相信，语音将有助于结合注释语义和几何属性的其他任务，因为说话和移动鼠标可以自然地同时完成[22]。事实上，我们正在进行的工作表明，当注释边界框时，类标签可以被注释而无需额外的成本。5373引用[1] A. Bearman，O. Russakovsky，V. Ferrari和L.飞飞这有什么意义：基于点监督的语义分割。在ECCV，2016年。一、三、六、七[2] R. A.螺栓“Put-that-there”：图形界面上的声音和手势。《SIGGRAPH》，1980年。2[3] E.克拉克森，J.克劳森，K。Lyons和T. Starner小型qwerty键盘打字率之实证研究。InCHI，2005. 2[4] D. 戴. 面向成本效益和性能感知的可视化算法。博士论文，苏黎世联邦理工学院，2016年。2[5] D. 达门， H. 道蒂 G. 玛丽亚·法里内拉， S. 菲德勒A. Furnari、E. Kazakos，D. Moltisanti，J. Munro，T.Perrett，W. Price，et al.扩展以自我为中心的愿景：EPIC-厨房数据集。在ECCV，2018。2[6] J. Deng，W.东河，巴西-地索赫尔湖J. Li，K. Li和L.飞飞。 ImageNet ：一个大规模的分层图像数据库。CVPR，2009。1[7]J. Deng， O. 鲁萨科夫斯基克劳斯， M. S. 伯恩斯坦A. Berg和L.飞飞可扩展的多标签注释。在CHI，2014. 一二三六八[8] K. A. 埃欣格湾Hidalgo-Sotelo，A.Torralba和A.奥利瓦在900个场景中建模搜索人物：一种眼导航的组合源模型。视觉认知，2009年。6[9] D. Harwath ， A.Recasens ， D. 苏尔赫斯湾 Chuang ，A.Torralba和J.玻璃. 从原始感觉输入中联合发现视觉对象和在ECCV，2018。2[10] A. G.豪普特曼用于图形图像操作的语音和手势。ACMSIGCHI，1989年。2[11] D.卡尼曼注意力和努力。Citeseer，1973年。2[12] C.- M. 卡拉特角Halverson，D.Horn和J.克拉大词汇量连续语音识别系统中的输入和校正模式在ACM SIGCHI。ACM，1999年。2[13] R. A. Krishna，K. Hata，S. Chen，J. Kravitz，D. A. 莎玛L. Fei-Fei和M. S.伯恩斯坦。拥抱错误以实现快速众包。InCHI，2016. 1[14] A. Kuznetsova，H. Rom，N. Alldrin，J.于伊林斯岛克拉辛J. Pont-Tuset，S. Kamali，S. Popov，M. Mallocus、T.Duerig和V.法拉利Open Images Dataset V4：统一的图像分类，对象检测和视觉关系检测。arXiv预印本arXiv：1811.00982，2018。一、三、四[15] I. H. Laradji，N. Rostamzadeh，P. O.皮涅罗D. Vazquez和M. 施密特Blob在哪里：计数通过定点监控进行本地化。arXiv预印本arXiv：1807.09856，2018。3[16] T.- Y. 林，M。迈尔，S。贝隆吉，J.Hays，P.Perona，D.Ra-manan ， P.Dolla'r 和 C.齐特尼克MicrosoftCOCO：上下文中的通用对象。2014年，在ECCV。一二三四五六七八[17] A.列拉斯河A. Rensink和J. T.恩斯快速恢复中断的视觉搜索：视觉与记忆相互作用的新见解。心理科学，2005年。7[18] S. Manen，M. Gygli，D. Dai和L.范古尔PathTrack：快速轨迹标注与路径监督。InICCV，2017. 第1、3条5374[19] P. Mettes，J. C. van Gemert和C. G.斯诺克现场：从点监督的建议行动本地化。在ECCV，2016年。第1、3条[20] T. Mikolov，K. Chen，G. Corrado，J。Dean.向量空间中词表示的有效估计。 arXiv 预印本 arXiv ：1301.3781，2013。4[21] S.奥维亚特动态交互式地图的多模式接口。InACMSIGCHI，1996. 2[22] S.奥维亚特多模式接口。人机交互手册：基本原理，不断发展的技术和新兴应用，2003年。二四八[23] S. Oviatt，A. DeAngeli和K.库恩多模态人机交互过程中输入模式的集成与同步。InCHI，1997. 2[24] D. P. 帕帕佐普洛斯A.D. F. Clarke，F.Keller和V.法拉利从眼动跟踪数据训练对象类检测器。2014年，在ECCV[25] D. P. Papadopoulos，J. R. Uijlings，F. Keller和V. 法拉利训练对象类检测器与点击监督。在CVPR，2017年。一、三、四[26] R. Pausch和J. H.莱瑟比实证研究：将语音输入添加到图形编辑器。美国语音输入/输出协会，1991年。2[27] K.雷纳阅读、场景感知和视觉搜索中的眼动和注意力。 Quarterly Journal of Experimental Psychology ，2009. 7[28]O. 鲁萨科夫斯基Deng，H.Su，J.Krause，S.萨蒂希S.妈Z。Huang，黄背天蛾A. 卡帕西A.科斯拉，M。伯恩斯坦A. Berg 和 L. 飞飞 ImageNet 大规模视觉识别挑战。IJCV，2015年。二三四六[29] O.鲁萨科夫斯基湖J.Li和L.飞飞两全其美：用于对象注释人机协作。CVPR，2015。一、三、六[30] H. Su，J. Deng，and L.飞飞用于视觉对象检测的众包注释。在AAAI人类计算研讨会，2012年。1、4[31] P. Vaidyanathan，E. Prud，J. B. Pelz，和C. O.施舍SNAG口语叙述和凝视数据集。ACL，2018年。2[32] A. B. 瓦苏代万角，澳-地Dai和L.范古尔视觉场景中的对象在CVPR，2017年。2[33] D. G. Watson和M.英格利斯眼动和基于时间的选择：在预览搜索中眼睛会去哪里？《心理学公报评论》，2007年。7

下载后可阅读完整内容，剩余1页未读，立即下载