视障人士的视觉问题的基础答案

77 浏览量更新于2023-10-26 收藏 1.66MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

19098视障人士提出的视觉问题的基础答案Chongyan Chen1，Samreen Anjum2，Danna Gurari1，21德克萨斯大学奥斯汀分校2科罗拉多大学博尔德分校摘要视觉问答是回答关于图像的问题的任务。我们介绍了VizWiz-VQA- Grounding数据集，这是第一个在视觉上为视障人士提出的视觉问题我们分析了我们的数据集，并将其与五个VQA接地数据集进行比较，以展示是什么使它相似和不同。然后，我们评估的SOTA VQA和VQA接地模型，并证明，目前的SOTA算法往往无法识别正确的视觉evidence的答案位于。当视觉证据占据图像的一小部分时，这些模型通常会遇到困难，因为图像质量更高，以及需要文本识别技能的视觉问题。数据集、评估服务器和排行榜都可以在以下链接中找到：https：//vizwiz.org/tasks-and-datasets/answer-grounding-for-vqa/.1. 介绍视觉问答（VQA）是一个任务，提供一个自然的语言回答有关的图像的问题虽然大多数VQA服务只返回自然语言答案，但我们的工作是出于这样一种信念，即VQA服务返回用于得出答案的图像中的区域也是有价值的。我们把找到相关视觉证据的任务称为答案接地。如果在回答视觉问题时提供答案基础，那么许多应用都是可能的。首先，它们能够评估VQA模型是否基于正确的视觉证据。这对于解释和支持开发人员调试模型都很有价值。第二，答案接地使分段相关内容的背景。考虑到摄影师可能无意中在其图像的背景中捕获私人信息[14]（如图1b所示），这是模糊背景以保护隐私的有价值的先驱第三，如果服务放大了相关的视觉证据，视力低下的用户可以更快地找到所需的信息。这是图1. (a)我们引入了一个新的数据集挑战，该挑战支持回答视力障碍者提出的视觉问题所需的视觉证据的任务。这实现了有价值的用例，包括（b）背景混淆以限制无意的隐私泄露，以及（c）自动放大以提高低视力用户这在一定程度上是有价值的，因为来自VQA服务的答案可能是不够的，包括因为人类遭受这在图1c中举例说明，其中来自10个答案的最流行的响应是通用答案“意大利面”而不是特定风味“奶油番茄罗勒通心粉虽然数据集的引入是为了鼓励在答案基础问题上取得进展，但所有提出的数据集挑战都源于人为的视觉问题[6，9，11，17，18，22，26，37，42]。这包括从照片共享网站（例如，Flickr），然后自动生成问题[6]，通过使用与问题模板配对的图像注释来创建关于图像的问题，或者（2）手动[9，11，18，42]，通过要求群众工作者提出关于图像的问题，这些问题会难倒机器人。然而，先前的工作已经表明，这种人为的设置可以表现出与真实VQA用例不同的特征[15，39]。这可能会导致算法在人为的19099数据集在部署用于真实用例时表现不佳[15，16]。此外，这可能会限制算法的设计，因为开发人员不知道他们的算法必须克服的额外我们介绍了第一个答案基础数据集，它来自一个真实的用例。我们专注于视觉问题，这些问题来自盲人，他们拍摄了照片并提出了关于照片的问题，以克服真正的视觉挑战[5]。该用例已被证明比人为设置表现出不同的挑战，包括图像质量较低[8]，问题更具对话性[15]，并且需要不同的视觉技能才能获得答案[39]。对于该人群提交的大约10，000个图像-问题对，我们收集了答案接地。然后，我们分析了答案接地，以揭示其特征，并显示它们与五个现有答案接地数据集的最后，我们对最先进的VQA进行了基准测试，并在我们的数据集上回答了接地模型，并展示了是什么让这个数据集对他们来说很困难，包括较小的答案接地，更高质量的图像，以及需要文本识别技能的视觉问题。我们提供这项工作作为设计模型的基础，这些模型对现实世界VQA设置中可能出现的更大范围的潜在挑战具有鲁棒性。在我们的数据集中观察到的挑战可以推广到其他场景，例如机器人和生活记录，这些场景同样会遇到不同的图像质量和文本信息（例如，杂货店）。为了鼓励社区在这些挑战方面取得进展，我们组织了一个数据集挑战，包括公共评估服务器和排行榜。详细信息可以在以下链接中找到：https://vizwiz.org/tasks-and-datasets/answer-grounding-for-vqa/。2. 相关工作VQA数据集。在过去的六年中，已经提出了许多大规模的VQA数据集[19，32，33，38]。社区在开发此类数据集时面临的一个关键挑战是语言偏见问题[12，23，27，30]。特别是，模型可以通过识别答案和问题的常见配对来学习利用在数据集中观察到的表面特征，并且从不查看图像。例如，当给出一个绿色香蕉的图像，并有一个相关的问题问“香蕉是什么颜色的？”时，VQA模型可能回答这个问题是可能的，部分原因是通用评估指标[4]仅基于文本答案评估模型性能为了消除这种偏见，已经创建了新的VQA数据集，以更平等地捕捉每个问题的可能答案范围[13]，并且使用这些平衡的数据集开发了我们的工作通过使算法开发者能够超越仅仅评估文本答案，并且还直接评估算法是否依赖于正确的视觉证据，对这一工作主体做出了贡献。回答接地数据集。为了解决VQA的视觉问题，已经引入了几个答案基础数据集，这些数据集定位了到达每个基于语言的答案所需的视觉内容[6，9，11，18，42]。虽然有些是通过跟踪人类在呈现视觉问题时的视线[6，9]或收集相关视觉证据周围的边界框[17，22，42]来创建的，但我们的工作与使用分割注释相关视觉证据的人类更紧密地一致[11，18，26]。这是因为我们也收集分割。我们提出了第一个反映真实VQA用例的答案基础数据集，并进行了广泛的分析，以展示它与五个现有答案基础数据集的关系/差异。VQA和并行接地算法。现代VQA算法通常依赖于注意力地图来确定在哪里寻找视觉问题的答案，多年来这一直是主导方法[9，29，41]。最近，一些研究人员将注意力转移到提供最佳VQA模型上，该模型应在满足正确的视觉清晰度方面优于所有其他VQA模型[37]。我们在我们的数据集上对最先进的VQA和答案接地模型进行基准测试，以检查它们在多大程度上成功地正确接地答案。实验表明，我们的新数据集是具有挑战性的现代算法，并显示哪些方面使它具有挑战性。视觉障碍者的辅助技术。许多有视觉障碍的人依靠视觉辅助设备来了解他们的周围环境。例如，视力低下的人通常依靠放大工具来更好地观察感兴趣的内容[20，28，31]，因为他们的视力有限，此外，低视力和无视力的人依赖于按需技术[1，2，5]，这些技术可以为提交的视觉问题提供答案。后一种用例的挑战是盲人无法检查他们是否无意中在图像中捕获了私人信息。然而，大约12%的VQA用例拍摄的照片包含隐私信息[14]，视障人士表示他们对泄露私人信息感到不安[3，34，35]。我们的工作可以为视力障碍人群带来广泛的利益，因为答案接地可以作为一个有价值的先驱，巧妙地放大视觉问题的视觉答案，减轻VQA服务中的偏见，并支持增加模糊的隐私措施。191003. VizWiz-VQA-接地数据集我们现在介绍我们的数据集，用于在真实用例中提出的视觉问题的基础答案，其中盲人试图了解他们的视觉表面。我们将此数据集3.1. 数据集创建数据集源。我们的工作建立在VizWiz-VQA数据集[15]的基础上，该数据集由32，842个图像问题对组成，每个问题对都有10个众包答案。除了用于公开可用的训练和验证分割的VQA三元组之外，我们还考虑了来自测试分割的VQA三元组，因为[15]的作者为此目的为我们提供了答案符号。这些图像和问题来自视障人士，他们分享这些图像和问题，以寻求日常生活中的视觉帮助。数据集过滤。我们设计了我们的数据集，专注于对视觉问题的基础答案，这些问题可以毫无疑问地扎根于单个区域。为了实现这一点，我们使用补充材料中描述的自动和手动技术的组合来过滤初始数据集。总之，我们删除了所有无法回答的问题，嵌入多个子问题，由于模糊性而涉及图像中的多个区域，无法接地，或者大多数人群不同意单个答案。这个过程总共留下了9，998个VQA，我们将其用于我们的新数据集。我们专注于为每个视觉问题提供最流行的答案。接地任务设计。通过反复的试点研究，我们设计了一个用户界面，用于回答视觉问题。一个人被显示的问题-答案对就在图像上方，然后必须通过点击图像上的一系列点来划分答案的基础，以创建一个连接的多边形。我们提供了大量的说明，涵盖了许多可能很棘手的注释场景。例如，当包含相同事物的多个区域需要被注释时（例如，一束花），我们指示注释器在连接区域时用单个多边形划分所有相关内容当问题询问可视实体的属性时（例如，衣服的颜色），我们指示注释器全面地注释将导致答案的所有区域，而不是最小可行区域。注释集合。我们实施了许多技术来支持收集高质量的结果。首先，我们开发了一个严格的三步过滤过程，以重新配置Amazon Mechanical Turk的专家众包工作者来完成我们的注释任务，我们在补充材料中对此进行了描述。总之，我们限制哪些用户可以完成我们的任务，提供资格测试，然后选择几个我们认为在我们的任务中表现出色的专家工人接下来，对于这些专家工作人员提交的所有工作，我们进行自动和手动质量控制，以验证我们可以继续信任他们的工作。最后，我们为每个VQA实例收集了两个答案接地（即图像-问题-答案三元组）。基于我们随后对答案接地何时以及为什么不同的分析，我们决定选择两个注释中较大的一个作为我们的地面实况注释，因为我们发现注释差异通常是因为一个是另一个的子区域而发生的。3.2. 数据集分析我们现在分析VizWiz-Visual Grounding数据集，该数据集由9，998个VQA三元组的9，998个接地组成。为此，我们计算每个接地：• 位置：其质心相对于整个图像的位置;即，a（x，y）坐标。每个坐标的范围可以从0到1。• 边界复杂度：归一化质心轮廓距离直方图的熵[7]，其中质心轮廓距离是分割边界上每个点到分割质心的距离值的范围可以从0到1。• 图像覆盖率：图像中所有像素所占的像素分数。值的范围可以从0到1。为了将我们的数据集与研究社区当前的焦点进行比较，我们还评估了通过手动分割注释过程类似生成的现有数据集的答案基础：VQS [11]，VQA-X [18]和TextVQA-X [26]。为了完整性，我们还包括CLEVR-Answers [37]和GQA [17]，因为这些接地用于验证最先进的答案接地方法[37]。与我们的数据集不同，所有这些数据集的图像都是从互联网上抓取的-包括VQS，VQA-X和GQA，它们从COCO [25]和TextVQA-X中提取图像，这些图像从Open Images v3 [21]中提取-或计算机生成，如CLEVR-Answers的情况。与我们的数据集的另一个不同之处在于，这些数据集的问题要么是由人群工作人员生成的-VQS，VQA-X，TextVQA-X-要么是计算机生成的，如GQA和CLEVR-Answers的情况。为了支持公平的比较，我们只考虑这些数据集中的视觉问题，对于这些问题，只有一个答案接地区域。总体结果。对于所有的数据集，关于样本接地总的来说，我们观察到所有数据集都有通常靠近图像中心的答案接地（表1）。这一点从平均值的组合中可以看出19101接地的相对位置我们的（0.48±0.14，0.51±0.15）VQA-X（0.50±0.16，0.53±0.19）VQS（0.50±0.20，0.52±0.21）文本VQA-X（0.49±0.21，0.48±0.25）CLEVR-Ans（0.50±0.19，0.45±0.13）GQA（0.50±0.20，0.54±0.19）表1.所示为每个数据集的所有答案接地位置相对于图像的平均值和标准差。在所有数据集中，答案接地往往位于图像的中心附近。坐标（0.5，0.5）周围的质心以及与这些坐标的相对小的标准偏差我们发现这个结果对我们的数据集来说是令人惊讶的，因为视障摄影师在拍摄照片时无法验证他们的兴趣内容。关于答案接地边界的复杂性，我们的数据集位于所有数据集的中间一个极端是收集边界框的两个数据集：CLEVR-Ans和GQA。这是因为当边界元是矩形时，边界复杂度的计算值为0。有趣的是，我们观察到超过一半的VQS答案接地也是矩形，如其中位数得分为 0 所示。另一个极端是以下数据集： VQA-X 和TextVQA-X。我们认为TextVQA-X较高的边界复杂度是由于其注释收集方法。具体来说，它是唯一一个使用画笔而不是在对象边界周围点击一系列点来收集接地的数据集。这意味着，这种注释方法导致了一个看起来更复杂的边界，而一个简单的多边形就足够了。我们的数据集与VQA-X最相似，VQA-X具有最高的中值复杂度，但我们的数据集也表现出较小的复杂度值范围。总的来说，使我们的数据集不同于其他数据集的关键标准是，它的答案接地比所有其他数据集具有更大范围的图像覆盖值。当比较图2（b）中所有数据集TextVQA-X占据最小的我们怀疑VQA-X、VQS和GQA共享相似的大小，因为它们都是从相同的图像源生成的我们将我们的数据集包含许多比其他数据集大得多的答案基础归因这种区别在图3中举例说明，其中视力受损的摄影师通过将键盘靠近握住相机的手来拍摄照片。总之，这一发现不-图2.箱形图显示了每个数据集的答案接地的（a）边界复杂性和（b）图像覆盖范围的值范围。对于每个框，中心标记表示中值分数，框边缘表示第25和第75个中值分数，须线表示不考虑离群值的最极端数据点，并单独绘制离群值。总体而言，我们的数据集显示了边界复杂性的中等范围和答案基础大小的最大范围。图3.在我们的数据集和VQS数据集中回答“键盘”的基础这证明了我们数据集中的答案接地可以涉及图像中的大区域，因为真实用例中的摄影师会放大感兴趣的内容，尝试只拍摄相关内容。derscores我们的数据集的一个独特的好处，因为它激发了算法的设计，可以同时定位非常大和非常小的区域。最常见的问题接下来，我们将评估我们的数据集如何与VizWiz-VQA-Grounding数据集中五个最常见的视觉问题的现有答案基础数据集进行比较。最常见的问题是：1请注意，这些问题在VQA-X、CLEVR-Answers和GQA数据集中均未观察到。因此，我们从比较中排除了这三个数据集。对于每个数据集，关于这些问题的基础分析如表2所示，位置如图4所示，边界复杂性和图像覆盖范围如图4所示。1我们把下列问题归为一类：“这是什么”、“这是什么”、“这是什么物品”、“那是什么”、“那是什么”、“请问这是什么”归为我们还将以下问题组合在一起：19102（0.69± 0.09，0.45 ±0.09）（0.8，0.46）--(0.47± 0.37，0.56 ±0.13）-（0.62，0.21）表2.显示的是我们数据集中观察到的五个最常见问题的所有答案接地位置相对于每个数据集图像的平均值和标准差。“-”表示由于数据集缺少问题，因此未计算统计数据。结果表明，不同的问题通常具有不同的典型位置，特别是在不同的数据集上。图4.对于每个数据集，箱形图显示了我们数据集中最常见问题的答案基础的值范围：（a）边界复杂度和（b）图像覆盖率。（图2描述了箱形图可视化）在所有数据集上，我们观察到不同类型的问题表现出不同的典型位置，边界复杂性和彼此的大小。例如，在图4（b）中，我们看到“这是什么意思”的平均边界复杂度对于我们的数据集来说唯一地接近于零，因此通常可以用矩形接地。我们期待算法能够利用这些差异来学习预测性线索，为答案打下基础。我们还观察到，在不同的数据集中，同一问题的答案基础的特征有很大这在检查“这是什么颜色”和“这是什么意思”的结果时是明显的答案接地的典型位置（表2）、边界复杂度值的典型范围（图4a）和图像覆盖值的典型范围（图4b）存在相当大的差异因此，如果在其他数据集上训练的模型是双向学习的，图5.对于每个数据集，箱形图显示了我们数据集中最常见答案的答案接地值的范围：（a）边界复杂度和（b）图像覆盖率。（图2描述了箱形图可视化）最常见的答案。我们对最常见的问题进行了平行分析，但现在针对VizWiz-VQA-Grounding数据集中最常见的五个答案：“是”，“白色”，“否”，“键盘”和“狗”。[2]对于每个数据集，我们分析了这些特定答案的基础。我们观察到，所有答案的相对位置都是相似的，答案通常位于图像的中心。由于篇幅所限，我们将这些结果包括在补充材料中。相比之下，我们观察到不同的答案表现出不同的边界复杂度（图5a）和相对大小（图5b）的统计数据，无论是在每个数据集内还是在不同的这加强了我们从最常见问题中得出的结论。答案差异可以产生用于基础答案的有价值的预测线索，并且跨数据集评估对于防止模型学习特定数据集中的答案和答案基础特征之间的表面相关性可能是有价值的。具体问题和答案之间的基础位置-在没有真正理解问题的情况下，它们将很难推广到我们的新数据集（反之亦然）。2我们将分析限制在一个与颜色相关的答案上，以支持我们分析中的更大多样性。公司简介这是什么这件衬衫是什么颜色这个盒子这说明什么我们VQS(0.48± 0.11，0.51±0.11）(0.50± 0.07，0.51 ±0.08）（0.50± 0.06，0.50±0.07）(0.55± 0.12，0.64±0.15）(0.48± 0.14，0.47±0.16）-19103∼图6.箱形图显示了（a）边界复杂度和（b）图像覆盖率的值范围，这些（图2描述了箱形图可视化）回答视觉问题所需的视觉技能。我们还使用VizWiz-VQA-Skills数据集[39]中提供的标签，针对回答视觉问题所需的技能类型对数据集进行了细粒度分析。总的来说，我们再次观察到，答案接地通常位于图像的中心，相对于视觉技能。由于篇幅所限，我们将这些结果包括在补充材料中。相反，我们观察到不同的视觉技能与图像覆盖率的不同统计数据相关（图6b）。相反，视觉技能也可以提供有价值的预测线索，算法在试图寻找答案时可以抓住这些线索。例如，关于尝试阅读文本的视觉问题往往在图像中具有相对较小的视觉基础区域，并且通常可以用简单的边界区域（例如，有四点）。相比之下，与识别颜色相关的问题往往具有更大的视觉基础区域和更复杂的边界。我们将这种区别归因于文本是具有清晰印刷边界的一致结构良好的实体，而颜色可以用于描述结构较少的实体，例如可以表现出各种形状的衣服。4. VQA的自动接地答案使用我们的基础数据集，我们现在量化了最先进的VQA模型在多大程度上查看图像中的正确区域来回答问题。数据集拆分。我们的VizWiz-VQA-Grounding数据集这在训练、验证和测试集中分别产生了6，494、1，131和2，373个视觉问题。基线模型。我们总共测试了六种模型。首先，我们为2021 VizWiz-VQA数据集选择了具有公开代码的性能最佳的VQA算法挑战[15]和主流2021 VQA数据集挑战[13]，即分别具有VinVL图像特征[40]的LXMERT[36]和OSCAR[24]这两个模型都是在各自挑战数据集的训练分割上进行预训练的。为了生成注意力掩码，我们遵循[36]中描述的过程来分析每个模型的注意力图。使用默认参数，跨多个注意力头部的注意力权重被扩展并平均以获得最终的注意力图。然后应用0.5的阈值来生成最终的二进制分割掩码。我们还选择了最先进的模型来进行答案接地：MAC-Caps [37]。给定图像和问题，MAC-Caps预测图像上的答案和注意力权重。如在[37]中所做的，我们通过将0.5的阈值应用于从最后一个推理步骤中提取的注意力权重来获得最终的二进制分割掩码我们对MAC帽的四种变体进行了基准测试。我们使用分别在GQA和CLEVR上预训练的两个模型，如原始论文中所述。接下来，我们使用VizWiz-VQA [15]数据集的训练分割从头开始训练MAC-Caps算法。最后，我们还使用VQA-v2数据集的训练分割从头开始训练MAC-Caps算法[13]，因为该数据集的设计旨在防止模型学习语言偏见，而是鼓励模型查看图像。评估指标。我们采用Intersection over Union（IoU）来衡量每个二进制分割掩码与地面真值分割的相似性值的范围从0到1，值越大表示性能越好。我们计算所有测试示例的平均IoU得分，并以百分比形式报告结果（即，IoU值x 100）。我们还使用检测和定位任务的通用指标进行评估：mAP@IoU。根据COCO评估协议，我们使用不同的IoU阈值，从0.25到0.75，以及IoU阈值在0.5到0.95范围内的平均AP值，步长为0.05。由于篇幅所限，结果载于补充材料。总之，这些结果加强了我们关于IoU指标的发现，如下所述。总体结果。表3显示了每个型号在VizWiz-VQA-接地测试中的性能。报告所有视觉问题（第3列）以及仅每个模型正确预测答案的视觉问题子集（第4列）的Per-Per-Per。我们观察到所有模型的整体表现都很差。例如，在VizWiz-VQA数据集上训练的性能最好的MAC-Caps模型达到了27.43%的IoU得分。当只考虑模型预测正确答案的那些视觉问题时，故事只有适度的改善;即，IoU上升了5%--年龄点达到32.8%。这些发现表明，现有的19104(a)图像覆盖率（b）图像质量（c）视觉技能图7.比较MAC-Caps（在VizWiz上预训练）、LXMERT和OSCAR在以下方面的表现：（a）包含不同尺寸注意区域的视觉问题，（b）具有不同质量问题严重程度的图像的视觉问题，以及（c）需要不同视觉技能才能正确回答的视觉问题。总体而言，我们观察到（a）较小的答案接地，（b）没有质量问题的图像，以及（c）需要计数技能的视觉问题对模型来说是最具挑战性的。模型预训练平均IoU平均IoU（正确）公司简介VizWiz-VQA22.0926.96（906）奥斯卡VQA-v215.4819.79（693）MAC-帽GQA12.5617.77（270）MAC-帽Clevr15.3110.98（60）MAC-帽VQA-v217.4219.58（374）MAC-帽VizWiz-VQA27.43 32.8（352）表3.在VizWiz-VQA-接地测试集上评价六个模型的性能：两个最先进的VQA模型（LXMERT [36]和OSCAR [24]）和四个用于回答接地的最先进 VQA 模型变体（ MAC-Caps[37]）。IoU得分（每个模型的所有2，373个样本的平均值）以百分比报告。括号中的数字是每个模型正确预测的答案总数用于引导模型查看正确的视觉证据的机制是不够的。这包括用于回答基础的最新算法（即，MAC-Caps）和主流VQA数据集[13]，后者旨在鼓励模型查看图像。我们的研究结果表明，更好的答案接地的最佳指标特别是，前两种方法是在 VizWiz-VQA 上训练的LXMERT和MAC-Caps。有趣的是，这两个模型都没有用答案接地进行训练，因此都不能从直接监督答案接地的样子中受益总而言之，这一发现突出了视觉障碍者的真实用例与生成其他数据集的人为设置之间的相当大的领域转移。我们还观察到，对于VQA任务，最先进的VQA算法大大优于在相同数据集上预训练的最先进的答案基础模型。具体而言，与MAC-Caps相比，LXMERT预测的正确答案数量是其2.5倍以上，而OSCAR预测的正确答案数量几乎是其2倍。这一发现表明，最先进的VQA模型的成功很大一部分仍然源于学习偏差与相关的视觉证据无关在下文中，我们对性能最好的视觉基础模型（在VizWiz-VQA上预训练的MAC-Caps）和两个最先进的VQA模型（LXMERT和OSCAR）进行细粒度分析图像覆盖分析。接下来，我们根据答案接地的相对大小来评估每个模型为此，我们根据图像覆盖率将测试VQA实例分为“小”、“中”和“大”三个组，具体来说，它们是否分别占据图像的1/3、测试集中总共有1456个小样本，458个中等样本和459个大样本。结果示于图7a中。总的来说，我们观察到所有模型都在努力预测小集合的答案虽然这一发现并不一定令人惊讶，但我们相信它仍然值得通过实验来证明。有趣的是，性能最好的答案接地模型（ MAC-Caps）在接地答案方面优于两种最先进的VQA模型（LXMERT和OSCAR），这当检查中位数IoU分数时，这一点很明显，MAC- Caps的中位数大约是其他两个模型的两倍。未来工作的一个有价值的领域将是破译是什么使MAC-Caps能够更好地处理这些与主流VQA模型相比更小的答案区域。图像质量分析。接下来，我们评估每个模型首先，我们遵循[16]中描述的过程，根据五名众包工作者的质量评级将VQA分为“无”，“中等”和“严重”质量问题的三个桶结果示于图7b中。我们也是-19105关于特定质量问题的安全性能（即，框架不佳、模糊、过暗、过亮、模糊和旋转不当），并且由于空间限制，在补充材料中提供结果。令人惊讶的是，我们观察到没有任何质量问题（“无”）的图像在进一步分析后，我们发现这是因为这些图像具有较小的答案区域，因此显示出与针对图像覆盖的具有“小”注意区域的图像所观察到的相似的性能。具体而言，“无”、“中等”和“严重”图像的平均注意区域分别为0.28、0.47和0.83。这也解释了为什么模型在“严重”图像上表现得更好，因为它们往往有更大的答案区域。进一步的分析还显示，82%的视觉技能分析。接下来，我们根据回答问题所需的视觉技能评估每个模型具体来说，这些技能是物体识别，颜色识别，文本识别和计数。结果报告于图7c中。我们一致地观察到，在所有模型中，它们在涉及文本识别和计数的问题上表现较差，而在涉及对象识别和颜色识别的问题上表现较好。我们怀疑我们观察到后两种技能的性能有所提高，因为颜色识别具有相对简单的图像分析组件，并且与许多其他视觉任务相比，对象识别模型已经变得相当先进，因为ImageNet数据集挑战引发了对问题的大量关注[10]。这一发现也可能部分归因于我们之前的观察，即文本识别的答案接地往往具有较小的答案接地，而颜色识别往往具有较大的视觉接地区域（第3.2节），并且模型在较小的答案接地下表现更差（第4节）。分析文本的存在。我们还分析了答案接地包含文本的频率。我们应用Microsoft Read API来检测和识别接地区域中的文本。在9,998个回答接地，约52%（即，5，207张图像）被检测为包含文本。对于这个子集，我们将提取的文本与地面真相答案进行了比较。我们发现，在检测到的文本中仅存在7%的真实答案第372章视觉问题这表明，大多数语言的答案不能直接从检测到的文本中找到答案接地。定性结果。最后，我们展示了性能最好的答案接地模型MAC的定性结果，图8.定性结果举例说明了来自最佳模型的答案基础，MAC-Caps在VizWiz-VQA上进行了预训练。Caps在VizWiz-VQA上预训练结果如图8所示。这些示例说明了大范围大小的答案接地（例如，第3行与第4行）以及需要不同视觉技能的视觉问题，例如第1行和第3行的文本识别、第2行的对象识别以及第4行的颜色识别。当观察模型的预测时，我们发现结果加强了我们的定量发现，即模型经常失败。这些答案接地故障包括模型预测正确的自然语言答案（第1行和第4行）和预测不正确的答案（第2行和第3行）。5. 结论我们的VizWiz-VQA-Grounding数据集为支持社区设计偏差较小的VQA模型和更准确的答案接地模型提供了坚实的基础，这些模型可以作为一系列实际应用的宝贵先驱。我们将公开发布数据集以及公共评估服务器和领导委员会，以刺激社区在这个重要的答案基础问题上取得进展我们对最先进模型的基准测试揭示了未来模型需要克服的当前限制未来的工作将需要建立如何确保这些算法真正学会理解视觉问题，而不是学习视觉问题的属性与其答案基础之间的表面相关性。致谢。我们感谢微软AI4A和亚马逊土耳其机械公司的资金支持。19106----引用[1] 做我的眼睛 - 一起看世界。 https ： //www.bemyeyes.com/。访问时间：2021-11-15。2[2] 不光彩的网址：http：//www.bespecular.com/完成日期：2021年11月15日。2[3] Taslima Akter ， Bryan Dosono ， Tousif Ahmed ， ApuKapadia，and Bryan Semaan.“我不舒服分享我看不到的东西”：基于摄像头的辅助应用程序对视力受损者的隐私问题。第29届USENIX安全研讨会（USENIX Security20），第1929- 1948页，2020年。2[4] Stanislaw Antol ， Aishwarya Agrawal ， Jiasen Lu ，Margaret Mitchell，Dhruv Batra，C Lawrence Zitnick，and Devi Parikh.Vqa：可视化问答。在IEEE计算机视觉国际会议论文集，第2425- 2433页2[5] Jeffrey P Bigham ，Chandrika Jayant， Hanjie Ji，GregLit- tle ， Andrew Miller ， Robert C Miller ， RobinMiller ， Aubrey Tatarowicz ， Brandyn White ， SamualWhite，et al. Vizwiz：nearly real-time answers to visualquestions. 在 Proceedings of the23nd annualACMsymposium on User interface software and technology ，pages 3332[6] 史晨，姜明，杨金辉，齐赵空气：注意力与推理能力。arXiv预印本arXiv：2007.14419，2020。一、二[7] Yinpeng Chen和Hari Sundaram。2d形状复杂度的估计。2005年IEEE第7届多媒体信号处理研讨会，第1-4页。IEEE，2005年。3[8] Tai-Yin Chiu，Yinan Zhao，and Danna Gurari.评估现实世界问题的图像质量问题 arXiv 预印本 arXiv ：2003.12511，2020。二、七[9] Abhishek Das 、 Harsh Agrawal 、 Larry Zitnick 、 DeviParikh和Dhruv Batra。视觉问题回答中的人类注意力：人类和深层网络看的是同一个区域吗计算机视觉和图像理解，163：90一、二[10] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议，第248-255页。Ieee，2009年。8[11] 甘闯，李延东，李浩祥，孙晨，龚伯庆. Vqs：将分割与问题和答案联系起来，以在vqa和以问题为中心的语义分割中进行监督注意在IEEE国际计算机视觉会议论文集，第1811-1820页，2017年。一、二、三[12] Yash Goyal 、 Tejas Khot 、 Douglas Summers-Stay 、Dhruv Batra和Devi Parikh。使vqa中的v重要：提升图像理解在视觉问答中的作用。在IEEE计算机视觉和模式识别会议论文集，第6904-6913页，2017年。2[13] Yash Goyal 、 Tejas Khot 、 Douglas Summers-Stay 、Dhruv Batra和Devi Parikh。使VQA中的V重要：提升图像理解在视觉问题表达中的作用。在计算机视觉和模式识别会议（CVPR），2017年。二六七[14] Danna Gurari，Qing Li，Chi Lin，Yinan Zhao，AnhongGuo ， Abigale Stangl ， and Jeffrey P Bigham. Vizwiz-priv：用于识别盲人拍摄的图像中私人视觉信息的存在和目的的数据集。在IEEE计算机视觉和模式识别会议上，第939-948页，2019年。一、二[15] Danna Gurari ， Qing Li ， Abigale J Stangl ， AnhongGuo ， Chi Lin ， Kristen Grauman ， Jiebo Luo ， andJeffrey P Bigham. Vizwiz大挑战：回答盲人的视觉问题。在IEEE计算机视觉和模式识别会议论文集，第3608- 3617页，2018年。一、二、三、六[16] 丹娜·古拉里，赵一南，张梦，尼拉夫拉·巴塔查里亚。为盲人拍摄的照片配上字幕。arXiv预印本arXiv：2002.08565，2020。二、七[17] Drew A Hudson和Christopher D Manning Gqa：一个用于真实世界视觉推理和组合问题回答的新数据集。在IEEE计算机视觉和模式识别会议集，第6700- 6709页，2019年。一、二、三[18] Dong Huk Park，Lisa Anne Hendricks，Zeynep Akata，Anna Rohrbach，Bernt Schiele，Trevor Darrell和MarcusRohrbach。多模态解释：证明决策和指向证据。在IEEE计算机视觉和模式识别会议论文集，第8779-8788页，2018年。一、二、三[19] Kushal Kafle和Christopher Kanan。可视化问答算法分析。2017年10月在IEEE计算机视觉国际会议（ICCV）上发表。2[20] 理查德·L·克莱恩和以法莲·P·格林纳特。改善低视力人群的GUI可访问性。在SIGCHI计算机系统中人为因素会议的会议中，第114-121页，1995年。2[21] Ivan Krasin 、 Tom Duerig 、 Neil Alldrin 、 VittorioFerrari、Sami Abu-El-Haija、Alina Kuznetsova、HassanRom、Jasper Ui- jlings、Stefan Popov、Andreas Veit、Serge Belongie、Vic- tor Gomes、Abhinav Gupta、ChenSun、Gal Chechik、David Cai、Zheyun Feng、DhyaneshNarayanan和Kevin Murphy。Openimages：用于大规模多标签和多类图像分类的公共数据集。数据集可从https://github.com/openimages，2017年。3[22] Ranjay Krishna ， Yuke Zhu ， Oliver Groth ， JustinJohnson，Kenji Hata，Joshua Kravitz，Stephanie Chen，Yannis Kalan-Kang，Li-Jia Li，David A Shamma，et al.Visual genome ： Connecting language and vision usingcrowdsourced dense image annotations.国际计算机视觉杂志，123（1）：32-73，2017。一、二[23] Gouthaman KV和Anurag Mittal。用基于视觉的问题编码器减少视觉问答中的语言偏见。InComputerVision-ECCV 2020 ： 16th European Conference ， Glasgow ，UK，August 23-28，2020，会议记录，第十三，第18Springer，2020年。2[24] Xiujun Li，Xi Y

下载后可阅读完整内容，剩余1页未读，立即下载