评估真实世界问题中的图像质量问题

48 浏览量更新于2023-10-24 收藏 1.23MB PDF 举报

大规模数据集

质量缺陷

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1评估真实世界问题的图像质量问题Tai-Yin Chiu，Yinan Zhao，Danna Gurari德克萨斯大学奥斯汀分校摘要我们引入了一个新的大规模数据集，将图像质量问题的评估与两个实际的视觉任务联系起来：图像字幕和可视问题回答。首先，我们确定了盲人拍摄的39，181张图像是否具有足够的质量来识别内容，以及从六个选项中观察到的质量缺陷。这些标签作为我们做出以下贡献的关键基础：（1）用于决定图像是否不足以识别内容并因此不可加标题的新问题和算法，（2）用于决定图像包含六个质量缺陷中的哪一个的新问题和算法，（3）一种新的问题和算法，用于确定视觉问题是否由于不可识别的内容而无法回答，而感兴趣的内容从视场中丢失，以及（4）一种更有效地创建大规模图像的新应用通过自动决定图像质量是否不足，因此不应添加字幕，来为数据集添加字幕。我们公开分享我们的数据集和代码，以促进这项工作的未来扩展：https://vizwiz.org。1. 介绍对于许多现实世界的计算机视觉应用来说，低质量图像是不可避免的、间歇性的在一个极端，它们可能危及生命，例如当它们阻碍自动驾驶汽车[60]和交通控制器[30]安全导航环境的能力时。在其他情况下，当它们向观看观众传达负面印象时，例如在社交媒体或约会网站上，它们可以作为刺激物。尽管低质量图像经常出现在实际环境中，但在旨在识别质量问题的研究与旨在执行下游视觉任务的研究之间存在很大的脱节。对于专注于发现图像中观察到的质量问题的研究人员来说，他们的进展主要来自人工构建的设置，在人工构建的设置中，他们在公开可用的数据集上训练和评估算法，这些数据集是通过扭曲高质量图像来模拟质量问题（例如，使用JPEG压缩或高斯模糊）[41，48，12，21，37，36，25，31]。Yet, these contrivedenvironments typically lack sufficient sophistication to cap-ture the plethora of factors that contribute to quality issuesin natural settings (e.g.,相机硬件、照明、相机抖动、场景障碍物）。此外，质量问题与它们是否与完成特定视觉任务的能力有关无关至于专注于特定任务的研究人员，他们的大部分进展都是从缺乏低质量图像的这是因为支持这种算法开发的流行的公开可用数据集的创建者通常包括一个步骤，以过滤掉被认为对最终数据集质量不足的任何候选图像[11，14，23，9，53，28，59]。因此，这样的数据集缺乏将使得训练算法能够识别何时图像的质量不足以完成给定任务的数据出于将图像质量评估与实际视觉任务联系起来的目的，我们引入了一个新的图像质量评估（IQA）数据集，该数据集来自真实用例。具体来说，我们的数据集是围绕39，181张图像构建的，这些图像是由盲人拍摄的，他们真正试图了解他们使用VizWiz手机应用程序拍摄的图像[5]。在这些图像中，17%被提交以收集来自远程人类的图像标题。其余83%的人提交了一个问题，以收集他们的视觉问题的答案。如先前工作中所讨论的[7，17]，用户提交了这些图像和视觉问题（即，带问题的图像）来克服他们在日常生活中面临的真正的视觉挑战。他们通常会等待近两分钟才能收到远程人类的响应[5]。对于每一张图片，我们要求众工作者要么提供描述它的说明我们称这个任务为不可识别性分类任务。我们还要求众包工作者给每张图像贴上质量缺陷的标签，这些质量缺陷在文献[7，12]中更传统地讨论过：模糊，过度曝光（明亮），曝光不足（黑暗），不适当的框架，障碍和旋转视图。我们称此任务为质量缺陷分类任务。在我们的数据集中得到的标记图像的例子如图1所示。总之，我们称之为36463647图1：我们引入了一个新的图像质量评估数据集，称为VizWiz-QualityIssues。显示的是标签分类的示例，范围从没有质量问题到六个质量缺陷，再到无法识别/无法添加标题的图像。图像可以表现出上述标签的不同组合，例如，无法识别的图像也被标记为图像模糊和帧差。数据集VizWiz-QualityIssues。然后，我们展示了这个新数据集的价值，用于几个新的目的。首先，我们介绍了一个新的问题和算法，用于预测图像是否具有足够的质量来添加标题（第4节）。这对盲人摄影师来说是非常有用的，否则他们必须等待近两分钟才能知道他们的图像不适合图像字幕。接下来，我们进行实验，以证明该预测系统在创建大规模图像字幕数据集时的额外好处，同时减少浪费的人力（第4.3节）。最后，我们介绍了一个新的问题和算法，通知用户谁提交了一个新的视觉问题是否可以回答，不能回答，因为图像内容是unrecognizable，或不能回答，因为图像内容是从图像（第5节）失踪。这对盲人摄影师也有直接的好处，使他们既能快速失败，又能获得宝贵的洞察力，了解如何更新视觉问题，使其变得可以回答。更广泛地说，我们的工作强调了在特定任务背景下定义质量的重要性我们期望我们的工作可以推广到相关的视觉任务，如目标识别，场景分类，和视频分析。2. 相关工作图像质量数据集。存在许多图像质量数据集以支持图像质量评估（IQA）算法的开发，包括LIVE [41，48]、LIVE MD [21]、TID 2008 [37]、TID 2013 [36]、CSIQ [25]、[31]《易经》：“君子之道，焉可诬也？有始有卒者，其惟圣人乎！跨大多数这样的数据集的共同性在于，它们源自被人为扭曲以引入图像质量问题的高质量图像。例如，LIVE [12]由779个失真图像组成，这些图像是通过在多个失真位置应用五种不同类型的失真而29张高质量的照片。然而，在真实世界设置中出现的图像质量问题与通过模拟高质量图像的失真发现的图像质量问题相比表现出不同的因此，我们的工作补充了最近创建大规模数据集的努力，这些数据集标记了自然图像中的质量问题[12]。然而，我们的数据集是相当大的，提供了大约19倍的自然失真图像的数量增加;也就是说，我们的数据集中有20，244张图像，而[12]的图像为1，162张。此外，虽然[12]为每个图像分配单个质量分数以捕获各种图像质量问题中的任何一个，我们的工作重点是识别每个不同质量问题的存在，并评估质量问题对真实用户的实际应用需求的影响。图像质量评估。我们的工作还涉及文献，介绍了评估图像质量的方法。其中一部分工作假设开发人员可以访问每个小说图像的高质量版本，无论是部分还是全部。例如，对于全参考IQA算法[48，50，57，41，25，6，39]，根据原始完整图像评价失真图像，对于简化参考IQA算法[49，26，47，42，38，32，51]，根据原始完整图像的由于我们的自然背景固有地限制了我们获得原始的、完整的图像，我们的工作反而与第二部分工作相一致，第二部分工作是围绕着没有原始的、参考图像的假设而建立的;也就是说，无参比IQA（NR-IQA）。相反，NR-IQA算法预测每个新图像的质量分数[33，22，47，56，55，29，43，6，44]。虽然已经为此目的引入了许多算法，但我们对五种流行的NR-IQA模型（即，[22]第23话，我的世界，我的世界。NRIQA [6]和NIMA [44]）表明，它们不足以完成我们评估哪些图像的新任务3648无法识别，因此无法添加标题（在第4节中讨论）。因此，我们为此目的引入新的算法，并证明其优势。高效创建大规模视觉数据集。在过去的20年里，视觉社区的进步在很大程度上被大规模视觉数据集的创建所衡量和加速。通常，研究人员从在线图像搜索数据库中抓取这些数据集的图像[11，14，23，9，53，28，59]。在这样做的过程中，他们通常会收集大量高质量的图像，因为这些图像首先通过上传者的评估，即它们具有足够的质量来公开共享。相比之下，当采用“在野外”捕获的图像时，识别和移除具有不可识别内容的图像可能是昂贵、耗时的过程。因此，我们量化了这个问题的成本，引入了一个新的问题和算法，用于在图像内容对人类来说是不可识别的并且因此应该被丢弃时进行解密，并且证明了这种解决方案对于更有效地创建大规模图像字幕数据集的益处盲人摄影师的辅助技术。我们的工作涉及有关帮助盲人拍摄高质量照片的技术文献[1，5，20，45，58]。现有的解决方案已经可以帮助摄影师改善图像聚焦[1]、照明[5]和构图[20，45，58]。此外，算法可以告知摄影师他们对自己的图像的问题是否可以回答[17]，以及为什么人群难以提供答案[4，15]。作为对先前工作的补充，我们引入了一套新的AI问题和解决方案，用于在提醒盲人摄影师观察到什么图像质量问题时提供更细粒度的指导具体而言，我们引入了以下新问题：（1）确定图像内容是否可以被识别（并且因此被加帽），以及（2）当关于图像的问题可以被回答、因为图像内容不可识别而不能被回答、或者因为感兴趣的内容从图像中缺失而不能被回答时，进行解密3. VizWiz-Quality问题我们现在描述我们创建一个大规模的、人类标记的数据集，以支持可以评估图像质量的算法的开发。我们专注于一个容易出现图像质量问题的真实用例。具体而言，我们构建了39，181张公开可用的图像[16，17]，这些图像来自盲人摄影师，他们每个人都向VizWiz移动电话应用程序[5]提交了一张图像，可选地，一个问题，以便从远程人类那里接收图像的描述由于盲人摄影师无法验证他们拍摄的图像质量，因此数据集证实了质量问题的多样性，在实践中自然发生我们将在下面描述如何创建和分析我们的新数据集。3.1. 数据集的创建我们的数据集围绕着阻碍盲人日常生活的质量问题具体来说，一个明确的、响亮的信息是，盲人需要帮助拍摄足够高质量的图像，以便视力正常的人能够描述它们或回答有关它们的问题[5，7]。质量问题分类。我们认为的一个质量问题标签是图像内容是否足以让视力正常的人识别，以便为图像添加标题。我们还标记了大量的质量缺陷，以将我们的工作与其他类似的专注于评估图像质量的论文联系起来[7，12]。具体而言，我们包括以下类别：blur（图像是否模糊？），明亮（图像是否太亮？），暗（图像是否太暗？），障碍物（摄影师的手指在镜头上挡住了场景，还是其他意外的物体？），框架（图像中是否缺少部分必要项目？），旋转（图像是否需要旋转以正确查看？），其他，没有问题（图像中没有质量问题）。图像标记任务。为了有效地标记所有图像，我们将任务设计为在众包平台Amazon Mechanical Turk上运行。任务界面的左半部分是一张图片，右半部分是用户输入栏。首先，众包工作者被要求用一句话描述图像，或者点击一个按钮将图像标记为质量不足以识别内容（因此不可添加标题）。单击按钮时，图像描述将自动填充以下文本：“质量问题太严重，无法识别视觉内容。”接下来，指示群组工作人员从观察到的预定义列表中选择所有图像质量缺陷显示了上面确定的六个该界面使工作人员能够调整他们对图像的看法，使用工具栏放大，缩小，平移或旋转图像，如果需要的话。为了鼓励更高质量的结果，界面阻止用户完成任务，直到提供完整的句子并且从“图像质量缺陷”选项中选择至少一个选项用户界面的屏幕截图见补充材料。众包标签。为支持收集高质量标签，我们只接受成功完成超过500个HIT且接受率至少为95%的众工。此外，我们还收集了冗余结果。具体-3649实际上，我们招募了五名群众工作者来标记每张图片。我们认为一个标签只有在至少有两个众包工作者选择了这个标签时才有效3.2. 数据集的表征质量问题的普遍性。我们首先研究了盲人拍摄的图像出现各种质量问题的频率，以确定（非）常见原因。要做到这一点，我们统计了不可识别图像和每个质量缺陷出现的频率。大约一半的图像存在图像质量缺陷（即，1-P（非）= 51。6%）。我们观察到最常见的原因是图像模糊（即，41岁0%）和不适当的框架（即， 55. 6%）。相比之下，只有一小部分图像被标记为太亮（即，五、3%），太暗（5. 6%），有物体遮挡场景（3。6%），需要-如果观看者倾斜他们的头部（或应用视觉显示工具来旋转图像），仍然可以识别其次，标记为无缺陷（NON）的图像只有3个。9%的人认为无法辨认。这个微小的数量符合“无法识别”和“没有缺陷”是两个相互冲突的概念尽管如此，这个百分比不是0%的事实突出了人类可以提供不同的观点。换句话说，图像质量评估任务可以是主观的。可能的图像有每个质量缺陷，因为它的内容是无法识别的。接下来，我们将检查图像在其内容无法识别的情况下表现出每个质量缺陷的概率。结果如图2所示。总的来说，我们的研究结果与“质量问题的普遍性”段落中确定的结果相似比如我们为了成功观看而旋转（17. 5%），或其他原因（0。8%）。统计数据揭示了如何改进辅助摄影工具改善盲人用户的体验。具体来说，主要功能应该集中在相机抖动检测和对象检测上，以减少拍摄模糊或框架缺陷图像的可能性。我们还观察到，图像质量问题非常严重，14.8%的图像内容被认为无法识别。从绝对值来看，这意味着，3，829美元和379小时的人工注释被浪费在雇用众包工作者为包含无法识别内容的图像添加标题上。1.换句话说，大量的储蓄可以无法识别的质量缺陷80706050403020100由于质量缺陷无法识别这可以通过自动过滤这种不可加字幕的图像来实现，使得它们不被发送给众包工作者。我们将在第4.3节中进一步探讨这个想法。图2：左：有质量缺陷的图像百分比无法辨认右：质量缺陷导致无法识别的图像的百分比。可能的图像有无法识别的内容鉴于其质量缺陷。接下来，我们检查图像的内容是无法识别的条件下的质量缺陷的原因的概率结果示于图2中。几乎所有的原因导致的百分比都大于无法识别图像的总体百分比，即14。8%的图片。这证明了我们直觉上的怀疑，即有质量缺陷的图像更有可能具有无法识别的内容。我们观察到，这种趋势对于遭受障碍（OBS）和照明不足（BRT和DRK）的图像最为强烈，百分比略高于40%。有趣的是，有两个类别的百分比小于不可识别图像的总体百分比，为14。8%的图片。首先，被标记为需要旋转以进行正确查看（ROT）的图像仅具有非BLRBRTDRKOBSFRM腐OTH30020010001008. 3%的人认为无法辨认。回想起来，这似乎是不可理解的，因为图像的内容具有旋转缺陷众包工作者每张图片的报酬为0.132美元，平均花费47秒为每张图片配上字幕。图3：质量缺陷的相互关系。值按比例缩放，每个值乘以100。第i行和第j列的网格显示I的值（缺陷i，缺陷j）。为清楚起见，对角线被抑制。78.247.347.540.525.518.98.33.971.071.212.718.114.611.69.94.1-114 -133 -124 -155-71一百零二到一百五十一-9991 42 88 28 0-26-72577314913- 27 149-682774九十五比十-35366-83541479329 - 30 41-83 37 28-21 6227-67-640-31四十-3514-90-79-16142 348四十到三十-75图像百分比36500.030.00BRISQUE0.60.50.40.30.20.10.0NIQE0.060.050.040.030.020.010.00CNN-NRIQA0.030.030.020.010.010.010.00DNN-NRIQA-TID0.040.030.030.020.010.010.010.00DNN-NRIQA-LIVE1.41.21.00.80.60.40.20.0尼玛050100 150评分14 16 18 20 22 24 26 28评分20406080评分20406080 100评分020 40 60 80 100120140评分2.0 2.5 3.0 3.5 4.0 4.5 5.0评分图4：在我们新的VizWiz-QualityIssues数据集中，传统NR-IQA系统[33，34，22，6，44]预测的图像质量分数分布。可识别图像和不可识别图像的分数分布的严重重叠表明，没有一种方法能够区分可识别图像和不可识别图像。再次观察最常见的原因是图像模糊（71. 不恰当的取景（71.2%）。类似地，不可识别的图像被发现与其他质量缺陷相关联的频率较低。图像质量缺陷之间的关系。最后，我们量化所有可能的质量缺陷对之间的关系。在这样做的过程中，我们的动机是提供一种度量，在比较任何一对质量缺陷时，该度量提供对因果关系和共现的洞察，同时避免测量联合概率。为了实现这一目标，我们引入了一个新的度量，我们称之为相互关系指数I（A，B），定义如下：P（B）|A）P（B）|（A）I（A，B）=−。（一）现在检查我们的大规模质量数据集用于训练算法的好处，以检测何时图像是不可识别的并且因此不可加字幕。4.1. 动机：现有方法不足在探索新的算法之前，重要的是首先检查现有的方法是否适合我们的目的。因此，我们检查相关的NR-IQA系统是否可以检测到图像无法识别。为此，我们在完整的VizWiz- QualityIssues数据集上应用了五种NR-IQA方法：[33][ 34 ][35][36][37][38][39][3 第一两种是依赖于手工制作特征的流行的传统方法。最后三个是基于神经网络的P（B）P（B）并在第2节中提到的IQA数据集上进行培训。对于前-样品，DNN-NRIQA-TID和DNN-NRIQA-LIVE，见图1。关于这项措施及其动机的更多细节在补充材料中提供简单地说，较大的正I（A，B）值表明A和B倾向于同时发生，其中A导致B更频繁地发生。结果示于图3中。我们观察到，几乎所有的质量缺陷都倾向于相互发生，如I的正值所示。起初，我们惊讶地发现BRT和DRK之间存在关系（即，I（BRT， DRK）=73大于零），因为这些缺陷看起来是不相容的概念.然而，从视觉检查数据，我们发现一些图像确实遭受了这两个照明缺陷。我们在补充材料中说明了这一点和其他质量缺陷的相关性。根据我们的发现，我们还观察到“无缺陷”不与其他质量缺陷同时出现;也就是说，网格中的值对于NON的行和列都是负的。这一发现与我们的直觉一致，即标记为NON的图像不太可能同时存在质量缺陷。4. 分类无法识别的图像当给图像加字幕时，普遍的假设是图像质量足够好以识别图像内容。然而，盲人无法验证他们拍摄的图像的质量，并且已知他们的图像质量可能非常差[5，7，17]。因此我们ure4是在TID数据集和LIVE数据集上训练的。直观地说，如果算法对这个任务是有效的，我们会期望可识别图像的分数主要分布在高分区域，而不可识别图像的分数主要分布在低分区域。结果示于图4中。一个关键的发现是，可识别和不可识别图像的分数分布严重重叠。也就是说，在我们的数据集中，没有一种方法可以区分可识别的图像和不可识别的图像。这一发现表明，在现有数据集上训练的现有方法（即，LIVE，TID，CSIQ）不适合我们在VizWiz-QualityIssues数据集上的新任务。这可能部分是因为由诸如压缩、高斯模糊和加性高斯噪声之类的人为失真引起的质量问题不同于由差的相机聚焦、照明、取景等触发的自然失真。这也可能是因为在指示整体图像质量的分数和我们提出的任务之间没有1-1映射，因为具有低质量分数的图像可能仍然具有可识别的内容。4.2. 该算法在观察到现有的IQA方法不足以解决我们的问题之后，我们现在为评估图像是否可识别的新任务引入模型。无法辨认的密度3651架构我们使用ResNet-152 [18]来提取图像特征，然后通过二维全局池处理最后一层是具有S形激活函数的单个神经元。2我们使用Adam优化器训练该算法，学习率设置为 0.001 ，持续 8 个 epoch 。我们修复了在ImageNet [9]上预先训练的ResNet权重，并且只学习两个完全连接层中的权重。数据集拆分。为了训练和评估我们的算法，我们将52.5%/37.5%/10%的分割应用于我们的数据集，以创建训练，验证和测试分割。基线。我们将我们的算法与许多基线进行比较。包括随机猜测，这意味着图像无法识别的概率为0。一百四十八我们还分析了一个线性SVM预测与尺度不变特征变换（SIFT）的功能。直觉上，低质量的图像应该有很少/没有关键点。我们还评估了一个线性SVM，预测从直方图的方向梯度（HOG）功能。评估指标。我们使用平均精度，召回率和f1分数来评估每种方法。准确性被排除在外，因为不可识别性的分布高度偏向于结果结果示于表1中。我们观察到，SIFT和HOG都是比随机猜测更强的基线，并且在精度上获得高分，特别是87岁2为SIFT。然而，他们在回忆方面的得分都很低这意味着SIFT和HOG擅长捕捉无法识别的图像子集，但仍然错过了许多其他图像。另一方面，ResNet模型获得了更高的召回分数，同时保持了不错的平均精度分数，这意味着它在学习无法识别的图像的特征方面更有效3.这是令人兴奋的，因为2由于篇幅的限制，我们证明了这种体系结构对评估补充材料中的质量缺陷的有效性。该架构的主要区别在于，我们用XceptionNet[8]取代了ResNet-152，使用了三个完全连接的层，最后一层由八个神经元和八个sigmoid函数组成。3同样，由于篇幅限制，显示质量缺陷分类预测性能的结果在补充材料中Avg. 精度召回F1ResNet-15280.075.171.2随机猜测16.614.615.5SIFT87.242.356.9HOG +线性SVM56.441.247.6表1：评估图像内容是否可以被识别（以及因此标题）的算法的性能。一种算法可以立即用于使摄影者失明，否则摄影者必须等待近两分钟才知道他们的图像质量不适合图像字幕。4.3. 应用程序：高效的数据集创建我们现在研究我们的算法在帮助创建大规模训练数据集方面的另一个潜在好处。为了支持这一努力，我们将数据集分为三组。一组用于训练我们的图像不可识别算法。第二个集合用于训练我们的图像字幕算法，我们称之为字幕训练集。第三个集合用于评估我们的图像字幕算法，我们称之为字幕评估集。我们使用我们的方法来识别哪些图像的字幕训练集用于训练图像字幕算法。特别地，包括被标记为可识别的N个图像，并且排除剩余的图像。我们将此方法与三个基线进行比较，具体地说，训练在：标题训练集中的所有图像，标题训练集中N个图像的随机样本，标题训练集中N个已知可识别图像的图像的完美样本。我们评估了两种最先进的图像字幕算法，在每个训练集上独立训练，关于八个评估指标：BLEU-1-4[35]、ME-TEOR [10]、ROUGE-L [27]、CIDER-D [46]和SPICE [2]。结果示于表2中。我们的方法执行comparably时，所有的图像以及完美集的算法进行了训练。相比之下，我们的方法在随机样本上产生了更好的结果总之，这些发现提供了有希望的证据，证明我们的预测系统成功地保留了有意义的图像，同时删除了对字幕任务没有信息的图像（即，无法识别）。这揭示了使用可识别性预测系统的益处是在众包字幕时节省时间和金钱（通过首先移除不可识别的图像），而不降低下游经训练的图像字幕算法的性能。5. 识别无法回答的视觉问题视觉问题的然而，如图5所示，视觉问题可能无法回答，因为图像无法识别，或者因为问题的答案在可识别的图像中缺失为了使摄影师能够更细粒度地指导如何修改视觉问题，使其能够回答，我们超越了预测视觉问题是否无法回答[17]，并引入了一个预测为什么视觉问题无法回答的新问题。3652B@1B@2B@3B@4流星ROUGE-LCIDEr-D香料全训练集63.344.329.919.718.044.443.611.2美国[19]63.343.829.519.918.144.243.611.5预测旗标63.244.029.519.818.144.242.911.5随机样本62.543.328.818.918.044.141.911.4全训练集62.843.328.618.817.344.032.410.4美国[54]63.043.128.618.917.243.932.510.3预测旗标63.143.128.418.717.244.032.410.4随机样本62.442.727.918.217.143.730.410.4表2：两种图像字幕算法相对于在完整字幕训练集上训练的八个度量的性能，注释为可识别的训练图像（完美标志），预测为可识别的训练图像（预测标志），以及从字幕训练集随机采样的子集。（B@ = BLEU-）图5：无法回答的视觉问题示例，原因有二.左边的两个示例具有不可识别的图像，而右边的两个示例具有可识别的图像，但是感兴趣的内容从视场中丢失。我们提出的算法正确地预测了为什么这些例子的视觉问题是无法回答的。5.1. 动机我们扩展了VizWiz-VQA数据集[17]，该数据集将每个图像-问题对标记为可回答或不可回答。我们检查责任与可识别性和每个质量缺陷的关系为了方便起见，我们使用以下符号：A：可回答，A：不可回答，R：可回答-able：R<$：无法识别，Q：质量问题，P（·）：可能。能力功能。结果示于图6中。我们可以观察到，对于大多数质量流Q，P（A′|Q）大于P（A<$），P（A<$）=28。7%增加到P（A）|R<$）=58。百分之七。另外，概率 P （ R<$ ）从 14 增加。 8% 至P（R）|（A）=30。2%的人知道问题是不确定的，swerable。观察到一个很大的原因无法回答问题是，图像是无法识别的图像，我们有动力为VQA系统配备一个功能，能够澄清为什么他们的问题是无法回答的。5.2. 该算法算法我们的算法扩展了Up-Down VQA模型[3]。它以编码的图像特征作为输入，由于无法识别/质量缺陷，706050403020100质量缺陷/无法识别的可回答性706050403020100非BLRBRTDRKOBS FRMROT OTH Unrec图6：顶部：部分无法回答的问题，条件是无法识别或质量缺陷。底部：质量问题的碎片和无法识别的图像给定的可转向性。值通过乘以100进行缩放配对问题图像特征可以是由ResNet-152 [18]提取的网格级特征以及由Faster-RCNN [40]或Detectron [13，52]提取的输入问题首先由GRU单元编码。然后，自上而下的注意力模块从编码的问题表示和输入图像特征计算加权图像特征图像和问题特征通过逐元素乘法耦合。该耦合特征由预测模块处理以预测可回答性和可识别性。我们在模型的最后采用了两种不同的第一个是softmax，它预测了三个独占类：可回答的、不可识别的和内容信息不足的（在图像中找不到答案）。的58.761.552.154.250.040.734.128.729.316.456.748.458.266.255.651.4没有条件不能回答的41.034.127.730.217.517.917.414.85.39.75.69.83.66.88.53.63.92.30.81.70.4图像百分比图像百分比3653Unans Unrec given unansAPRecF1APRecF1[17个]71.7−64.8−−−兰德猜测−−−31.1米14.820.0SIFT−−−94.9米45.361.3生猪−−−73.1米44.955.7TD+软72.677.367.082.279.375.0TD+sigm73.671.268.086.679.378.6BU+sigm73.066.666.787.473.778.7TD+BU+sigm74.082.367.987.779.379.7sigm w/o att.67.766.164.286.766.774.2TD：自上而下的注意力。BU：自下而上的注意力。soft：softmax。sigm：乙状结肠。att：注意。AP：平均精度。Rec：召回。Unrec：无法识别。Unan- swerable.精确度：计算精确度，因为真或假是预测的而不是概率。表3：预测为什么视觉问题无法回答的性能：无法识别的图像与无法回答的图像，因为感兴趣的内容从视场中丢失。[17]仅预测可回答性，并作为不可回答性预测的基线。随机猜测、SIFT和HOG只预测可识别性，并作为不可识别性预测的基线。第二激活函数是两个独立的S形，一个用于可回答性，另一个用于可识别性。我们使用Adam优化器训练网络，学习率为0.001，仅针对特征提取后的层。数据集拆分。我们将VizWiz数据集按照70%/20%/10%的比例划分为训练/验证/测试集。评估指标。我们使用平均精确度，精确度，召回率和f1分数来评估性能，其中简单的阈值为0。5用于二值化概率值。对于模型间比较，我们还报告了每个变体的精确度-召回率曲线。基线。为了进行比较，我们考虑一些基线。一种方法是预测视觉问题是否可回答的原始模型，并且还采用自上而下的注意力模型[17]。我们还评估了随机猜测、SIFT和HOG基线，这些基线用于评估上一节中的可识别性算法。结果结果见表3和图7。我们的模型表现出与可回答性基线一致[17]。这是令人兴奋的，因为它表明，联合学习预测可回答性与可识别性不会降低性能;也就是说，TD+softmax和TD+sigmoid模型的平均精度得分优于1.00.80.60.40.20.00.0 0.2 0.4 0.6 0.8 1.0召回图7：当问题无法回答时，五种算法预测无法识别的精确度-召回率曲线[17]第72话：一个人的幸福六，七十三。6> 71。（7）也作为F1得分（67. 0，68。0> 64。（八）。我们的研究结果还强调了学习联合预测可回答性和可识别性任务的重要性（即，行5-9）而不是依赖于更基本的基线（即，第2-4行）。如表3所示，低召回值意味着SIFT和HOG无法捕获许多无法识别的图像，而我们的模型学习图像特征并在召回和f1分数方面表现出色。接下来，我们比较TD+softmax和TD+sigmoid的结果。我们观察到，由于平均精度得分和F1得分相当，它们在不可变性预测方面具有可比性。对于不可识别性预测，TD+softmax比TD+sigmoid弱一点，因为平均精度和F1得分略低。其中一个原因可能是当可回答性为真时，将不可识别性手动分配为假。最初，14。8%的图像无法识别，但在分配后，这一比例下降到8。百分之七。从更高偏差的数据中学习是一项更困难的任务，这可以部分解释TD+softmax模型的性能较弱。6. 结论我们引入了一个新的图像质量评估数据集，该数据集来自一个真实的用例，在该用例中，盲人努力捕捉高质量的图像，以了解他们的视觉环境。我们展示了这个数据集的潜力，以鼓励开发新的算法，可以支持真正的用户试图获得图像标题和答案，他们的视觉问题。数据集和所有代码都可以在https://vizwiz.org上公开获得。鸣谢。我们衷心感谢美国国家科学基金会（ IIS-1755593）、微软和亚马逊的资助。我们感谢NilavraBhat-tacharya和众包工作者为创建新数据集所做的宝贵贡献。sIgM不带附件。BU+ sigmTD+ sigmTD+ BU+ sigmTD+软精度3654引用[1] http://www.taptapseeapp.com/。 3[2] Peter Anderson，Basura Fernando，Mark Johnson，andStephen Gould. Spice ：语义命题图像帽评估。在European Conference on Computer Vi-sion，第382-398页中。施普林格，2016年。6[3] Peter Anderson，Xiaodong He，Chris Buehler，DamienTeney，Mark Johnson，Stephen Gould，and Lei Zhang.自下而上和自上而下关注图像字幕和视觉问答。在IEEE计算机视觉和模式识别会议集，第6077-6086页7[4] Nilavra Bhattacharya，Qing Li，and Danna Gurari.为什么一个视觉问题会有不同的答案？在IEEE计算机视觉国际会议论文集，第4271-4280页，2019年。3[5] Jeffrey P Bigham ，Chandrika Jayant， Hanjie Ji，GregLit- tle ， Andrew Miller ， Robert C Miller ， RobinMiller ， Aubrey Tatarowicz ， Brandyn White ， SamualWhite，et al. Vizwiz：几乎实时回答视觉问题。在第23届年度ACM用户界面软件和技术研讨会论文集，第333-342页ACM，2010年。一、三、五[6] SebastianBosse，DominiqueManiry，Klaus-RobertMüller，Thomas Wiegand，and Wojciech Samek.用于无参考和全参考图像质量评估的深度神经网络。IEEE Transactions on Image Processing，27（1）：206-219，2017。二、五[7] Erin Brady，Meredith Ringel Morris，Yu Zhong，SamuelWhite，and Jeffrey P Bigham.盲人日常生活中的视觉挑战。在SIGCHI计算机系统人为因素集，第2117-2126页ACM，2013年。一、三、五[8] 弗朗索瓦·肖莱。Xception：使用深度可分离卷积的深度学习在Proceedings of the IEEE conference on computervision and pattern recognition ，第 1251-1258 页， 2017年。6[9] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议，第248-255页。Ieee，2009年。一、三、六[10] Michael Denkowski和Alon LavieMeteor通用：针对任何目标语言的特定语言翻译评估EACL 2014统计机器翻译研讨会论文集，2014年。6[11] 李飞飞，罗伯·费格斯，皮埃特罗·裴罗纳。从几个训练示例中学习生成视觉模型：一个递增贝叶斯方法测试101对象类别。2004年计算机视觉与模式识别研讨会，第178-178页。IEEE，2004年。第1、3条[12] Deepti Ghadiyaram和Alan C Bovik。对主观和客观图片质量的大量在线众包研究IEEE Transactions on ImageProcessing，25（1）：372一、二、三[13] Ross Girshick 、 Ilija Radosavovic 、 Georgia Gkioxari 、Piotr Doll a´ r和KaimingHe。 Detec t ron. https：//github.com/facebookresearch/detectron，2018年。7[14] 格里高利·格里芬亚历克斯·霍卢布和皮埃特罗·裴罗纳。加州理工学院-256对象类别数据集。2007. 第1、3条[15] Danna Gurari和Kristen GraumanCrowdverge：预测人们是否会同意视觉问题的答案。在2017年CHI计算机系统人为因素会议论文集，第3511-3522页，2017年。3[16] Danna Gurari，Qing Li，Chi Lin，Yinan Zhao，AnhongGuo ， Abigale Stangl ， and Jeffrey P Bigham. Vizwiz-priv：用于识别盲人拍摄的图像中私人视觉信息的存在和目的的数据集。在IEEE计算机视觉和模式识别会议

下载后可阅读完整内容，剩余1页未读，立即下载