没有合适的资源?快使用搜索试试~ 我知道了~
1为什么一个视觉问题会有不同的答案?Nilavra Bhattacharya*,Qing Li+,Danna Gurari*德克萨斯大学奥斯汀分校+加州大学洛杉矶分校摘要视觉问答是返回关于图像的问题的答案的任务一个挑战是,不同的人往往会对同一个视觉问题给出不同的答案。据我们所知,这是第一项旨在了解原因的工作我们提出了九个合理原因的分类,并创建了两个标记数据集,包括-对45,000个视觉问题进行分析,指出导致答案差异的原因。然后,我们提出了一个新的问题,提出了一种直接从视觉问题中预测导致答案差异的原因的方法,并提出了一种新的算法。实验证明了我们的方法的优势,在两个不同的数据集上的几个相关的基线。我们在https://vizwiz.org上公开共享数据集和代码。1. 介绍视觉问答(VQA),即返回关于图像的问题的答案的任务,在工业界和学术界都引起了广泛的兴趣。例如,许多盲人发现现有的VQA解决方案是为他们的日常视觉问题提供答案的不可或缺的助手;例如,在一个实施例中,他们使用基于视觉的助手,如VizWiz [7]和BeSpecular [1],用手机拍摄照片,然后从远程工作人员那里获得答案在人工智能研究界,VQA问题已经成为模拟人类视觉和语言能力的标志性挑战尽管VQA解决方案产生了巨大的社会影响和进步,但其局限性在于,大多数解决方案在视觉问题引起不同人的不同回答时缺乏处理方法。 普遍的假设是目标是返回一个答案。然而,先前的工作[17]表明,视觉问题通常会引出不同的答案-在三个VQA数据集中,近500,000个视觉问题中有一半以上会出现这种情况。我们的目标是找出为什么会出现不同的答案。因此,我们的工作是基于这样一个假设,即对于一个视觉问题可以存在多个答案。我们的工作扩展了以前的工作[5,17,30,38],这表明答案可能不同的原因-包括视觉问题是困难的、主观的或模棱两可的,以及同义的答案。首先,我们提出了一个分类法,列出了9个答案可能不同的合理原因,如图1所示。 接下来我们请工作人员这些原因中的哪一个导致了盲人和视力正常的人对145,000个视觉问题的最后,我们提出了一个新的问题,预测哪些原因会导致答案的差异直接从一个视觉问题,并提出了一个新的算法为这项任务。我们的研究结果提供了令人信服的证据,表明算法框架必须学会同时建模和合成不同个体我们提供我们的工作作为改进VQA服务的宝贵基础,通过授权系统设计人员和用户知道如何防止,解释或解决答案差异。具体地说,一个预测为什么一个可视问题会导致不同答案的解决方案(在图1中总结)可以(1)帮助用户识别如何修改他们的可视问题,以便得到一个单一的、明确的答案;例如,在一个实施例中,当图像质量低或没有显示答案时重新拍摄图像,而当图像模糊或无效时修改问题;(2)提高用户的意识,如果有的话,当他们被给予单一答案时,是什么原因触发答案差异;或(3)揭示当收集多个答案时如何自动地聚合不同的答案[2,18,23,25,42]。更一般地说,据我们所知,这是计算机视觉社区中第一个描述、量化和建模注释差异原因的工作。我们相信,这将激励和促进未来的工作,同样面临注释者的差异,包括图像字幕,视觉讲故事,和视觉对话的相关问题。我们公开分享数据集和代码,以鼓励社区在开发算法框架方面取得进展,这些框架可以考虑人群中的观点多样性。2. 相关工作可视化问题分类数据集。已经提出了许多数据集挑战,以鼓励开发自动回答视觉问题的算法42714272答案1. 不适合2. 不适合3. 无法回答4. 不适合5. 不适合6. 不适合7. 不适合8. 没有什么9. jar10.黑色答案1. 无法回答2. 无法回答3. 绿色4. 无法回答5. 乳草6. 无法回答7. 公主树这/那是什么植物 8. 可能是草莓答案1. 2013年8月14日2. 081420133. 2013年8月14日4.2013年8月14日5. 2013年8月14日6. 2013年8月14日7.2013年8月14日这是什麽低质量图像这个什么时候到期?8. 2013年8月14日长在我的花园里难9. 铃藤10.番茄同义词9. 2013年8月14日10. 2013年8月有多少人吃这个热狗吗无答案/GUESSWORK答案1. 22. 03. 24. 05. 26. 37. 08. 29. 210. 2床上有什么模棱两可答案1. 枕头2. 枕头3. 枕头4. 枕头5. 毯子6. 枕头7. 枕头8. 毯子9. 片答案1. 马克西艾兹2. 马克西艾兹3. 艾滋病4. 最大艾滋病目录5. Macias目录6. maxiaids产品独立生活7. 马克西艾兹8. 马克西艾兹9. 最大艾滋病目录这是什么书?10. maxi aids 2012cat粒状我只想说谢谢你的帮助。无效答案1. 无法回答2. 无法回答3. 你的欢迎4. 无法回答5. 谢谢你6. 无法回答7. 你欢迎8. 无法回答9. 没问题答案1. 是的2. 是的3. 是的4. 是的5. 没有6. 没有7. 没有地板需要拖一下吗?8. 是的9. 没有主观10. 是的答案1. 辣椒粉2. 欧洲妇女联合会3. 辣椒粉4. 辣椒粉5. 辣椒粉6. 辣椒粉7. 辣椒粉8. 辣椒粉这是什么香料?9. 辣椒粉图1:盲人和有视力的人提出的视觉问题(VQ)示例,以及10个不同人的答案。如图所示,答案可能因各种原因而不同,包括VQ(第一列和第二列)或答案(第三列)。我们提出了一个新的问题,预测为什么答案会不同的VQ和解决方案。[5,16,19,24]。这些挑战的共同目标是为每个视觉问题返回一个答案然而,视觉问题往往导致不同的人不同的答案[5,17,30,38]。先前的工作[5,30]试图通过使用一致性度量来缓解性能度量方面的这个问题。相反,我们介绍了第一个VQA数据集,该数据集促进了学习为什么会出现不同答案的研究具体来说,对于两个流行的VQA数据集,VizWiz [19]和VQA 2.0[5],我们用Meta数据标记每个视觉问题,指示九个选项中的哪一个是观察到的答案差异的原因。实验证明,这些数据集对于训练算法预测为什么任何视觉问题的答案会不同是有价值的。回答视觉问题的挑战/障碍。 我们的工作涉及到文学的主体,旨在了解什么可以使视觉问题具有挑战性,甚至不可能回答。其中一项工作通过确定成功回答视觉问题所需的最低年龄来研究难度问题(也称为所需技能水平)[5]。另一组作品探讨了相关性的问题,特别是确定问题何时与图像内容无关[29]。另一项工作研究了可回答性问题,重点是何时由于极端的图像质量问题,包括模糊、饱和度和手指遮挡摄像机视野,问题无法得到回答[19]。我们的工作补充了先前的工作,因为我们发现这些问题中的每一个都与唤起不同答案的视觉问题相关联;例如,分别参见图1中的“困难”、“不存在应答”和“低质量图像”的示例我们的实验证明了设计算法直接预测答案不同的原因的强大优势,而不仅仅是依赖于预测相关性[29]或可回答性[19]的相关方法。理解为什么人群的反应不同。 更广泛地说,相关的工作包括关于为什么群体的注释可以不同以及如何解决这些差异的文献通常,假设有一个真实的答案,并且任何观察到的差异都源于注释者性能不足,例如,因为任务对于某些注释者来说太难[3,6,12,20,21,35,36,37,43]或导致恶意工作者提交垃圾邮件[13,14,41]。其他人则认为任务可能是模糊的[2,18,23,25]或主观的[42],因此多个注释可能是有效的。虽然每项工作都嵌入了假设4273原因标签描述图像-图像(QI)对低质量图像LQI图像太小,失焦,质量差,或什么都看不见回答不存在Ive图像良好,但图像中不存在问题的答案(视觉不足证据),所以有些答案反映了猜测无效INV没有适当的或语义正确的问题难DFF需要领域专业知识的问题(例如,,辨别皮疹是否由蚊虫叮咬引起),特殊技能,或太多的努力(例如,,在满是羊的田野里数羊的数量)模棱两可AMB好的形象和有效的问题,但综合起来,它们有不止一个有效的解释,导致多种答案主观SBJ意见驱动的问题,如评估美丽,时尚感,情感问题的答案同义词SYN答案表示相同的想法,但使用具有相似含义的不同单词(例如,,粒状GRN答案呈现相同的想法,但在不同的细节或专业化水平(例如,,垃圾邮件SPM一个人不能充分回答一个简单、直接的视觉问题,表1:对视觉问题引起不同答案的九个原因的拟议分类关于为什么答案不同,一个挑战仍然是知道哪些假设在什么时候是有效的。因此,我们进行了一个系统的研究,列举似是而非的原因,并提出了一个算法,以决定哪些原因适用时。学习预测注释差异 相关的工作已经训练了算法来预测何时对于许多视觉问题将出现符号差异。一些方法识别视觉内容何时是模糊的,因此将导致不同的人类解释,包括为图像添加字幕[23],解释视觉属性[25]以及定位最突出的前景对象[18]。其他方法识别视觉内容在多大程度上会唤起人们其他方法预测人群是否会对视觉问题提供不同的响应[17]以及在多大程度上[44]。补充以前的工作,我们提出了第一个解决方案,破译的多个原因(S)将导致一个符号的差异。我们方法的一个关键见解是采用VQA系统的预测答案作为预测线索,其动机是相信VQA模型经过训练以优化多个正确答案(例如,使用"软目标-获得"分数)嵌入一些理解,为什么在一个真实的答案周围可能存在不确定性[38]。3. 标记数据集现在我们将介绍如何创建数据集,数据集由VQA和指示为什么回答不同。特别是,在本节中,我们描述了我们的分类和数据标记方法。不同答案的原因我们开发了一个分类学,列出了为什么答案可能不同的九个原因,总结在表1中。 九个原因中的六个受到众包文献的启发SPM [40,41,13,14]。其中两个原因是受到先前视觉问答工作的启发[19]- LQI和IVE。最后一类的灵感来自于我们对视觉问题的随机子集及其答案的检查我们通过进行pi- lot众包研究来检查该分类法是否提供了答案差异的合理原因的完全覆盖,并且发现没有识别出额外的类别1。这种分类法分为从视觉问题与答案中产生的原因标记VQA的方法。我们为这个注释任务设计了我们的用户界面,以显示具有十个答案的视觉问题(可与图像/QI对互换使用),并要求用户选择答案不同的所有原因。要求用户至少选择一个原因。我们根据问题是否源于QI对与答案来对原因进行分组,以提供帮助1使用下一小节中的设置,我们为从VizWiz[19]中随机选择的100个VQA众包了每个VQA的5个标签。在这个用户界面中,为用户提供了一个用户选择“其他”或提供反馈均未发现其他原因4274用户在决定选择哪个(哪些)原因时。我们还包括了一个名为Other(OTH)的原因,它与一个自由输入的文本框相关联,因此当用户觉得没有合适的选项时,他们可以提出他们认为的相关原因。我们选择标记来自两个流行VQA数据集的44,955个每个VQA都由一个图像和一个问题组成,再加上10个 答 案 , 这 些 答 案 来 自 Ama-zon Mechanical Turk(AMT)的工人。我们包括VizWiz[19]数据集,以解决盲人的即时,现实世界的需求。它起源于盲人使用手机拍照并记录有关他们的问题[7,8];例如,“这瓶是什么饮料?“或者“牛奶过期了吗?“.我们使用了整个数据集,不包括其中所有答案都与精确字符串匹配相同的VQ(即,无答案差异),得到29,921个VQA。我们还从流行的VQA 2.0[16]数据集中选取了一个样本进行比较。它与VizWiz不同,部分原因是图像和问题是分开创建的这些图像来自MS-COCO数据集[27],问题来自人群工作人员,他们被指示询问关于可以“难倒”“智能机器人”的图像的问题我们使用了从训练集中随机选择的15,034个QI对的子集,其中10个众包答案使用精确的我们发现,答案差异的出现最常见的原因是与QI对和答案的问题。例如,来自VizWiz和VQA 2.0数据集的视觉问题中,分别有75%和80%的问题来自两个来源(图2; 2人阈值)。相比之下,只有很小一部分答案差异是因为答案本身而产生的。更大的百分比是因为单独使用QI对的干扰,影响了两个数据集大约20%的VQA(图2; 2人阈值)。后一项发现强调了相当一部分答案差异可以通过修改视觉问题来避免每个原因的频率。接下来,我们研究了导致不同答案的九个原因中的每一个的趋势。为此,我们计算了针对人群中不同信任级别的每个原因分配的VQA百分比(即,要求人群中的至少1、2或3个成员提供相同的理由以使该理由有效)。结果示于图3中。最常见的原因与两个数据集相匹配:am-双向QIs(AMB),然后是同义答案(SYN),最后是不同级别的答案粒度百分之十八字符串匹配 VizWiz [19]和VQA 2.0 [16]代表了用户和用例场景的多样性。我们雇佣了亚马逊土耳其机器人公司的人群工作人员为了质量控制,我们将工人限制在那些以前完成过500份工作并获得至少95%支持率的人,并且来自美国,以确保英语水平。我们还收集了五个标签,每个视觉问题,从五个工人。4. 理解为什么答案不同百分之三十九百分之四(i) (ii)㈢96%百分之八十百分之五十四我们分析了224,775个众包注释,以回答以下问题:(1)什么原因(联合国)通常引起不同的答案?(2)有多少独特的原因通常导致视觉问题的不同答案和(3)哪些原因通常同时发生而不是单独发生?4.1. (Un)答案差异气对与答案。我们首先量化了由于QI对与答案的问题而出现答案差异的为此,我们量化了仅与QI对(即,由于LQI、IVE、INV、DFF、AMB或SBJ),仅具有答案(即,由于SYN、GRN或SPM),以及两者。为了丰富我们的分析,我们检查了不同信任水平在人群中的影响,当要求至少1,2或3名人群成员提供相同的理由时,观察到的有效理由是有效的。每个数据集的结果如图2所示。(a) VizWiz(b)VQA_2.0由于以下问题导致的答案差异:齐阿齐阿有效性阈值:(i) 1人(ii)2人(iii)3人图2:对于(a)VizWiz和(b)VQA 2.0数据集,由于QI对和10个答案的问题(QI A,黄色)、仅QI对的问题(QI,条纹)或仅10个答案的问题(A,红色)而导致答案差异的VQA百分比。结果显示了在人群工作者中不同程度的信任:(i)信任所有人:只有一个工作者必须选择原因(1人有效性阈值);(ii)信任任何一对:至少两名工人必须就理由达成一致(2人有效阈值);及(iii)信任多数:至少三名工人必须同意理由(3人有效门槛)。百分之二十一百分之三十二占6%(一)(ii)(三)百分之九十三百分之七十五百分之五十六4275数据集:VizWiz数据集:VQA_2.0数据集:合并(a)(b)(c)答案差异原因的频率1人门槛2人门槛3人门槛图3:直方图显示了导致答案差异的每个原因的频率:(a)盲人提出的29,921个视觉问题,(b)视力正常的人提出的15,034个这些图是基于使原因有效所需的工人间协议的增加阈值来计算的,范围从要求至少一个工人选择它到至少三个工人。最常见的原因是模糊的视觉问题(AMB),同义答案(SYN)和不同的答案粒度(GRN),而最罕见的是垃圾邮件(SPM)和其他(OTH)。(GRN)。在两个数据集中,模糊性(AMB)占回答不一致的81.3%(图3c; 2人阈值)。在VizWiz数据集中的-10 个模 糊示例出 现,因为 问题 “这是 什么(对象)”。. .?”被询问关于示出多个对象的图像(例如,“商店”、“购物区”、“购物车”)。在VQA 2.0数据集中,我们发现冗长的问题可能会产生歧义,这可能会让个人对如何解释问题感到困惑(例如,“在地平线上的云层下可以看到什么与天气有关的事件?')以及对于为了 答案1:对,答案2:在草地上,答案3:在妈妈和爸爸旁边,等等)。紧随其后的第二和第三个最常见原因是答案粒度(GRN)和同义词(SYN),它们分别占两个数据集VQA的72.9%和68.3%(图3c; 2人阈值)。这些发现强调了大多数答案差异可以通过消除视觉问题的歧义或重新解决同义词和不同的粒度来解决[15,26,42]。答案差异最不常见的原因是垃圾邮件(SPM),在两个数据集上,它约占VQA 的1.1%(图3c; 2人阈值)。这是有趣的,因为垃圾邮件的问题已经在众包文献中受到了很多[13,14,41]仅举几例。我们的研究结果表明,改进垃圾邮件检测解决方案将导致相当小的影响比改进方法解决其他原因。尽管在VizWiz和VQA 2.0数据集中管理VQA的方法非常不同-VizWiz源于盲人用户的日常视觉挑战,和VQA 2.0包含视觉问题,这些问题被设计成机器难以回答-我们发现,总体而言,两个数据集之间答案差异的原因的排名和流行程度非常相似。关键的区别在于困难的VQ(DFF)和低质量图像(LQI)。例如,VQA 2.0中困难视觉问题的百分比是VizWiz的四倍;即,3%与12%(2人阈值)。 此外,百分比的低质量图像约占比VQA 2.0观察到的高9倍;即,23.8%对2.6%的所有视觉问题(2人阈值)。尽管存在这样的数据集差异,我们将在第5节中展示预测模型仍然可以学习预测哪些原因会导致答案差异。图1显示了被人群工作者最有信心地投票认为属于九个答案差异原因中的每一个的VQA示例。4.2. 回答差异现在,我们检查有多少原因通常会导致一个给定的VQA的答案差异,以及在何种程度上的原因共同发生。对于以下分析,我们假设如果至少有两个群组工作人员将VQA的原因标记为发生,则该原因发生。一些独特的原因。 我们首先统计了 导致每个VQA答案差异的独特原因。 在这两个数据集中,最常见的原因 有 三 个 : 也 就 是 说 , 超 过 55% 的 VizWiz 和 VQA2.0VQA。两个和四个原因也很常见,在两个数据集中分别占VQA的15%和16%。剩下的20%来自一个独特的VQA百分比4276原因同时发生(%)原因清晰度(%)LQIIveINVDFF AMB SBJ SYN GRN SPM OTHLQI04417300000056Ive33044900000056INV25890901000011DFF13 5928000000041AMB00000376830017SBJ0030490000051SYN0000860092008GRN00008508300015SPM800000000292OTH000000007093原因同时发生(%)原因清晰度(%)LQIIveINVDFF AMB SBJ SYN GRN SPM OTHLQI0288300001072Ive30201005001080INV3870005000013DFF0190000000081AMB00000065620035SBJ0122000000088SYN00008500760015GRN00008207600018SPM4191800000181OTH400000003096(a)(b)第(1)款图4:每个原因与其他原因共同出现以及单独出现的趋势(即,原因清晰度),(a)VizWiz和(b)VQA 2.0数据集(2人阈值)。在这两个数据集中,原因,其次是五个和六个独特的原因,分别在两个数据集。这些发现促使将预测哪些原因导致答案差异的问题表示为多标签分类问题。原因在一起。接下来,我们考察了各种原因共同出现的程度。为此,我们计算了因果能力的适应[11,28],测量两个原因di和dj的共现:P(dj|di)−P(dj|d<$i)如果问题的答案不存在于图像中,则人们认为该问题无效。孤独的理由接下来我们测量了一个原因会自己出现。为了这样做,我们计算原因d的清晰度如下:其中d被选择而没有选择其他原因的所有VQA的百分比。结 果 示 于 图4 中 。 在 这 两 个 数 据 集 中 , 垃 圾 邮 件(SPM)通常单独出现;也就是说,对于VizWiz和VQA2.0中至少92%和81%的VQA,其中该原因有效。对于VizWiz,如小百分比值共现(di,dj)=1−P(d|(d)(1)为了清楚起见,大多数原因通常与J I至少有一个标签。 相比之下,VQA 2.0只有四个其中P(d)是原因d对于VQA存在的概率,P(d′)是原因d不存在的概率直观地说,这个指标指示了dj出现的频率,对于VQA,di发生。结果示于图4中。在VizWiz 和VQA 2.0中,我们观察到同现率最高(≥80%)的原因是答案同义词(SYN)、答案粒度(GRN)、无效问题(INV)和歧义(AMB)。例如,在VizWiz中,对于选择SYN的所有VQA,GRN同时出现92%的VQA,其次是AMB,占86%。同样,在所有出现GRN的问题中,85%的问题出现AMB,83%的问题出现SYN。我们的研究结果提供了强有力的证据表明,QI对中的歧义会导致人们不确定提供什么样的细节水平以及在有效的同义词中使用什么词;例如,在一个实施例中,“money”"currency“" 10 dollar bill”.我们假设,VQA系统可以大大降低答案差异的频率的一种有前途的方法是指导要求QI的个人澄清他们正在寻求的细节水平,无论何时预期答案差异是由QI模糊性或不同的答案粒度引起的。我 们 还 观 察 到 , 在 两 个 数 据 集 上 , 无 效 问 题(INV)与回答问题的视觉证据不足(IVE)配对VizWiz中89%的VQA和VQA 2.0中87%的VQA都是如此。这表明INV、SYN、GRN、AMB等9个标签的透明度较低(≤35%),其余标签的透明度较高(≥72%)。这表明VQA 2.0中的共现比VizWiz中的共现原因更少。5. 预测为什么答案会不同我们现在介绍一个新的机器学习任务,预测为什么一个视觉问题会导致不同的答案。5.1. 预测模型我们提出的任务作为一个多标签分类问题。地面真理。 我们为表1中描述的九个原因中的每一个以及“其他”类别计算二进制地面真值。因此,我们的地面真理由10个标签组成。对于每个标签,我们认为它是存在的(即,‘1’) for a visual question only if atleast two of the five crowd workers selected that label as拟议模型。我们设计模型的动机是,它采用输入图像(I)、输入问题(Q)和QI对的答案(A)作为预测线索。这是因为我们知道答案差异可能仅来自QI对(即,表1中的前六个原因)以及仅从答案(即,表1中的最后三个原因)。4277图5:用于预测10个原因中哪一个会导致答案差异的拟议模型(Q+I+A)的总结我们的关键挑战是如何表示答案,因为在实践中不知道地面真相答案。我们的模型总结在图5中。它将图像作为输入,编码为Faster R-CNN模型的最后一个卷积层[34],并将问题编码为来自预先训练的GloVe向量的300维单词[33],然后传递给具有1024个隐藏单元的单层GRU我们的关键设计决策是将此输入传递到 我们采用了VQA算法[4,39],该算法经过训练以优化多个正确答案,并输出其对所有答案候选者的置信度的“软目标”向量表示;例如,在一个实施例中,对于图1第二行中的第二个例子,对于7个“枕头”、2个“毯子”和1个“床单”的10个答案的理想预测0.7“枕头”为0.2,“毯子”为0.1,“床单”为0,其它为0。2通过包括“Answer Difference”模块将其输入(Q,I,A)通过1024个单元的全连接层传递给sigmoid函数,以预测10个标签中每个标签对于训练,我们采用二进制交叉熵损失为:ΣN5.2. 评价数据集训练/验证/测试拆分。我们使用了整个VizWiz数据集,包括所有答案都相同的QI对(即,3%的原始数据集的VQA),以便经过训练的算法可以在不导致答案差异的QI对存在的情况下很好地工作使用[19]中类似的训练/验证/测试分割,我们有19,969个训练(64%),3166个验证(10%)和7983个测试(26%)样本。对于来自VQA 2.0数据集的15034个VQ,我们引入了65/10/25的分割,这导致了9772个训练,1504个验证和3758个测试示例。评估指标。我们报告每个标签的平均精度和所有标签的平均精度。基线。据我们所知,没有先前的工作试图预测为什么一个视觉问题会有不同的答案。因此,我们评估了三个相关的基线方法的好处,以揭示重新利用现有方法解决新问题的价值3我们包括随机猜测(即,随机),因为这是当今用户所能达到的最佳效果。我们还包括一个算法,用于预测一个问题是否与给定图像相关的相关任务,我们称之为QI相关性。我们调整预训练的问题-图像-相关性系统[29]来预测合理的原因:如果QI对被预测为L=i=1yilog(pi)+(1−yi)log(1−pi),相关,否则为1。其他标签是随机预测的,因为它们与QI相关性无关我们还包括一个算法-其中N是标签的总数,yi是地面真值标签,并且pi是来自sigmoid函数的预测概率。我们使用[33]的“GRU”预训练权重,[ 4 ]的“CNN”和“Answer Prediction”模块 的预训 练权重以 及“AnswerDifference”模块的随机值来初始化模型我们使用Adam求解器微调整个网络,固定学习率为0.001,批量大小为128。丢弃和提前停止(五个时期)用于减少过拟合。预测VQ对于VizWiz数据集是否不可回答的算法与QI相关性基线类似,如果VQ被预测为可回答,则我们还评估了我们的Q+I+A模型的五个变体。我们通过仅从问题图像对(即,Q+I)、问题(即,Q)和图像(即,I)的第10条。我们在替换最后一层后,在我们的数据集上检查微调VQA模型[16,192为了避免在测试时观察到的相同数据上学习,我们确保3为了避免训练数据和我们的测试数据之间的重叠,我们重新训练了所有基线,排除了测试集样本(在需要时)。4278VQA 2.0VizWiz表2:预测为什么视觉问题的答案在VQA 2.0和VizWiz数据集中会有所不同的平均精度模型整体LQIIveINVDFFAMBSBJSYNGRNSPMOTH随机30.243.7122.4315.0914.6295.1914.1864.9969.420.522.25[29]第二十九话32.234.0143.1615.0914.6294.1114.1864.9969.420.522.25我31.884.3129.469.2817.0292.9117.9974.5572.560.50.24Q43.477.6558.8944.5628.1596.4224.0488.6384.671.360.38Q+I43.169.0558.0341.9528.2296.2524.2988.2684.021.270.26Q+I+A44.5511.5859.9546.0330.2796.4724.8889.6985.620.80.26Q+I+A FT44.468.1160.6743.3631.3596.9825.3190.4986.891.030.48Q+I+A GT44.098.9459.6445.2130.0496.6023.8389.7585.800.820.30随机30.1523.5933.6918.155.7074.705.1466.6171.941.350.62[29]第二十九话31.7130.5640.5218.155.776.535.1466.6171.941.350.62无法回答[19]35.3144.8258.6318.155.780.145.1466.6171.941.350.62我40.5455.4250.6630.128.7783.398.6479.7686.291.710.61Q40.535.8754.6639.2412.3284.4111.0079.4685.102.150.76Q+I45.7357.8162.4743.2413.7787.8111.1486.3692.012.000.75Q+I+A50.0265.5877.4256.5410.4989.7011.2690.4295.441.981.31Q+I+A FT50.0164.9377.4056.7810.1089.4813.1690.5295.501.841.28Q+I+A GT50.6866.2577.7157.2013.5590.0112.4690.5395.511.961.62到表示答案差异原因的全连接层(即,Q+I+A FT)。最后,我们检查当我们使用地面实况(GT)而不是“答案预测”模块时会直接使用GT答案的Q+I+A GT)。在[39]之后,只有在训练数据集中出现超过八次的答案才会被考虑在答案表示中结果两个数据集的结果见表2。正如所观察到的,所提出的模型(即,Q+I+A)超出-总体上以较大幅度形成现有基线。为例如,在两个数据集上,与下一个最佳的QI相关性基线相比,性能增益超过12个百分点。相比于随机猜测的现状,收获更大。结果表明,重新利用现有算法来解决我们的新问题是不够的,这激发了对直接学习“答案差异”任务的新算法框架的需求我们的研究结果还揭示了不同预测线索的好处与Q+I相比,Q+I+A在VQA 2.0和VizWiz数据集上的性能分别提高了1.4%和4.3%。这验证了将预测的答案添加为用于预测的另一个信号的有效性。有趣的是,我们观察到I对VizWiz数据集的影响比VQA 2.0大得多。我们将这种差异主要归因于VizWiz的LQI和IVE类别的显著优势,分别比随机猜测提供了20%和30%的增益。当 比较 的 性能 的 Q+I+AQ+I+A FT和Q+I+A GT,我们观察到类似的性能。曼斯。对于Q+I+A FT,这可能是因为预测的答案已经捕获了预训练的VQA模型中编码的知识。对于Q + I +A GT,这可能是因为来自VQA模型的答案概率提供了比人类注释的答案更丰富的信息,并且因为排除了不常见的答案。总体而言,模型在主观(26%)和困难(32%)的VQ数据集上表现最差。<<这突出了模型需要学习抽象概念,如常识。模型的其他挑战,尽管我们的模型相对于相关基线(即,通常超过20%),正在识别无效问题和低质量图像。6. 结论我们提出了一个分类的九个原因,为什么视觉问题的答案我们的实验证明了直接从视觉问题预测这一新任 务 的 算 法 的 承 诺 数 据 集 和 代 码 在https://vizwiz.org上公开共享,以促进这项工作的未来扩展有价值的未来工作包括用户研究,以确定如何使用这些算法来指导用户修改他们的视觉问题,以便他们得到一个单一的答案或追溯性地聚合答案[36]。鸣谢。我们感谢匿名评论者提供的宝贵反馈,感谢群众工作者提供的注释。这项工作得到了国家科学基金会(IIS-1755593)的部分支持。4279引用[1] BeSpecular。http://www.bespecular.com. 1[2] Ehsan Amid和Antti Ukkonen。多视图三元组嵌入:学习多个地图中的属性。国际机器学习会议,第1472-1480页,2015年。一、二[3] Hossein Amirkhani和Mohammad Rahmati基于同意/不同意的人群标签。Applied intelligence,41(1):212-222,2014. 2[4] Peter Anderson,Xiaodong He,Chris Buehler,DamienTeney,Mark Johnson,Stephen Gould,and Lei Zhang.自下而上和自上而下关注图像字幕和视觉问答。在CVPR,2018年。7[5] Stanislaw Antol , Aishwarya Agrawal , Jiasen Lu ,Margaret Mitchell,Dhruv Batra,C Lawrence Zitnick,and Devi Parikh.VQA:可视化问答。在IEEE计算机视觉国际会议论文集,第2425-2433页,2015年。一、二、四、五[6] 罗拉·阿罗约和克里斯·韦尔蒂。群众真相:利用众包中的分歧关系提取黄金标准. WebSci2013。ACM,2013,2013. 2[7] Jeffrey P Bigham ,Chandrika Jayant, Hanjie Ji,GregLit- tle , Andrew Miller , Robert C Miller , RobinMiller , Aubrey Tatarowicz , Brandyn White , SamualWhite,and others. VizWiz:几乎实时回答视觉问题。第23届ACM用户界面软件和技术年会论文集,第333-342页。ACM,2010年。1、4[8] Erin Brady,Meredith Ringel Morris,Yu Zhong,SamuelWhite和Jeffrey P.比格姆盲人日常生活中的视觉挑战。在 SIGCHI Conference on Human Factors in ComputingSystems,CHIACM。4[9] Michele A Burton,Erin Brady,Robin Brewer,CallieNeylan,Jeffrey P Bigham和Amy Hurst。使用vizwiz众包主观时尚建议:挑战和机遇。第14届国际ACM SIGAC-CESS计算机和可访问性会议论文集,第135-142页。ACM,2012年。3[10] 放大图片作者:Ashwin K.作者:王晓松,王晓松.劳伦斯·齐特尼克和德维·帕里克我们是幽默的人:理解和预测视觉幽默. 在IEEE计算机视觉和模式识别会议论文集,第4603- 4612页3[11] 帕特里夏·郑。从协变到因果关系:因果力量理论Psychological Review,104(2):367,1997. 6[12] Anca Dumitrache,Lora Aroyo和Chris Welty。用于医学关 系 提 取 的 众 包 基 础 事 实 。 arXiv 预 印 本 arXiv :1701.02185,2017。2[13] Carsten Eickhoff和Arjen P de Vries。提高众包任务的欺骗鲁棒性。Information retrieval,16(2):121-137,2013. 二三五[14] Ujwal Gadiraju , Ricardo Kawase , Stefan Dietze , andGian- luca Demartini. 了解众包平台中的恶意行为:在线调查的案例。第33届ACM人因会议论文集在计算系统中,第1631-1640页。ACM,2015. 二,三,5[15] Ujwal Gadiraju,Jie Yang,and Alessandro Bozzon.清晰度是一种有价值的品质:关于任务清晰度在微任务众包中的作用第28届ACM超文本和社交媒体会议论文集,第5-14页。ACM,2017。5[16] Yash Goyal 、 Tejas Khot 、 Douglas Summers-Stay 、Dhruv Batra和Devi Parikh。使VQA中的V变得重要:提升图像理解在可视化问答中的作用。在CVPR,第1卷,第9页,2017年。二四七[17] Danna Gurari和Kristen Grauman CrowdVerge:预测人们是否会同意视觉问题的答案在2017年CHI计算机系统中人类因素会议的会议记录中,第3511-3522页ACM,2017。一、二、三[18] Danna Gurari,Kun He,Bo Xiong,Jianming Zhang,Mehrnoosh Sameki , Suyog Dutt Jain , Stan Sclaroff ,Margrit Betke,and Kristen Grauman.预测前景对象模糊性并有效地众包分割。International Journal of ComputerVision,126(7):714- 730,20
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功