多模态实体链接数据集WIKIDiverse:多样上下文主题和实体类型的研究分析

143 浏览量更新于2023-11-30 收藏 1.84MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

+v：mala2277获取更多论文WIKIDiverse：一个多模态实体，将数据集与多样化的上下文主题和实体类型王旭武1，田俊峰2，顾敏3，李志旭1，王瑞4，严明2，陈丽涵1，肖扬华1，51复旦大学计算机科学学院2中国阿里巴巴集团3新加坡Shopee4唯品会（中国）有限公司有限公司、中国5复旦-爱数认知智能联合研究中心，中国{xwwang18，zhixuli，shawyh}@fudan.edu.cn，{tjf141457，ym119608}@alibaba-inc.com，min.shopee.com，mars198356@hotmail.com，lhc825@gmail.com摘要多模态实体链接（MEL），其目的是将具有多模态上下文的提及链接到来自知识库的所指实体（例如， Wikipedia）是许多多模态应用程序的基本任务。尽管MEL已受到广泛关注，但现有MEL数据集的不足之处，如上下文主题和实体类型有限、提及歧义简单、可用性受限等，给MEL的研究和应用造成了很大的障碍。在本文中，我们提出了WIKI Diverse，这是一个高质量的人类注释 MEL 数据集，具有来自Wikinews的多样化上下文一个精心定制的注释程序，以确保数据集的质量。基于WIKIDiverse，实现了一系列具有模态内和模态间关注的MEL模型，这些模型比现有的MEL模型更充分地本文通过大量的实验分析，探讨了不同模态对最大似然估计的贡献，为今后的研究提供了参考。数据集和基线模型可在https://github.com/wangxw5/wikiDiverse上获得。1介绍实体链接（EL）在自然语言处理社区中引起了越来越多的关注，其旨在将模糊提及链接到给定知识库（KB）中的所指明确实体（Shenet al. ，2014）。它已被应用于许多下游任务，如信息候选实体的提及上下文狮子队对包装工队底特律雄狮队（美式足球队）伦敦雄狮（篮球队）Mac OS X Lion（操作系统）来自意大利的国际空间站亚特兰蒂斯号航天飞机✅亚特兰蒂斯亚特兰蒂斯(2011电影）50米自由泳决赛Freestyle_自由泳游泳自由式说唱福特自由泳图1：几个MEL示例，在标题中突出显示提及，每个实体的第一个实体列为金色标签。回答（Yih et al. ，2015）和语义搜索（Blancoet al. ，2015）。作为命名实体（即，提到）与多模态语境，如文本和图像是普遍存在的日常生活中，最近的研究（月亮等。，2018; Mr. ，2020 a）将他们的焦点转向通过利用视觉信息来改进EL模型的性能，即，多模式实体链接（MEL）1.图1中描述了几个MEL示例，其中图像可以有效地帮助消除不同类型实体提及的歧义。由于它在多模态理解任务中的重要性，包括VQA、多模态检索、多模态知识库的构建等，人们一直致力于对MEL的研究。 Moon等人（2018）首次解决了零激发设置下的MEL任务。Mrsali等人（2020 a）设计了一个模型，将vi-提取（Yaghoobzadeh et al. ，2016），问题1在本文中，我们关注来自文本的提及这项工作是进行时，闵桂工作在跨度和离开视觉提及（即对象从阿里巴巴.（图片）未来的工作。arXiv：2204.06347v1 [cs.CL] 2022年4月+v：mala2277获取更多论文（一）3-电影1-新闻领域（WikiDiverse2-社交媒体（b）第（2）款3-社交媒体1-新闻领域（WikiDiverse2-电影任务数据集源KB模态话题输入类型手动打开语言大小ElAIDA（Hoffart et al. ，2011）MSNBC（Cucerzan，2007）AQUA（Milne and Witten，2008）ACE2004（Ratinov etal. ，2011）CWEB（Guo andBarbosa，2018）WIKI（Guoand Barbosa，2018）Zeshel（Logeswaran et al. ，2019年）新闻中心新闻中心新闻中心Wiki维基百科维基百科WikiaTmTmTmTmTm→→→→→→→TeTeTeTeTe多个多个多多个多个多个多个多个多个多✓✓✓'’’✓en✓en✓en✓en✓en✓en✓en1K文档20文档50个文件57个文件320个文件320个文件-MelSnap（Moon et al. ，2018）Twitter（Mr. ，2020 a）电影（Gan etal. ，2021年）微博（Zhang et al. ，2021年）社交媒体社交媒体电影评论社交媒体FreebaseTm，Vm→Te Twitter用户Tm，Vm→Te，Ve维基百科Tm，Vm→Te，Ve百度百科Tm，Vm→Te，Ve多重多重电影多多个PER、ORG PER每✓’’’✓埃森’12K字幕4M推文1K评论2.5万个职位WIKI多样新闻维基百科Tm，Vm→ Te，Ve多多✓✓en8K字幕表1：EL和MEL数据集概述。Tm（Te）和Vm（Ve）分别表示提及m（或实体e）的文本和视觉上下文，图2：（a）比较了不同领域的主题分布。社交媒体的统计数据是在抽样的Twitter上观察到的（Mrsali etal. ，2020a）。新闻领域的统计数据是在WIKI Diverse上观察的。电影领域的统计数据是在从IMDb采样的电影评论上观察到的。(b)比较了不同领域的歧义分布，在我们的数据集上观察到十种类型的歧义，包括不同类型的同名物体（Diff），同名的人（Per），同义词，转喻（Metm），推断（Infer），缩写（Abbr），姓或名（SurFirst），首字母缩写（Acrm），参考（Refer）和其他。MEL的直观、文本和统计信息。Zhang et al.（2021）设计了一种两阶段机制，首先确定图像和文本之间的关系以消除噪声图像的负面影响，然后执行消歧。Ganet al.（2021）首先分别对视觉提及和文本提及进行消歧，然后使用图匹配来探索模态间提及之间可能的关系尽管MEL已受到广泛关注，但表1中间行列出的现有MEL数据集在以下方面存在不足，这阻碍了MEL研究和应用的进一步发展。• 有限的上下文主题。如图2（a）所示，现有MEL数据集主要从社交媒体或电影评论中收集，其中社交媒体领域只有5个主题，电影评论领域只有1个主题但正如我们在新闻领域观察到的那样，包括灾难等其他热门话题在内，和教育缺乏主题将限制MEL模型的泛化能力。• 有限的实体类型。现有MEL数据集中的实体主要属于 “ 人（ PER ） ” 和 “ 组织（ORG）"类型这限制了MEL模型在其他实体类型（如位置、事件等）上的应用其在普通应用场景中也是普遍存在的• 简化提及模糊性：一些数据集，如Twitter（Escherali et al. 2020 a）通过用人名或组织的首字母缩写替换原始实体名称来创建人为的模糊提及。此外，有限的实体类型也导致了仅在PER和ORG中出现的有限的提及歧义。根据我们对不同领域的统计，如图2（b）所示，新闻领域总共有十种提及歧义+v：mala2277获取更多论文例如Wikinews2，而从社交媒体或电影评论收集的现有数据集仅涵盖小范围的模糊性。• 受限可用性。大多数现有的MEL数据集都不是公开的。为了使MEL的更详细的研究，我们提出了一个手动注释MEL数据集命名为WIKI多样性与多个主题和多个实体类型。它由从WikiNews收集的8 K图像-标题对组成，基于Wikipedia的KB，总共有~ 16 M实体。提及和实体都具有多模态语境的特征。我们设计了一个量身定制的注释程序，以确保WIKI Diverse的质量，并从多个角度分析数据集（第4节）。基于WIKIDiverse，我们提出了一系列具有模态内和模态间注意的MEL模型，它比现有的MEL模型更充分地利用了图像的视觉信息（第5节）。此外，我们还进行了大量的实验，分析了不同的通道对MEL任务的贡献以及视觉环境提供的视觉线索（第6节）。我们工作的贡献概括如下：• 我们提出了一个新的手动注释的高质量MEL数据集，涵盖了多样化的主题和实体类型。• 给出了多个设计良好的具有通道内注意和通道间注意的MEL模型，这些模型比以往的MEL模型更能充分利用图像的视觉信息。• 大量的实证结果定量地显示了文本和视觉模态对MEL的作用，详细的分析指出了未来的研究方向。2相关工作文本实体链接有大量的先前研究。多年来已经提出了多个数据集，包括手动注释的高质量数据集，如AIDA（Hoffartet al. ，2011年），自动注释的大规模数据集，如CWEB（Guo和Barbosa，2018年）和零炮数据集，如Zeshel（Logeswaran et al. 、2 https：//www.wikinews.org。这是一个免费的新闻维基。2019年）。为了评估EL模型的性能，通常在AIDA-train数据集上进行训练，并在AIDA-test、MSNBC（Cucerzan，2007）、AQUAINT（Milne和Witten，2008）等的数据集上进行测试。，2021），许多方法在近三年内取得了很高和相似的结果。一个可能的解释是，它可能只是接近这些数据集可以实现的上限，并且很难基于它们进行进一步的研究。多模态电致发光近年来，日益增长的多模态化趋势要求电致发光的研究从单模态扩展到多模态。Moon et al.（2018）首先解决了MEL任务，并建立了一个zero-shot框架，该框架在社交媒体帖子中提取EL的文本，视觉和词汇信息。然而，由于GDPR规则，其提议的数据集不可用。Alzheali等人（2020a，b）提出了一个从Twitter自动构建 MEL数据集该数据集具有有限的实体类型和模糊的提及，因此它不够具有挑战性。Zhang等人（2021）对从中国社交媒体平台微博收集的中文MEL数据集进行的研究，该数据集主要关注人物实体。Gan等人（2021）发布了从电影评论中收集的MEL数据集，并提出消除视觉和文本提及的歧义。该数据集主要关注电影中的人物和人物Peng（2021）提出了三个MEL数据集，它们是从微博、维基百科和Rich-pedia信息构建的，并使用CNDBpedia、Wikidata和Richpedia作为相应的知识库。然而，使用Wikipedia作为目标数据集可能会导致数据泄漏问题，因为许多语言模型都是在其上进行预训练的。我们的MEL数据集还与其他命名的实体相关的多模态数据集相关，包括实体感知图像标题数据集（Biten et al. ，2019; Tran et al. ，2020; Liu et al. ，2021）、多模态NER数据集（Zhang et al. ，2018; Lu et al. 然而，这些数据集中的实体没有链接到统一的KB。因此，我们对MEL的研究可以加深对命名实体的理解，从而促进这方面的研究。3问题公式化多模态实体链接被定义为将具有多模态上下文的提及映射到预定义的多模态知识库中的其所指实体。由于提及的边界和粒度可能是一致的，+v：mala2277获取更多论文·troversial，提到的跨度通常是预先指定的。在这里，我们假设每个提及在知识库中有一个对应的实体，这是知识库中的评估问题。形式上，让E表示KB的实体集它通常包含数百万个实体。每个提及m或实体ei∈E由对应的视觉上下文Vm、Vei和文本上下文Tm、Tei表征。这里Tm和Tei分别表示围绕m和ei的文本跨度。Vm是与m和Vei相关的图像是KB中ei的图像。在现实生活中，KB中的实体可能包含多个图像。为了简化它，我们选择ei的第一个图像作为Vei，并将每个图元具有多个图像的MEL作为将来的工作。因此，提及m的所指实体通过以下公式预测：e（m）= arg max（m（T m，V m）; e i（Tei，V ei））.ei∈E其中，rm（）表示提及和实体之间的相似性得分4数据集构建在本节中，我们将介绍数据集构建过程。WIKIDiverse的研究价值主要体现在标注质量、主题覆盖率、实体类型多样性、歧义覆盖率等方面4.1数据收集数据源选择1）对于图像-文本对的来源，考虑到新闻文章在传统EL中被广泛研究（Hoffartet al. ，2011;Cucerzan，2007），通常涵盖广泛的主题和实体类型，我们决定使用新闻文章。维基新闻和BBC是两个流行的新闻来源。因此，我们从两个方面进行了比较。如表2所示，Wikinews在图像-文本对之间的对齐程度和MEL难度方面具有优势。因此，我们选择维基新闻的图像-标题对来构建语料库。2)对于 KB 的来源，我们使用常用的维基百科（ Hoffart et al. ， 2011; Ratinov et al. ，2011;Guo and Barbosa，2018）.我们还提供了相应的维基数据实体的注释，以供灵活研究。数据采集1）对于图片-标题对，我们收集了维基新闻2007年至2020年的所有英语新闻，包括体育，政治，娱乐，灾难，技术，犯罪，经济，教育，健康和源图像对齐度MEL难度标题标题第一次发送。不容易难维基新闻百分之九十九百分之三十百分之二十三百分之一百分之五百分之九十四BBC百分之八十二百分之五十三百分之五十三百分之二百分之三十百分之六十八表2：比较了Wikinews和BBC的图片标题、图片新闻标题和图片优先句的对齐度和对应的MEL难度，其中MEL难度是通过词与实体的表面形式相似度来衡量的。天气这些数据涵盖了现实世界中的大多数常见最后，我们得到了一个原始语料库与14k图像字幕对。2)对于KB，我们使用Wikipedia3。实体集由主命名空间中的所有实体组成，大小为~ 16米。数据清理对于图像-标题对，我们移除1）包含色情、pro-fane和暴力内容的情况;2）文本短于3个单词的情况。最后，我们得到了一个包含8 K图像-字幕对的语料库。4.2注释注释设计WIKIDiverse的主要目标因此，给定图像-文本对，注释器需要1）从文本中检测提及（提及检测，MD）和2）以维基百科URL的形式用对应的实体标记每个检测到的对于在维基百科中没有对应实体的提及，它们被标记为“NIL”。七种常见的实体类型（即，人员、组织、地点、国家、事件、工程、杂项）需要注释。为了避免主观错误，我们设计了详细的注释指南，使用多个样本，以避免提及边界，提及粒度，实体URL等争议。详细信息可以在附录中找到。我们还定期交流，讨论一些新出现的注释问题。注释程序注释员包括13名注释员和2名经验丰富的专家。所有注释者都有语言知识，并接受详细注释原则的指导。每个图像-标题对由两个标注器独立地标注然后一位经验丰富的专家32021年1月1日的维基百科转储+v：mala2277获取更多论文|| ≈→|→||WikiDiverse GT Entity（KB）前[比尔卡公主&I（C）]（MS_Sea_Diamond）于2005MS Sea Diamond是一艘由LouisHellenic Cruise Lines(a) 实体类型分布。 (b)每次提名的候选人分布情况。图4：更多关于WIKI Diverse的统计数据。 (a)实体图3：来自WIKI Diverse的示例。GT表示地面实况实体。红色文本和蓝色文本分别表示注释的实体类型和Wikipedia实体。火车Dev.测试总配对数量63117557577823# ment。每双2.092.062.072.09每对10.1610.3010.0310.16表3：WIKIDiverse的统计数据。有争议的注释，并作出最终决定。根据Ding等人（2021），我们计算了CohenMD和EL的Kappa值分别为88.98%和83.75%，具有较高的一致性。4.3关于WIKIDiverseWIKIDiverse的大小和分布我们将WIKIDiverse按8：1：1的比例分为训练集、验证集和测试集。WIKI Diverse的统计数据见表3。收集的维基百科知识库总共有大约1600万个实体（即E16M）。此外，我们在图4（a）中报告了实体类型分布，并在图2（a）中报告了难度测量首先，我们比较了提及和地面实况条目的表面形式相似性。51.31%的提及与地面实况实体相比具有不同的表面形式具体而言，16.05%的提及与地面实况实体完全表面形状的巨大差异给MEL带来了挑战。其次，我们在图4（b）中报告每个提及的#候选实体。直觉上，一个提及可能涉及的实体越多，提及的模糊性就越大，EL/MEL就越难。具体来说，我们根据维基百科的（m，e）同现统计数据生成一个m e哈希列表（详见第5.1类型分布（b）每次提及的候选人数目分布情况如图4（b）所示，我们可以看到1）44.2%的提及有10个以上的候选实体。2)16.7%的提及不包含在哈希列表中，这意味着它们的候选是KB的整个实体集。第三，我们从WIKIDiverse中随机抽取200个图像-字幕对来评估歧义的多样性如图2（b）所示，WIKIDiverse涵盖了广泛的模糊性。5方法直接从大规模知识库中预测实体是具有挑战性的，因为它消耗大量的时间和空间资源。因此，根据以前的工作（山田等人。，2016;Ganea andHofmann ， 2017; Cao et al. ，2021），我们将MEL分为两个步骤：1）首先使用候选检索（CR）来保证召回率并获得由与提及最相似的TopK实体组成的候选实体集;2）然后进行实体去歧（ED）以保证精度并预测具有最高匹配分数的实体。5.1候选检索现有方法（ Yamada et al. ， 2016; Ganea 和Hofmann，2017; Le和Titov，2018）主要利用两种类型的线索来生成候选实体集E m：（I）记录从提及到实体的先验概率的m m哈希列表：P（e m）。(II)提到的上下文之间的相似性m和实体e。在这些工作之后，我们实现了一系列基线如下：（I）P（e m）（Ganea和Hofmann，2017）：P（e m）是基于1）维基百科的提及实体超链接计数统计数据计算的; 2）维基百科重定向页面; 3）维基百科消歧页面。（II）文本模态的基线：我们检索具有最相似的文本上下文的TopK候选实体。+v：mala2277获取更多论文视觉环境：∈|·--关于我们--对比损失匹配度多模编码器多模编码器标签：Lions狮子队对包装工队…底特律雄狮（DetroitLions）……文本背景：图5：采用的基线框架。基于BM 25（Robertson和Zaragoza，2009）提及，从（ Yamada et al. ， 2020 ）（表示为WikiVec）和BLINK（Wu et al. ，2020）。(III)视觉模态的基线：我们基于CLIP检索具有最相似视觉上下文的TopK候选实体（Radford etal. ，2021年）。5.2对比实体消歧多模态提及语境和实体语境之间的相互作用是复杂的。如果不小心处理，可能会因此，我们也引入了几个基线来探索多模态信息的融合。ED的关键组成部分是设计量化提及m和每个实体 ei Em 之间的匹配得分的函数 m（m;ei）。如图5中所示，MRM（m;ei）的主干分别包括m和ei的不同多模态编码器，随后是点生成以评估它们之间的匹配度特别地，然后使用多层感知器（ MLP ）来组合 P（em）。在形式上，m的ε可以通过以下公式预测：m= 编码器 m （ Tm ， Vm ） ;ei= 编码器 e（Tei，Vei）ei=argmaxMLP（miei，P（ei|（m））等人，2019）。而对于e i，我们将其嵌入为Yamada等人的预训练嵌入。（2020），其压缩了来自维基百科的ei的整个上下文的语义。{w= 1，.，wL1}=BER TEM B（Tm）（2）其次，我们得到视觉上下文嵌入。代替广泛使用的基于区域的视觉特征，我们采用以下网格特征（Huanget al. ，2020），其具有端到端的优势。具体地，视觉特征用来自以下的网格特征表示：{v1，.，vL2}=Flat（ ResNet（V））（3）其中Flat（）表示沿空间维度展平要素，L2表示栅格要素的数量。最后，以两个模态的嵌入我们采用几个骨干融合多种模式。1) UNITER（Chen et al. ，2020年）：这两种模式被连接起来，然后送入自我注意力转换器，将它们融合在一起。2)UNITER*：我们在UNITER之前对两种模态3)LXMERT（Tan和Bansal，2019）：这两种模态首先被馈送到单独的自注意力转换器中，然后与跨模态注意力相互作用。通道内注意和通道间注意的设计有助于更好地协调和互动的多通道。在多层融合操作之后：带1号线，v1，.，vL2 ）、提及的令牌的隐藏状态h1，.，hj是O-保持。然后我们将隐藏状态并将它们馈送到MLP中以获得提及MLP（[hi||hj]）对比损失我们引入对比ei∈Em（一）学习（Karpukhin et al. ，2020; Gao et al. ，2021年）因此，多模态的提及和实体编码器是MEL的重要组成部分。它们使用相同的结构，但使用不同的参数进行训练。多模态编码器首先，我们得到文本上下文对于提及的文本上下文T m = w 1，. . .，w L1，我们直接用BERT（Devlin以学习更鲁棒的语句和实体的表示人们普遍认为，选择负面的例子可能是学习一个好的模型的决定性因素为此，我们利用硬底片和批内底片来提高我们的模型令ei，j表示批处理中第i个提及的第j个候选实体，令Pi表示mi+v：mala2277获取更多论文→→→−|我我i，Pi+eb，Pbi，k kPimini-batch：{e+}，其中B表示e模态方法R@10 R@50 R@100PP（e|（m）模态型号F1 P RREL 60.48最大值BM25 39.66 48.49 51.85T WikiVec 14.73 20.27 22.60T→TBLINK 66.74 70.93 63.03BERT 63.65 69.63 58.77T BLINK 63.63 73.15 76.03V CLIP 17.05 27.26 31.30T+V*BLINK+CLIP66.96 77.18 80.53P+V*P（e|m）+CLIP85.26 90.27 91.30P+T*P（e|m）+BLINK86.36 91.78 93.21P +T+V* P（e|m）+BLINK+CLIP86.37 91.91 93.35表4：候选检索的性能。R@K表示TopK检索到的实体的召回模态-P、T、V的性质表示P（e|m）、文本上下文和V VResNet-50 40.16 43.81 37.08夹45.46 50.51 41.33T+V T MMEL 18 61.58 70.85 54.46MMEL20 37.44 38.48 36.46UNITER 69.37 73.72 65.51联合机 * 70.60 75.03 66.66T+V T+VLXMERT 68.56 74.78 63.30UNITER † 71.07 75.52 67.10UNITER* † 71.15 75.61 67.18LXMERT 71.07 78.62 66.55视觉环境分别。T+V和P+T+V表示不同子方法的集合。带有 * 的结果是使用Dev上的网格搜索生成的数据集，以找到不同子方法的最佳组合。实体硬否定是在CR步骤中检索到的除黄金实体以外的其他K1个可识别实体：{e-}k∈[1，K]。批内底片表5：5次运行平均结果与基线的比较。具有†的模型通过对比学习得到增强所有的模型使用相同的候选实体集检索通过 P （ e m ） +BLINK+CLIP 与K=10。对于检索，每次提及需要大约12ms的是其他B-1提到的黄金实体，b∈[1，B]b、Pbb我批量大小。定义了优化目标作为地面实况实体的负对数似然：（m，e+））的情况下） i，PiP（e| m），BM 25为40 ms，WikiVec和CLIP为183 ms，BLINK为60 ms：2）对于不同模态的集成，T + V的效果优于V和T，证明了不同模态的信息是互补的;在实践中，我们在Dev上使用网格搜索。到L（mi，Emi）=−logK（m，e+）） −B我找到不同模式的最佳组合例如，当K= 10时，最佳EM 是gener-−=e（m，e+））的情况下）用80%P+10%T +10%V处理k=1，kPib=1，b/=i“我不想让你失望。x`in-batchnegatives（4x）6.2实体消歧结果除了上述基线，我们还与以下经典基线进行了比较：1）语篇情态的基线包括REL（Le和Titov，2018），BERT（Devlin et al. ，2019）和BLINK（Wu et al. ，2020）。2)视觉模态的基线包括ResNet-50和CLIP。3)多模式基线包括 MMEL 18 （ Moon et al. ， 2018 ）、MMEL20（Mellali et al. ，2020 b）。基线的详细情况见附录。6实验结果6.1候选检索结果如表4所示：1）我们的模型实现了93.35%的R@100，这表明大多数相关实体可以从16M的大KB中调用e+v：mala2277获取更多论文继以前的工作，我们报告微F1，前-在表5中进行决策和回顾。根据实验结果，我们可以看到：第一，所提出的此外，对比学习甚至可以提高性能。我们认为对比学习提高了区分实体的能力第二，文本基线的表现优于视觉基线，这表明文本上下文在MEL中仍然起着主导作用。第三，使用转换器来模拟模态之间的交互的方法比使用简单交互的方法表现得更好（Moon et al. ，2018; Mr. ，2020a），这验证了融合不同模态的重要性。+v：mala2277获取更多论文||数据集类型图片6 标题图片6图片7页8页对象场景财产场景&财产2005年的前比尔卡公主，现在被称为M/S海钻石女子50米自由泳决赛带有英文标签的COVID-19疫苗瓶男子400米T53MS_Sea_Diamond自由泳COVID-19轮椅_赛车图6：“视觉线索”的示例6.3多模式分析我们还对ED任务进行了如下实验多种模式是否互补？我们在图8中绘制了不同模态的维恩图。方法i的圆是通过#Hiti和两个圆|数据集|通过#（Hiti<$Hitj）计算。人们可以看到文本模态占主导地位，而视觉模态提供补充信息。特别地，多模态方法预测出的新实体比传统方法多9.38%，验证了融合两种模态的同时拥有提及和实体的多模态上下文是否更好？我们进行了消融研究，并在表6中报告了实验结果。我们可以看到，具有提及和实体的多模态上下文的模型取得了最好的结果。因此，将多模态提及链接到多模态实体比将多模态提及链接到单模态实体更好（Moonet al. ，2018）。视觉语境提供了什么样的视觉线索？我们从测试数据集中随机选择了800个图像-标题对，然后要求注释者用视觉线索的类型来标记每个提及。视觉线索包括4种类型：1）对象：图像包含实体对象。2)场景：图像揭示实体所属的场景（例如，“篮球场”的篮球运动员型号F1 P RLXMERT 71.07 78.62 66.55不带Vm53.75 58.62 49.62不包括Ve不含Vm和Ve不含Tm59.76 65.19 55.17不含Te51.30 55.95 47.36不含Tm和Te40.16 43.81 37.08表6：消融研究，以分析未提及和实体的模态。W/oTm/e或Vm/e代表在没有相应输入的情况下训练的LXMERT。球比赛3）属性：图像包含实体的一些属性（例如，美国国旗显示一个人的国籍属性4)其他：其他重要背景。请注意，这四种类型的线索可以交叉，样本可能没有线索。视觉线索的示例可以在图6中找到。我们发现，视觉上下文是有帮助的60.54%的提及和81.56%的图像-标题对。我们在表7中报告了不同类型的视觉线索的贡献。可以看出：1）对于场景线索、物体线索和道具线索，T+V显著优于T.实验结果表明，多模态模型能够很好地利用图像中的多种视觉线索信息2）但我们的模型在场景和属性线索方面仍然表现不佳因此，细粒度的视觉线索并没有得到很好的利用，这表明了未来的研究方向。+v：mala2277获取更多论文实体的标题（GT）实体（T+V）实体（T）（梅森·克罗斯比的一个投篮帮助包装工队...=GT✅Field_goal投篮命中率（篮球）（b）第（2）款酒吧写高清电视是值得每一分钱，=GT黑板上的恶作剧查尔斯·辛普森巴塞洛缪Dorsa Derakhshani在巴塞罗那，西班牙.(c)蒙卡达只是少数几个公里外巴塞罗那Moncada，瓦伦西亚，Montcada_i_Reixac（d）其他事项演讲前的玫瑰园白宫玫瑰园玫瑰花园Rose garden（在下山后，马奇姆停了下来。下坡_滑雪下坡_山地自行车电影下载_2016图7：案例研究。显示了下划线提及的成功预测和失败预测T+VV不图8：不同模态贡献的维恩图说明。我们删除了LXMERT相应模态的输入，以获得无需重新训练模型的结果为了避免干扰P（e|m），我们也将其从模型中删除。3）减轻对P（e）过度依赖|m）（例如，实施例（e））。7结论和今后的工作我们提出了WIKI多样性，一个手动注释的基于维基百科的MEL数据集从维基新闻收集。为了克服现有数据集的弱点，WIKIDiverse涵盖了广泛的主题，实体类型和歧义。我们实现了一系列基线，并在数据集上进行了多次实验。根据实验结果，WIKIDiverse是一种具有挑战性的视觉线索比例F1T T+V数据集值得进一步探索。除了多-目标45.40% 59.65 67.72现场18.96% 49.68 60.63房地产26.22% 56.28 64.45其他14.80% 58.82 88.24表7：不同视觉线索下的模型表现。T+V表示多模态模型LXMERT，T表示文本模型BERT。6.4为例我们在图7中展示了多模态上下文影响MEL的几个示例。例（a）和（b）验证了多模态语境的有用性。从错误案例中，我们可以看到模型仍然缺乏这样的能力：1）消除无用图像的影响（例如，实施例（c））;2）执行推理（例如，推断除了多模态实体链接之外，WIKIDiverse还可以用于评估预训练的语言模型、多模态命名实体分类/识别、多模态主题分类等。在未来，我们计划1）利用每个实体的多个图像2）采用更细粒度的多模态交互模型来执行此任务，3）将模型转移到更一般的场景中，例如文章中的EL。确认本研究得到了国家重点研发项目（No.2020AAA0109302）、国家自然科学基金项目（No.62072323）、上海市科技创新行动计划（No.19511120400）、上海市科技重大专项（No.20109302）、上海市科技创新计划（ No.20109303 ）、上海市科技创新计划（No.20109300）等项目的资助。❎百分之三十八点九五3.83%9.38%31.34%3.17%7.80%6.83%+v：mala2277获取更多论文2021SHZDZX0103）和阿里巴巴研究实习生计划。引用Omar Musali，Romaric Besançon，Olivier Ferret，Hervé Le Borgne，and Brigitte Grau. 2020年a。从tweets构建多模态实体链接数据集。第12届语言资源与评估会议论文集，第4285-欧洲语言资源协会。Omar Musali，Romaric Besançon，Olivier Ferret，Hervé Le Borgne，and Brigitte Grau.2020年b。tweets的多模式实体链接。在信息检索进展中，第463-478页，Cham。施普林格国际出版社.Ali Furkan Biten，Lluis Gomez，Marçal Rusinol，and Dimosthenis Karatzas. 2019.好消息，各位！用于新闻图像的上下文驱动的实体感知字幕。IEEE/CVF计算机视觉和模式识别会议论文集，第12466-12475页。罗伊·布兰科，朱塞佩·奥塔维亚诺，埃德加·梅杰。2015年。用于查询的快速且节省空间的实体链接在第八届ACM网络搜索和数据挖掘中，第179188. ACM。Nicola De Cao，Gautier Izacard，Sebastian Riedel，and Fabio Petroni. 2021. 自回归实体检索。在学习表征国际会议上。Yen-Chun Chen，Linjie Li，Licheng Yu，AhmedEl Kholy，Faisal Ahmed，Zhe Gan，Yu Cheng，and Jingjing Liu. 2020. Uniter：通用图像-文本表示学习。在ECCV。西尔维·库塞赞2007. 基于维基百科数据的大规模命名实体消歧。在2007年自然语言处理和计算自然语言学习经验方法联合会议（ EMNLP-CoNLL）的会议中，第708-716页，布拉格，捷克共和国。计算语言学协会。Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，Kai Li，and Li Fei-Fei.2009. Imagenet：一个大规模的地理图像数据库。2009年IEEE计算机视觉与模式识别会议，第248-255页Jacob Devlin，Ming-Wei Chang，Wendon Lee，andKristina Toutanova. 2019. BERT：语言理解的深度双向转换器的预训练。在计算语言学协会北美分会2019年会议论文集：人类语言技术，第1卷（长论文和短论文），第4171-4186页，明尼阿波利斯，明尼苏达州。计算语言学协会。NingDing ， Guangwei Xu ， Yulin Chen ， XiaobinWang，Xu Han，Pengjun Xie，Hai-Tao Zheng，and Zhiyuan Liu. 2021. Few-nerd：一个少量命名实体识别数据集。在ACL-IJCNLP。甘静茹，罗金昌，王海伟，王淑慧，何伟，黄清明。2021.多模态实体链接：一个新的数据集和基线。多媒体等屋大维-欧根·加内亚和托马斯·霍夫曼。2017. 基于局部神经元注意力的深层联合实体消歧。2017年自然语言处理经验方法，第2619-2629页，丹麦哥本哈根。计算语言学协会。高天宇，姚兴城，陈丹琪。2021. SimCSE：句子嵌入的简单对比学习。 arXiv 预印本 arXiv ：2104.08821。郭昭辰和德尼尔森·巴博萨。2018.用随机游走进行命名实体消歧。Semantic Web，9（4）：459何开明，张翔宇，任少卿，孙健。2016.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别中，第770- 779778.Johannes Hoffart ， Mohamed Amir Yosef ， IlariaBor- dino ，Hagen Fürstenau，Manfred Pinkal，Marc Span-degree ， Bilyana Taneva ， StefanThater，and Gerhard Weikum.2011年。文本中命名实体的健壮消歧。在Proceedings of the 2011ConferenceonEmpiricalMethodsinNaturalLanguage Processing，第782计算语言学协会。Zhicheng Huang ， Zhaoyang Zeng ， Bei Liu ，Dongmei Fu，and Jianlong Fu. 2020. Pixel-be

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

多模态实体链接数据集WIKIDiverse:多样上下文主题和实体类型的研究分析

"多模态基准数据集：假新闻检测的有效性和数据增强

多模态对话情感分析数据集

社交情感分析多模态数据集

除了人工客服的多模态数据集，还有哪些多模态数据集？

多模态知识图谱数据集

多模态2D+3D人脸识别所有公开数据集数据集

人工客服的多模态数据集

能源多模态数据集的采集

乳腺多模态数据集超声

国内外多模态服饰语料库的优缺点

医药合成领域多模态数据集

多模态数据和异构数据的联系和区别

多模态LLM在数据处理中的优势

数据集比较小的可以3d多模态目标检测的室外场景数据集有哪些

用来教育的多模态数据集

多模态对话情感识别最新工作

多模态的语义通信演示平台项目遇到的困难

室内场景3d目标检测的多模态数据集有哪些，分别大约多大内存

多模态在计算机视觉发展历程

最新资源