没有合适的资源?快使用搜索试试~ 我知道了~
维基媒体:开放领域视野与语言理解
591通过维基媒体迈向开放领域视野和语言理解戴维·塞梅多NOVA LINCS,Universidade NOVA de Lisboa,Caparica,Portugaldf.semedo@fct.unl.pt维基百科页面维基数据维基共享资源事件时间轴2004年海啸四季问6年q1海啸年q3Q2海啸2011年日本描述:2004年海啸后,班达亚齐的一座清真寺矗立在废墟中。日期:2005年1月21日描述:3月11日,日本发生了一场灾难,许多村庄和城镇被冲毁。日期:2011年9月25日丰富的文本描述-自由文本结构化语义领域信息开放-随时间变化的领域视觉和语言数据图1:Wikimedia开放域媒体数据框架媒体理解概述。摘要1.导言目前最先进的任务不可知的语言学方法,如ViLBERT [2],仅限于文本具有视觉物化的领域(例如,跑步的人这项工作描述了一个项目,实现下一代的模型,可以处理开放领域的媒体,并通过联合推理媒体,领域知识图和时间上下文,学习反映数据的上下文的语言表示维基媒体数据框架将利用这一雄心,该框架由全面和高质量的数据组成,涵盖广泛的社会,文化,政治和其他类型的事件。为了实现这一目标,我们提出了一个研究设置由一个开放域的数据框架和一组新颖的独立的研究任务。CCS概念• 计算方法学→人工智能;·信息系统→多媒体和多模态检索。关键词媒体理解,视觉和语言,人工智能ACM参考格式:大卫·塞梅多。2021年与维基媒体一起迈向开放域视野和语言理解在2021年网络会议(WWW '21Companion)的配套程序中,2021年4月19日至23日,斯洛文 尼 亚 卢 布 尔 雅 那 。 ACM, New York , NY , USA , 3 页 。https://doi.org/10.1145/3442442.3452346本文在知识共享署名4.0国际(CC-BY 4.0)许可下发布。作者保留在其个人和公司网站上以适当的署名传播作品的权利WWW©2021 IW 3C 2(国际万维网大会委员会),在知识共享CC-BY 4.0许可下发布。ACM ISBN 978-1-4503-8313-4/21/04。https://doi.org/10.1145/3442442.3452346Wikimedia1图书馆可以被视为人类足迹的数字镜子,不仅涵盖了改变经济和社会的最具影响力的现实世界事件,还涵盖了有关各种主题的从这些事件中自动理解媒体(图像和文本),需要及时将它们框起来,并学习它们如何与其他媒体联系起来。因此,多种信息类型,从自由文本描述,图像和语义知识图,必须共同考虑。虽然维基百科页面以半结构化的自由文本形式描述特定的主题/概念,但Wikidata提供了一个支持语义推理的知识图,而WikimediaCommons提供了免费的高质量媒体。 在这项工作中,我们认为,这个框架有可能解锁一个新的研究方向,真正的任务不可知和开放域的语言表征学习系统。实现这种完全了解背景和知识的模型是向用户提供工具的关键,这些工具有助于获得多年的信息,并能够研究某些感兴趣的主题和概念的演变。例如,它将有助于回答这样的问题-“10个月前文本是如何描述这个视觉概念的,它是如何改变的?”- 或-“任何两张照片,从不同的但相同的性质的事件,并采取多年分开,是相关的?“. 提出这些问题需要明确地解释主题语义,在空间和时间中构建它,并揭示每个特定上下文的视觉-文本关系。当前最先进的任务不可知视觉和语言表示学习系统[2],在配对数据(图像)上训练+文本),在封闭域中桥接视觉和语言方面表现得相当出色。然而,他们在一个高度限制的环境1https://www.wikimedia.org/592WWW设置,其中所涉及的概念必须直接在图像中具体化(例如,建筑物旁边的公共汽车),并且没有明确考虑开放域领域知识虽然已经进行了一些将领域知识纳入此类系统的初步尝试[1,3],但所考虑的任务和数据集的规模和多样性仍然非常有限。为了发展这些现有的模型是完全上下文和知识感知,同时应对开放域数据,我们decom-pose的一般问题,并提出了一套新的独立的任务,由研究人员来解决此外,我们描述了一个基于维基媒体的开放域媒体数据框架,如图所示。1,这将使处理每一个拟议的任务。2维基媒体作为一个大规模的开放域媒体库图 1描述了一个完整的框架,其中包含图像、文本描述和时间戳的富媒体事件数据可以映射到维基数据的领域知识图。更全面的文字描述可以从事件维基百科页面获得。这为追求开放领域和以知识为基础的表示学习系统提供了一个丰富而连通的环境。可用信息的规模使深度学习,符号和其他类型的方法成为可能。3新一代视觉语言模型目前基于Transformer架构的任务不可知的自监督深度学习模型已经在多个神经语言任务中建立了最先进的技术[2],例如检索,图像字幕,视觉问答等。这些任务不仅是通过坚持视觉领域和可以在其中实现的概念(例如, 一棵树,一个人坐在椅子上),但也假设图像和文本是无上下文的。利用图1中提供的完整开放域数据框架1将允许采取下一步将这些模型知识推广到开放域设置,其中包括特定于事件域的概念。 在这种情况下,同一个概念(视觉或非视觉)可能会有不同的描述,这取决于其上下文(语义和时间)。因此,这建立了一个新的研究方向,将寻求发展现有的方法,主要是基于深度学习,这种开放领域的场景,必须是完全上下文感知的。不仅具有配对数据(即,图像+描述),但领域语义知识将是实现这一目标的也就是说,使用Wikidata,可以追求新一代的媒体理解模型,该模型可以在媒体,知识图和时间上下文上联合推理,对每个媒体资产进行语义4新出现的任务和用例现在,我们介绍新的研究任务,从分解的问题。4.1开放域媒体字幕该任务旨在设计可以为图像生成文本描述/段落的模型。与标准公式不同,这项任务的目标是不仅能够使用可见的内容来描述图像,而且还能够使用其高级上下文来描述图像。 这导致了一个依赖于上下文的图像字幕任务,其中取决于图像域,事件和时间戳,相同的视觉概念可能会被不同地描述(见图2)。1为例)。4.2开放域媒体会话代理通常,多模态会话代理通过会话来满足用户的信息需求,在每一轮中,用户意图通过文本和视觉输入来表达 相关倡议是TREC-CAsT 2轨道,它对开放域但仅文本的会话代理进行基准测试,以及多模态开放域视觉对话[1]。 我们提出的任务,通过在对话中涉及开放域文本和图像来结合这些举措,并旨在在知识图谱中找到答案,类似于[3]的方法。4.3事件理解和社交媒体该任务建立在现实世界事件分类和摘要的先前努力的基础上,通过寻求模型,通过利用图像-文本关系和知识图信息,可以构建事件媒体并自动创建可视化的事件故事情节摘要。这些故事情节预计将传达事件如何展开的时间轴。维基媒体和社交媒体之间的媒体链接可以a)通过分析用户的反应来进一步研究事件如何影响社会,b)作为一个免费的(更直接的)信息来源,这反过来可以丰富生成的故事情节和维基媒体。4.4跨时空媒体可视化给定一个模型,该模型可以捕获媒体上下文,了解它与其他主题或事件的关系,并且能够基于在知识图谱的背景下,我们如何通过全面而引人注目的可视化使所有这些信息可用,从而赋予用户权力?这项任务的目的是研究交互式可视化系统,使用户能够浏览多年的媒体文档,无论是通过交互式利用视觉和知识图关系(空间),或数据时间轴(时间),如图1。1.一、5从初步到未来的工作使用Flickr3 CC多模态事件媒体4的初步实验表明,在开放域环境中连接视觉和语言时,考虑时间上下文的重要性。我们最近提出了一个历时跨模态嵌入模型[4],它明确地在时间上构建媒体。然而,所提出的方法受到两个主要方面的限制:a)由于其社交媒体性质,数据的质量,以及b)缺乏可以利用概念和主题关系的语义知识图。为了解决这些限制,第一步将是收集维基媒体的代表性快照,包括一组真实事件的初始集合,其中将收集图像,其相应的描述和事件知识图。则每个2https://www.treccast.ai/3https://www.flickr.com/4https://novasearch.org/multimodal-diachronic-models/593Towards Open-domain Vision and Language Understanding with Wikimedia WWW将正式确定拟议的任务然后,将与社区分享这些收集的信息,以促进先前确定的每项任务的进展。 我们将从研究如何使ViLBERT等模型适应开放域环境开始,并在定义的任务上对其进行评估。致谢这 项 工 作 得 到 了 项 目 PT2020 SmartyFlow 的 部 分 资 助 , Ref.LISBOA-01-0247-FEDER-017283 , iFetch 项目,参考号45920 ,由ERDF、COMPETE 2020、NORTE 2020和NOVA LINCS项目共同资助。UID/CEC/04516/2013。引用[1] 艾米丽·迪南,斯蒂芬·罗尔,库尔特·舒斯特,安吉拉·范,迈克尔·奥利和杰森·韦斯顿。2019.维基百科的向导:知识驱动的对话代理。在第七届国际会议上学习表示 , ICLR 2019 , 新 奥 尔 良 , 洛 杉 矶 , 美 国 , 2019 年 5 月 6 日 至 9 日 。OpenReview.net.[2] Jiasen Lu,Vedanuj Goswami,Marcus Rohrbach,Devi Parikh,and StefanLee. 2020. 12合1:多任务视觉和语言表征学习。IEEE/CVF计算机视觉与模式识别会议(CVPR)[3] Kenneth Marino,Mohammad Rastegari,Ali Farhadi,和Roopheh Mottaghi。2019年。OK-VQA:一个需要外部知识的可视化问题生成基准。计算机视觉和模式识别会议(CVPR)[4] David Semedo和Joao Magalhaes。2019年。历时跨模态嵌入。第27届ACM多媒体国际会议(法国尼斯)(MM计算机协会,纽约,纽约,美国,2061
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功