人机协作的文化遗产数据注释与丰富

111 浏览量更新于2023-10-16 收藏 13.46MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Alexandros Chortaras, Anna Christaki, Nasos Drosopoulos, Eirini Kaldeli, Maria Ralli,∗1https://www.europeana.eu/portal/en2https://dp.la/Track: Augmenting Intelligence with Humans-in-the-Loop WWW 2018, April 23-27, 2018, Lyon, France11170WITH: 人机协作进行数据注释和丰富0希腊雅典国立技术大学雅典, 希腊achort@cs.ntua.gr,achristaki@image.ntua.gr,ndroso@image.ntua.gr,ekaldeli@image.ntua.gr,mariaral@image.ntua.gr, natasa@image.ntua.gr,stabenau@image.ntua.gr,gstam@cs.ntua.gr,tzouvaras@image.ntua.gr0摘要0在过去几十年中，文化遗产（CH）领域取得了巨大的转变，产生了大量来自许多不同文化机构（如博物馆、图书馆和档案馆）的内容。这些丰富的内容中的很大一部分已经聚合在数字平台上，这些平台作为跨领域中心发挥作用，然而由于数据和元数据质量不足，这些平台对内容的可用性和可访问性有限。为了使CH更加可访问和可重用，我们引入了WITH，这是一个聚合平台，提供增强服务并实现人机协作进行数据注释和丰富。WITH通过结合人工智能自动化和创造性用户参与，推动数字文化数据的发展，从而促进其可访问性、可见性和重用。具体而言，通过使用图像和自由文本分析方法进行自动元数据丰富，根据众包方法和游戏化元素进行丰富和验证的人类专业知识，WITH结合了人类和计算机的智慧，改善了数字文化内容的质量和呈现方式，建立了文化组织与其受众之间的新型协作方式。0CCS概念0• 信息系统 → 众包 ; • 以人为中心的计算 → 社交标签 ; •应用计算 → 注释 ; 文档元数据 ;0关键词0文化遗产，元数据，注释，元数据丰富，人机协作，众包0ACM参考格式：Alexandros Chortaras, Anna Christaki, NasosDrosopoulos, Eirini Kaldeli, Maria Ralli, Anastasia Sofou, Arne Stabenau,Giorgos Stamou, Vassilis0� 作者按字母顺序排列。0本文发表在知识共享署名4.0国际（CC BY4.0）许可下。作者保留在个人和公司网站上传播作品的权利，并附上适当的归属。WWW'18 Companion，2018年4月23日至27日，法国里昂 © 2018IW3C2（国际万维网会议委员会），根据知识共享CC BY 4.0许可发布。ACM ISBN978-1-4503-5640-4/18/04. https://doi.org/10.1145/3184558.31915440Tzouvaras. 2018. WITH: 人机协作进行数据注释和丰富.《2018年Web会议伴侣论文集》（WWW'18 Companion）. ACM, 纽约,纽约, 美国, 9页. https://doi.org/10.1145/3184558.319154401 引言0近年来，文化遗产（CH）领域经历了令人难以置信的转变：大规模数字化和注释活动的加速数字化进程，以及从各种可能的来源生成多模式文化内容的行动，导致大量数字内容通过各种文化机构（如博物馆、图书馆、档案馆和画廊）可供使用。将这些内容聚合到国际级别的倡议已经产生了数字平台，例如Europeana 1和Digital PublicLibrary of America2。这些平台作为跨领域中心运作，使内容对用户可访问，可供搜索和研究，或通过创意应用和网络服务进行重用和再利用。虽然这些平台的主要优势在于它们包含的项目数量庞大，但由于数据和元数据质量不足，它们的可用性和可访问性有限。影响元数据质量的因素有很多，并且已经有很多倡议致力于元数据质量评估[1]、推荐[3]和CH标准化[7]。缺乏结构化和丰富的描述性元数据、复杂、异构和多通道的聚合工作流程、数据提供过程中可能出现的缺陷、数字存储库中自动生成的元数据生成的手动质量控制不足等是导致元数据描述符质量差的主要原因之一。这个缺点严重影响了可用数字内容的可访问性、可见性和传播范围，也限制了以创新方式重用可用文化资源的增值服务和应用的潜力，同时也限制了用户体验。由于改善数十万甚至数百万来自不同来源的记录的元数据质量通常面临规模问题，因此改善元数据质量通常需要大量的时间、精力和资源，这是聚合器和文化遗产机构无法承担的。在这种情况下，通过自动化元数据处理[2]和特征提取以及众包注释服务[4]、[13]的元数据丰富服务成为可能。2WITH ECOSYSTEM OVERVIEW3http://with.image.ntua.gr/Track: Augmenting Intelligence with Humans-in-the-Loop WWW 2018, April 23-27, 2018, Lyon, France11180通过专用平台的方式，可以为改善存储在Europeana等平台上的数字内容的元数据质量提供一个卓越的机会[18]，[17]，[9]，同时还能吸引用户并提高对文化遗产资产的认识。在本文中，我们介绍了WITH3，这是一个合作的文化遗产内容采集、发布和众包平台，旨在丰富和改善元数据质量，促进数字文化内容的可搜索性、可见性和再利用性，这些内容可以通过各种来源获得。WITH面向文化遗产领域和创意文化产业的各种类型的用户（利益相关者），这些用户具有不同的专业水平，并通过使用平台的编程接口（API）提供丰富的服务。该平台提供元数据管理和组织，引入了空间的概念，以便根据各种直观的聚合级别进行数据可视化。通过链接数据原则和旨在增强和丰富可用网络资源的自动化元数据处理服务，WITH有助于提高元数据质量。此外，它还为文化遗产机构和聚合器提供了启动特定的众包活动的可能性，其中包含游戏化元素和可衡量的结果，从而动员和吸引用户执行有用的任务，以丰富和验证所选的文化遗产元数据。通过提供的众包活动，目标用户可以根据内容类型和缺失的元数据添加注释（例如，语义标记、图像标记、地理标记等），并以用户友好和引人入胜的方式验证现有的注释（例如，通过点赞或点踩），通过排行榜或奖励等方式。本文的其余部分结构如下：第2节介绍了平台的整体设计及其组成部分。第3节详细描述了数据管理方法，包括元数据聚合工作流程（3.1）、以及集合和空间方面的内容组织和管理（3.2）。第4节描述了平台采用的元数据丰富方法，包括AI元数据提取方法（4.1）和众包注释服务（4.2）。最后，第5节总结了工作并讨论了平台未来的发展。为了帮助读者理解底层技术，在所有章节的末尾，我们提供了WITH平台在音乐收藏领域使用的一个实例，这是由一个真实的WITH用例场景驱动的。0WITH的主要动机是利用CH存储库并通过增强其可访问性和可发现性来推广数字文化内容[6]。WITH可以被视为一个完整的生态系统，提供丰富的服务，从多个来源聚合内容，在后端执行自动映射以解决互操作性问题，通过链接数据原则和自动化的自由文本和图像分析服务来改善元数据质量，并动员和吸引用户执行有用的任务，以丰富和验证所选的文化遗产元数据。在其核心，它是一个专为CH设计的平台，专注于人机协作，提供一系列服务，如内容集成、管理、检索和策划、自动元数据丰富以及众包活动，以适应人类专业知识和智能。0WITH的核心是一个专为CH设计的平台，专注于人机协作，提供一系列服务，如内容集成、管理、检索和策划、自动元数据丰富以及众包活动，以适应人类专业知识和智能。0图1：平台概述。0WITH面向文化遗产领域和创意产业的各类用户，作为一个多功能平台，其功能抽象程度因用户的专业水平而异。具体而言：0•对于最终用户，WITH作为发现分布式存储库中的文化遗产资源的起点。他们可以将不同的来源与自己的材料结合起来，为文化的欣赏和传播提供新的有趣叙述。用户收藏的记录可以用于创建虚拟展览，以便快速、简便地发布演示或叙述，可以直接从Web浏览器访问和编辑。用户组还可以共同合作创建和修改内容。•对于文化遗产专业人员，WITH提供了组合和上下文化的工具，为数字文化遗产知识的推广、改进和演进做出贡献。•对于内容持有者，WITH提供了一个易于使用的内容和元数据存储库和管理系统，可以4http://mint.image.ece.ntua.gr/redmine/5api.withculture.eu/assets/developers-lite.html11190确保与标准、最佳实践和聚合器指南的互操作性。•对于文化遗产机构，WITH提供了组织和推广内容、改善内容元数据并通过众包活动与用户互动的空间。•对于聚合器，WITH集成了元数据互操作性平台（MINT）4[5]，[11]，这是一个开源的基于Web的平台，完全实现了元数据记录的摄入、形式映射、转换和聚合的工作流程。•对于开发人员，WITH作为后端服务，用于构建重用数字遗产的应用程序，使用WITH API 50公开提供平台的所有可用数据和服务，完全对任何希望利用它来开发应用程序的开发人员开放。0基本的底层系统架构如图1所示，主要描述了用户在平台数据服务中的参与方式。WITH人机协同方法旨在提高数据质量和组织，提供用户可以使用的数据服务，以更好地管理和丰富数据。具体而言，通过元数据聚合、收藏管理和空间管理服务的帮助，用户可以从多个来源上传、收集和组织内容，并创建有趣的内容视图和演示，并将所有这些数据存储在WITH数据库中。此外，使用AI支持的元数据提取服务，集成了自动或半自动注释工具（如自动文本分析、图像注释等），用户可以选择有趣的方式来分析相关内容，开发和存储新的内容描述。最后，通过发起和管理众包活动，用户可以让其他用户参与机器难以完成的识别任务（如音乐中的乐器识别等），从而进一步改进内容描述。0图2：用户参与WITH。0基于上述系统架构，WITH中用户的交互参与可以总结为四个交互过程，如图2所示。内容搜索和内容管理过程使用户能够收集和组织内容，元数据丰富和众包过程使用户能够使用AI内容分析工具或人工注释来提升内容描述。在接下来的章节中，我们将描述这些主要过程，提供技术细节和用例示例。03 内容搜索和管理 3.1 内容聚合0内容聚合主要通过在CH对象和数字图书馆的外部存储库中进行搜索来完成。通过来自不同数字CH资源的混搭API，如欧洲数字图书馆、美国公共图书馆、荷兰国家博物馆、英国图书馆、澳大利亚国家图书馆、YouTube、Historypin、互联网档案等，提供了一个强大的新服务，可以访问一组庞大的异构项目（图像、视频、不同的元数据模式等）。它支持各种不同的数据模型（例如EDM、LIDO等）和格式（例如XML、JSON-LD），并通过集成MINT（一个开源的基于Web的元数据互操作性平台）解决了互操作性问题，该平台在后端完全实现了元数据记录的摄取、形式映射、转换和聚合的工作流程。用户界面（UI）提供联合和分面搜索服务，使用户能够根据搜索结果的元数据应用多个搜索条件的不同组合，通过不同的展示视图浏览结果并获取有关感兴趣项目的更多信息。一旦提供了搜索词或短语，WITH会对所有选定的存储库进行并行搜索，并创建可以用于缩小结果范围的分面。由于大多数外部存储库中的数字数据都附带有丰富的元数据，用户可以从各种专业化过滤器中选择，例如权利、创作者、媒体类型和日期，从而在数百万其他对象中选择出理想的对象。搜索结果以及分面可以通过API访问，因此其他开发人员可以轻松地将此搜索功能包含在其应用程序中，甚至改进并根据自己的需求进行调整。WITH还提供了从欧洲数字图书馆进行大规模数据导入的机制，以便于获取多个数据和创建大型主题集合。用户可以通过提供其ID轻松导入和添加欧洲数字图书馆集合，甚至获取与特定搜索词对应并组织成WITH集合的欧洲数字图书馆项目。此外，用户还可以通过上传所需的项目（图像、视频、文本）并添加相应的元数据来上传和策划自己的项目。平台中导入的所有记录都会立即转换为内部数据模型。WITH数据模型遵循欧洲数字图书馆等主要CH存储库的范例，包括扩展以满足与各种不同数据模型的兼容性限制。它符合欧洲数字图书馆数据模型（EDM）[10]，[8]，并支持双向转换能力，因此其内部数据模型中的所有更改仍然可以以不同的格式导出。WITHAPI还支持各种序列化，如JSON、XML、RDF等。这允许WITH中的所有资源与其他外部应用程序或平台共享。0主题：增强智能与人类协同 WWW 2018，2018年4月23日至27日，法国里昂Metadata enrichment can be defined as the process of improving themetadata accompanying an object by adding new statements aboutthe object itself. In the cultural heritage domain, metadata enrich-ment attracts the interest of many organisations and researchers [2]since low metadata quality is a very common problem that imposesrestrictions in the accessibility and discoverability of the actualcontent. As a process, it is accomplished by applying specificallydesigned methodologies such as co-referencing, alignment, contex-tualisation and annotation, and results in new metadata created atthe end of the process. It is used to “standardize data” by linking itto authority resources, improve multilingual coverage in datasets[18], [17], contextualise resources and much more.WITH ecosystem enables automatic enrichment implementedvia a set of image and text analysis methodologies, as well as man-ual enrichment in the form of content annotation accomplishedvia crowdourcing initiatives as described in Sections 4.1 and 4.2respectively.11200支持JSON、XML、RDF等各种序列化，这使得WITH中的所有资源都可以与其他外部应用程序或平台共享。03.2 集合和空间管理0WITH用户可以创建集合，并在其个人资料中提供。平台中导入的所有记录都会立即转换为内部数据模型，因此它们可以立即包含在用户创建的集合中并存储在其用户资料中，同时保留其原始记录结构作为备份并仍然可以访问。此转换有助于从项目过渡到Web资源，从而实现更高的表达能力和更强大的集合。除了集合，用户还可以将其上传或从外部CH存储库收集的内容组织成提供增强和更富有趣的可视化功能的展览。WITH平台还在空间中提供主题内容组织。空间是一个概念，对应于存储数据的特定、基于访问的视图，它使文化内容可以以不同的主题类别和视图进行组织，并允许与最终用户进行不同的交互方式（例如，用户可以重复使用提供的内容、评论和分享等）。这个附加功能使得感兴趣的CH组织能够设计和托管自定义的Web空间，以推广其内容并与用户互动。专用空间与内容持有者相关联，用于可视化和Web发布数字集合、展览和故事，同时促进公众访问可供创意再利用的内容。空间通过提供易于使用的替代解决方案，减轻了专门基础设施的需求，这是CH领域中重要的任务之一[16]。空间内的内容访问（包括集合和展览等）仅限于指定的用户组。每个空间中的搜索引擎的范围也可以进行定制，例如排除某些来源或仅搜索视频资源等。还可以在其空间内进行个性化定制（描述性文本、图像、CSS）。0示例3.1以Simona为例，她是一位对希腊传统音乐着迷的音乐爱好者，她想要探索和发现相关的音乐文物，并建立、组织和为其自己的音乐库提供背景。首先，Simona创建了一个用户配置文件，并初始化了一个空的收藏夹，用于保存所有的资源。由于她拥有希腊传统乐器的内容，她通过提供名称、描述和版权元数据来上传和策划这些内容。为了丰富她的收藏并添加更多资源，她使用WITH搜索服务来寻找希腊传统乐器，如“Laouto”和“Lyre”。Simona从美国数字公共图书馆、澳大利亚国家图书馆和欧洲数字图书馆中收集资源，并通过设置首选的版权和MIME类型来进一步筛选欧洲数字图书馆的结果，如图3a所示。从欧洲数字图书馆返回的11首包含“LyreGreek”的音乐作品中，她打开了自己感兴趣的作品，如图3b所示，听音乐，查看附带的元数据，并收藏她想要的项目。收藏的项目会自动转换为WITH数据模型，其中的摘录1如图所示。Simona可以观察和管理她的收藏，如图3c所示。0"descriptiveData": { "label": "Greek from Festival of Song", "description": "This image has been taken fromFestival of Song: a series of Evenings with the Poets", "keywords": [ "Greek", "kylix", "lyre", "symposium" ],"isShownAt": "http://www.europeana.eu/api/ANnuDzRpW", "isShownBy":"http://farm8.staticflickr.com/7406.jpg", "rdfType": "http://www.europeana.eu/schemas/ edm/ProvidedCHO","country": "united kingdom", "dclanguage": "English", "dctype": "scanned image", "dcrights": "Public Domain","dctermsspatial": "New York, 1866", "dcformat": "jpg" }0摘录1 使用数据模型0元数据增强可以定义为通过添加关于对象本身的新陈述来改善伴随对象的元数据的过程。在文化遗产领域，元数据增强引起了许多组织和研究人员的兴趣[2]，因为低质量的元数据是一个非常常见的问题，它限制了实际内容的可访问性和可发现性。作为一个过程，它通过应用特定设计的方法论（如共指、对齐、上下文化和注释）来完成，并在过程结束时生成新的元数据。它用于通过将数据链接到权威资源来“标准化数据”，改善数据集的多语言覆盖范围[18]，[17]，对资源进行上下文化处理等等。WITH生态系统通过一组图像和文本分析方法实现自动增强，同时还支持通过众包倡议进行内容注释的手动增强，如第4.1节和第4.2节所述。04 元数据增强04.1 注释生成0最初在WITH中收集和聚合的项目包含直接由来源提供的原始元数据。这些元数据使用WITH数据模型中的相应表示形式存储。为了允许使用其他IRI手动或自动生成的附加元数据对这些元数据进行增强，WITH支持使用注释。附加的元数据被假定为具有链接数据资源或其他IRI的形式，因此WITH注释实质上将WITH项目或其中的一部分与链接数据资源或其他IRI关联起来。个别0主题：增强智能与人类参与WWW 2018，2018年4月23日至27日，法国里昂(a)(b)(c)6http://www.getty.edu/research/tools/vocabularies/aat/7http://www.eionet.europa.eu/gemet/en/themes/8http://www.mimo-db.eu/InstrumentsKeywords/9http://thesaurus.europeanafashion.eu/thesaurus/10http://wordnet-rdf.princeton.edu/11http://wiki.dbpedia.org/12http://www.geonames.org/ontology/documentation.html11210图3：用户数据管理：(a)搜索结果，(b)从搜索中选择的项目，(c)收藏。0用户可以通过点赞或踩踏注释来参与注释的验证过程。为了便于注释的创建、检索、管理和互操作性，WITH包括一个词表管理器，负责通过离线过程导入构成潜在注释资源池的链接数据词汇和数据集。词表管理器将导入的词汇从其源格式（如SKOS词表、OWL本体、N-triples数据集）转换为通用模型，将其存储在WITH词表数据库中，并对其进行索引以实现快速搜索和检索。目前，WITH已经整合了几个广泛使用的链接数据词汇、数据集和本体，包括Getty艺术与建筑词表（AAT）6、GEMET词表7、Musical Instruments MuseumsOn-line（MIMO）词表8、Europeana Fashion词表9、EuropeanaphotoVocabulary、Wordnet 10，以及DBpedia 11和Geonames12等数据集。在上述所有词汇和数据集中，每个资源始终伴随着一个或多个文本标签，可能是多种语言。这些标签为特定资源提供了文本表示，并用于索引资源和便于查找。WITH的注释模型基于W3C的Web注释模型[14]，这是一种结构化的模型和格式，可以在不同的硬件和软件平台之间共享和重用注释。简而言之，WITH注释由id、注释者列表、正文、目标和分数列表组成。注释可以由内容分析软件、Web服务等自动生成，也可以由人工注释员手动生成。因此，注释者列表包含有关每个注释来源的所有相关信息。注释的核心部分是其正文，用于标识相关的链接数据资源或IRI。注释的目标标识WITH项或WITH项的一部分，该注释与正文资源相关。WITH项的一部分可以是特定的元数据字段值，或者它的一部分（例如文本段或图像区域）。最后，分数列表保存了有关点赞或踩踏特定注释的用户的信息。基于上述注释模型，WITH提供了许多用于手动和自动生成注释的工具。在手动注释过程中，用户必须直接从底层词表数据库中选择一个资源，并将其添加为特定项的注释。用户开始输入关键字，用户界面通过自动完成功能协助用户，该功能查询底层词表索引，并建议用户具有文本匹配标签的资源。用户可以通过仅选择特定的词汇表来限制自动完成建议的范围。手动注释工具的一部分是地理标记工具，它允许生成具有其正文中的地理URI来表示地理位置的注释。要生成这样的注释，用户单击所提供地图上的所需点。自动注释工具旨在提供文本和视觉元数据分析。文本元数据是项的主要描述性元数据，即其标题和描述字段。0这些可以经过自然语言处理和基于机器学习的命名实体识别和消歧（NERD）进行处理，以便将其识别为支持的链接数据资源的命名实体（人物、地点和组织）的实例[15]。目前，NERD是使用DBpediaSpotlight API13执行的，并将其结果转换为WITH注释数据模型。文本项数据也可以通过WITH中实现的字典查找工具自动生成注释。该工具使用高效的字典生成技术，从可用词表的选定子集中编译一个快速搜索的字典，然后扫描文本元数据以查找字典术语的出现。查找过程通过自然语言处理技术[12]辅助进行，以使用词形还原和词性信息来提高检测准确性。上述过程中的多语言处理是自动处理的：元数据和资源标签的语言应匹配。除了文本元数据之外，还可以使用CultIVML服务提取与图像相关的元数据，该服务实现了WITH的自动图像注释工具。该工具使用基于深度神经网络的最先进的计算机视觉算法[19]来分析项目图像。自动注释过程可以产生人脸定位、各种常见对象的定位以及通用图像分类。CultIVLM注释器使用Image-net数据库14进行训练，因此它生成的注释是WordNet资源。每个项目的所有注释都与其他项目元数据一起显示。用户可以点赞或踩踏注释，从而计算每个注释的有效性置信度统计。0跟踪：增强人机协同的WWW 2018，2018年4月23日至27日，法国里昂These can undergo natural language processing and machine learn-ing based named entity recognition and disambiguation (NERD)with the purpose to identify in them occurrences of named entities(persons, locations and organisations) as instances of the supportedLinked Data resources [15]. Currently NERD is performed usingDBpedia Spotlight API13 and translating its results to the WITHannotation data model. Textual item data can also be used to auto-matically generate annotations through the dictionary lookup toolthat is implemented in WITH. This tool, uses efficient dictionarygeneration techniques to compile a fast to search dictionary ofresources from a selected subset of the available thesauri, and thenscans the textual metadata to find occurrences of the dictionaryterms. The lookup process is assisted by natural language process-ing techniques [12] so as to use lemmatisation and part of speechinformation to improve detection accuracy. Multilinguality in theabove processes is handled automatically: metadata and resourcelabel languages should match.Apart from textual metadata, image related metadata can also beextracted using the CultIVML service, that implements an automaticimage annotation tool for WITH. The tool uses state-of-the-artcomputer vision algorithms based on deep neural networks [19]to analyze item images. The automatic annotation process canproduce localization of human faces, localization of a diverse setof common objects, as well as generic image classification. TheCultIVLM annotator is trained using the Image-net database14, sothe annotations it generates are WordNet resources.All annotations for each item are displayed along with the otheritem metadata. Users are allowed to upvote or downvote an annota-tion, enabling calculation of validity confidence statistics for eachannotation.11220示例4.1（续）。Simona希望使用WITH的自动注释工具对她的收藏进行注释、情境化和丰富。她选择自动收藏注释工具，使用MIMO词库对记录进行丰富，该词库包含了所有已知音乐乐器的详尽列表。该过程会产生一个丰富的音乐收藏，其中包含从每个记录的元数据中提取的MIMO注释。例如，Simona上传了一个具有以下描述的项目：“带到美国的三种主要希腊音乐乐器：由Stellios Mavrakis演奏的Cretanlyra，由Louis Kosta演奏的单簧管和由AndrewBathemess演奏的laute，希腊领先的音乐家。”丰富的项目现在包含相关的注释，即“mimo：Lyre”，“mimo：Lute”和“mimo：Clarinet”。这些注释在WITH中的表示如摘录2所示。04.2 众包数据注释0自动丰富技术，无论设计得多好，都不总是能够取得高成功率，也无法满足尽可能高质量数据的不断增长的需求。这是由于各种因素，例如缺乏高质量的训练数据集，许多自动注释算法的低准确性以及算法难以处理的极端情况。当涉及到文化数据时，这个问题会被放大，因为它们通常是古老的、多语言的，有时甚至可能已经过时并且是013 http://www.dbpedia-spotlight.org/14 http://www.image-net.org0摘录2 MIMO术语"Lute"的注释0{"annotators": [{"generator": "Dictionary Annotator", "created":"2017-01-06T12:59:12.387Z"}], "motivation": "Tagging", "body": {"uri":"http://www.mimo-db.eu/InstrumentsKeywords/3394", "label": {"en":["Lute"]}, "uriVocabulary": "MIMO"}, "target": {"recordId":"58bd48594c74794c8fb0018e"}}0处理一般姿势困难。在这种情况下，众包是人机协作的媒介，可以为改善平台中存储的数字内容的元数据质量提供一个显著的机会，同时吸引用户并提高对文化遗产资产的认识。WITH实施了一个众包基础设施，用于注释，配备验证和用户投票功能。众包组件通过使群体能够验证自动结果并决定困难数据，从而提高机器的准确性，从而实质上补充了任何自动丰富技术。WITH旨在动员和吸引用户执行有关所选文化遗产元数据的丰富和验证的有用任务。该平台使得可以部署众包网络空间，向最终用户提供有关丰富所选文化项目元数据的具体挑战。可以支持三个主要场景：•通过添加新的注释来丰富元数据，即通过从受控词汇中选择术语向缺失的元数据字段添加值或添加附加标签，具体取决于注释字段;•验证和建议对现有元数据条目进行更改，特别是通过自动方法（例如图像处理，自由文本分析）识别出的条目;•对其他用户手动添加的注释进行投票。WITH使得文化遗产机构或个人能够初始化和管理众包活动，这些活动的文化内容已经通过自动内容分析系统进行了注释，或者通过自动技术难以分析。要启动众包活动，利益相关者应该：（1）通过平台提供的方法将其文化内容导入WITH;（2）将其数据组织成集合;0Track: Augmenting Intelligence with Humans-in-the-Loop WWW 2018, April 23-27, 2018, Lyon, France15http://www.europeanasounds.eu/11230图4：从MIMO词库中添加新的乐器标签的过程。0（3）根据内容创建主题空间；（4）使用WITH自动注释工具尽可能丰富其数据；（5）联系WITH管理员，并指定关于活动的期望众包功能，如持续时间、目标注释数量、期望的注释类型（语义标记、图像标记、地理标记等）、词汇和词库。0在众包活动期间，目标用户可以以用户友好和引人入胜的方式添加注释，并通过投票或反对投票验证现有注释。为了激励用户投入时间和精力，使活动更具沉浸感、趣味性和吸引力，引入了一些关键的游戏机制。根据贡献或验证的标签数量，奖励徽章（例如青铜、白银和黄金徽章），并使用排行榜跟踪最活跃的“标签者”，即贡献最多标签和验证的用户，以使活动更具吸引力。还在仪表板中呈现有关活动的有用指标和统计结果（例如添加的注释数量和类型，用户数量等），以帮助活动组织者跟踪进展和监控结果。0示例4.2（续）。回到我们的示例，Simona希望识别出她的歌曲中包含的所有已知乐器，但自动注释机制只能识别从记录的元数据中提取的乐器。因此，需要进行众包活动，以便专家可以对她的音乐录音进行注释并验证现有的自动注释。上述众包活动已经在欧洲声音项目15的WITH框架中成功进行，其中对内容元数据进行了语义丰富。活动经过精心设计，确定了活动的目标为音乐乐器。0在EuropeanaSounds项目中对音乐录音进行语义标记的众包活动中，确定了需要注释的对象及其注释属性（来自结构化词汇的概念），选择了MIMO词库，并通过各种接触活动针对特定的群体（音乐学家、音乐专家、音乐爱好者）。在不同的欧洲国家组织了平行活动，并在线运行任务。为了EuropeanaSounds项目的利益，在WITH平台上创建了一个专门的空间，用于音乐录音的语义标记16。Sounds众包空间包含以数字音频录音的形式呈现的音乐记录及其元数据，按照主题集合（如“BNF音乐”或“维也纳歌曲与赫尔曼∙莱奥波尔迪”）进行组织。这些集合是通过使用EuropeanaAPI从Europeana数据库导入WITH的。语义标记的众包活动持续了一个月，在此期间鼓励用户访问该空间并开始添加标签（如图4所示）或验证现有标签（如图5所示），共同努力实现相同的目标。在不同的欧洲国家组织了平行活动，并在线运行任务。在整个众包期间，用户通过Sounds众包空间的主页获得动力，该主页突出显示了活动的目标，即要达到的注释数量。还提供了进展概述、贡献标签数量和目标完成度的百分比。用户的参与超出了预期，数十名用户识别出了5000多个乐器。再次回到Simona，活动结束时，她的收藏中的每个项目，甚至是她上传的项目，都得到了来自欧洲各地的数十名音乐专家和个人的多个相关乐器标签的丰富。她的音乐收藏结束了。016 http://demo.withcultur

下载后可阅读完整内容，剩余1页未读，立即下载