社交会话推荐：INSPIRED2数据集的改进和评估

73 浏览量更新于2023-12-04 收藏 561KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

INSPIRED2：一个改进的社交会话推荐数据集AhtshamManzoor，DietmarJannach奥地利克拉根大学，地址：Universitätsstraße 65-67，Klagenwerthersee，9020，Austria摘要能够以自然语言与用户交互的会话式推荐系统（CRS）通常利用先前在成对的人的帮助下收集的会话对话，其中一个人扮演搜索者的角色，另一个人扮演推荐者。这些推荐对话框包括指示用户首选项的项目和实体。为了精确地模拟搜索者的偏好并一致地这样的数据集的一个最近的例子是INSPIRED，它由社交会话推荐的推荐对话框组成，其中使用自动关键字或模式匹配技术对项目和实体进行注释不幸的是，对该数据集的分析显示，存在大量项目和实体被错误注释或注释根本缺失的情况这就引出了一个问题，即自动注释技术在多大程度上是有效的。此外，重要的是研究注释质量对CRS的整体有效性的影响，即系统响应的质量为了研究这些方面，我们手动修复了INSPIRED中的注释然后，我们使用两个版本的数据集评估了几个基准CRS的性能。我们的分析表明，数据集的改进版本，即，INSPIRED 2帮助提高了几个基准CRS的性能，强调了数据质量对于端到端学习和基于检索的会话推荐方法的重要性。我们在www.example.com上公开发布了我们改进的数据集（INSPIRED 2）https://github.com/ahtsham58/INSPIRED2。关键词会话式推荐系统，数据质量，注释，评估，对话系统1. 介绍社交会话推荐系统（CRS）旨在与用户建立融洽的关系，同时以自然语言与他们进行交互[1，2]。依赖于自然语言处理（NLP）的CRS如今通常利用先前记录的人类之间的对话的数据集，其中一个扮演解释寻求者的角色，另一个扮演人类推荐者的角色，参见例如，[3]的第11段。然而，由于在这样的数据集中缺乏丰富的社交交互[4]，因此使用这样有限的数据来构建与用户建立融洽关系因此，开发像IN-SPIRED [1]这样的数据集是很重要的，它包括实现丰富的社交沟通策略的对话框。这些丰富的数据集代表了开发能够以自然和用户自适应的方式吸引用户的可信CRS的坚实基础。建立高质量CRS的另一个关键因素在于正确识别命名实体和其他第四版知识感知和会话推荐系统（KaRS）研讨会@ RecSys 2022，2023年9月18日*通讯作者。ahtsham. aau.at（A. Manzoor）; dietmar. aau.at（D.Jannach ）https://ahtsham58.github.io/（A. Manzoor）;https://www.aau.at/en/aics/research-groups/infsys/team/dietmar-jannach/（D. Jannach）0000-0001-9418-753（A.Manzoor）;0000-0002-4698-8507（D. Jannach）© 2022本文版权归作者所有。在知识共享许可署名4.0国际（CC BY 4.0）下允许使用CEUR研讨会论文集（CEUR-WS.org）对话框中出现的概念。例如，在电影中，能够准确地识别物品（即，电影）以及相关实体和概念（例如，演员或流派）可以在建立有效的系统方面发挥关键作用。例如，现有的CRS将这些实体及其关系安排为图[5，6]，并且这些关系通常形成对用户的偏好进行建模的基础，例如，[7、8、9]。此外，领域特定的概念和实体也有助于产生有意义和连贯的响应，特别是在知识感知的CRS中，参见[10，11，12，13]。注释项目和实体可能是一个费力且经济昂贵的过程[14，15]。人力成本很高，甚至可能对需要特定知识或专业知识来完成注释任务的领域望而却步[16]。在该上下文中，所得到的注释的质量是至关重要的，并且事实上错误的注释可能导致下游任务的错误或歧义。自动化注释任务或至少自动验证注释[14]因此多年来一直是研究的焦点。我们在这里注意到，数据质量对于最近基于生成的CRS方法以及用于构建自然语言会话系统的基于检索的方法都是至关重要的[17]。对于这两种类型的系统，问题是在多大程度上更好的数据质量，即，具有正确的注释和无噪声的对话，在由系统针对给定用户话语返回的响应的质量方面导致更好的结果，例如，在一致性和可扩展性。CEU Rhttp://ceur-ws.org讲习班ISSN1613-0073诉讼在这项工作中，我们研究了最近的INSPIRED数据集，其中记录的话语中提到的项目和实体被明确注释。这些注释是使用关键字或模式匹配方法在自动方法的帮助下创建的然而，通过查看数据，我们观察到大量的情况，其中项目和实体被错误地注释或根本没有注释，例如， “Myfavorite[ MOVIE_GENRE_1]areGroundhogsDay,[MOVIE_TITLE_2] and Borat”此外，存在其中话语包括噪声的若干情况，例如， “ 你喜欢QUOTATION_MARKHustlersQUOTA-TION_MARK 吗？ ”. 最后，我们发现的情况下，规则的话被确定为命名实体。在后一种情况下，实际上需要人工注释。1总体而言，这些问题可能会限制基于此类数据构建的任何CRS的质量为了了解问题的严重性以及数据问题对CRS质量的潜在影响，我们通过修复注释和从话语中去除噪声然后，我们进行了离线实验和人工评估，以比较使用原始（INSPIRED）和改进（INSPIRED 2）数据集时不同基准CRS总的来说，我们的分析结果为了促进未来社交 CRS 的设计和开发，我们在https://github.com/ahtsham58/INSPIRED2在线发布了INSPIRED 2数据集。2. 相关工作在本节中，我们首先讨论CRS背景下的数据集和数据质量方面。之后，我们回顾了不同的设计范式建设CRS，其次是这种系统的主要评估方法的讨论。数据集和数据质量近年来，对CRS的研究兴趣大幅增长，相关调查见[18，19]当前的许多系统与用户以自然语言进行交互，并且这种系统的一个重要目标是使他们能够参与反映人类行为的对话由于这些最新的系统中的许多都是建立在人类之间记录的对话上的，因此所产生的CRS的能力关于可以在对话中找到的用户意图，参见[ 20 ]以获得对这种意图的详细分析。1以电影《It（2017）》为例，举例说明一个困难的案例，例如，当出现在像“你看到它了吗？”这样的话语近年来发表了许多用于会话推荐的新数据集[3、21、22、23]。然而，通常在众包工作者的帮助下收集的这些数据集可能存在局限性，并且可能无法完全代表我们在现实中观察到的内容。例如，在某些情况下，众包工作者被要求在对话中提到最少数量的电影这导致了大多数创建这样的数据集时的另一个问题在于对出现在对话中的命名实体的识别和注释，如上所述注释文本数据中的实体可能是一个繁琐的过程，可能需要大量的手动工作和时间。为了克服这一挑战，研究人员有时采用半自动方法或依赖NLP辅助工具，这些工具可以可视化文本中的实体，以减少所需的手动工作[16，15，26]。通常，一些自动方法可能会遇到正确创建注释的问题，因为需要人类的判断和意见。在INSPIRED数据集的背景下使用了自动化方法。在这里，使用关键字或模式匹配方法注释项目和实体。然而，验证这种自动或半自动方法的结果可能再次是费力的并且需要人工努力。今天，对话中提到的项目和实体的结构化注释在最近的数据集中很常见例如，在ReDial数据集[3]的情况下，提到的电影标题用唯一的ID注释。但是，重拨数据集有一些限制。各种元数据概念（例如，类型、演员或导演）没有注释。此外，记录的对话包括有限的社交互动或对所提出的建议的解释。另一方面，INSPIRED数据集包含丰富的社交会话和推荐项目的解释策略此外，电影类型或演员等方面也有明确的注释这些差异的比较可以在[1]中找到表1显示了INSPIRED数据集的关键统计数据。如前所述，INSPIRED数据集有一些局限性。用于注释的关键字或模式匹配方法可能例如不检测话语中的拼写错误的关键字或概念。此外，数据异常（如嘈杂的话语或畸形语言）可能会降低注释算法的性能，从而导致数据集下游使用的挑战[15，27，28]。实际上，在现实世界的应用和有目的地创建的数据集中，噪声水平都可能很大。因此，数据质量保证通常被认为是NLP应用中重要而重要的一步。表1INSPIRED的主要数据总对话（Conversations）1,001每次对话的10.73每次发声的7.93人工推荐语句18,339搜索者发声17,472基于CRS的会话式推荐系统的研究在其底层技术方法方面取得了实质性的进展。一些早期的商业系统，如Advisor Suite [29]，例如依赖于完全基于知识的方法来开发自适应和个性化的应用程序。类似地，早期的基于批评的系统基于对项目特征和可能的批评的详细了解，并且具有有限的学习能力[30，31]。技术进步，特别是在NLP、语音识别和机器学习等领域的技术进步，导致了今天基于端到端学习的CRS的设计。在这样的方法中，配对的人类之间记录的推荐对话被用于训练深度神经模型，参见例如，[8、9、10、12]。给定最后的用户话语和正在进行的对话历史的历史，这些训练的模型然后用于生成自然语言的这些响应可以包括项目推荐，其也是在机器学习技术的帮助下计算的，或者其他类型的会话元素，例如，您好。就底层数据而言， DeepCRS [3] 系统是建立在ReDial数据集上的，该数据集是在这项工作的背景下创建的。后来，开发了也依赖于该数据集的系统，但包括额外的信息源，例如，从DBPedia或ConceptNet [32，12]，以构建知识图，然后用于改进生成的话语。许多作品也使用了BERT等预训练语言模型[33]，然后使用推荐对话框对其进行微调[34].《灵感》的作者采用了一种相关的方法，他们提出了两种对话系统的变体，有策略标签和没有策略标签。与基于生成的系统不同，在基于检索的CRS中，想法是从记录的对话的数据集中检索和调整合适的基于检索的方法的一个主要优点是检索到的响应是真正由人类做出的，因此通常语法正确，并且本身具有语义意义[35]。这种基于检索的系统的最新示例是RB-CRS [17]和CRB-CRS [36]，我们在自己以前的工作中基于Re- Dial数据集设计和评估了它们CRS评估CRS评估是一个多方面的和具有挑战性的问题，因为它需要考虑各种质量维度。关于CRS评价方法的深入讨论可参见[37]。就像推荐系统文献中一般，不涉及人类的计算实验是评估CRS质量的主要工具。评估推荐质量的常用指标包括召回率，命中率或精度[8，21，38]。此外，某些语言方面，如流畅性或多样性，往往是评估与离线实验以及生成的响应的质量这一领域的常见指标包括困惑，独特的N-Gram或BLEU评分[3，8，13，22]。鉴于CRS的互动性质，离线体验-项和相应的度量具有其局限性。主要是，从离线实验中获得的结果是否代表用户感知的推荐或系统响应的质量并不总是很清楚[35]。例如，当使用像BLEU分数这样的指标时，通常将系统响应与一个特定的给定基础事实进行比较当用于估计系统响应的平均质量时，这种比较具有局限性，因为可能存在许多不同的备选响应，这些备选响应在正在进行的对话中也可能是合适的尽管如此，离线评估仍有其地位和价值。例如，它们可以是用于评估特定方面的信息，诸如出现在话语或对话中的项目或实体的数量总的来说，考虑到纯离线体验的局限性，此外，研究人员通常采用混合方法，其中系统的某些方面是离线评估的，而某些方面是与人类一起评估的。在这种组合方法中，人类感知的典型质量方面包括系统响应的意义或一致性的评估[1，8，12，13，36]。3. 数据注释方法在创建INSPIRED [1]数据集期间，项目和其他实体以自动方式进行注释，如上所述例如，使用正则表达式来注释流派关键字，以匹配一组预定义的标记。关于演员和导演以及其他实体，使用模式匹配技术，其中在TMDB数据库2中搜索以大写字母开头的单词。类似的技术也用于电影标题。然而，如上所述，我们观察到大量的情况下，项目和实体被错误地注释或缺少注释。为了回答我们的研究问题，2https://www.themoviedb.org关于CRS响应质量的基础数据，我们修复了注释如下。为了修正注释，我们采访了一些大学生，以评估他们在电影领域的知识和他们的能力，做正确的任务。随后，我们聘请了两名学生，并指导他们如何注释和清理数据集。首先，向他们简要介绍了原始说明的逻辑格式以及如何保留这种格式。其次，他们被要求单独阅读每一句话，检测潜在的噪音，并分析哪些项目或实体（例如，标题，类型，演员或导演）中提到。在不明确或不清楚的情况下，允许他们进入在线门户网站，3. 请注意，关于体裁，我们为他们提供了一组27个关键词，我们在早期的研究中策划和使用了这些关键词[36]。在简报之后，数据集被平均分配给两个注释器。每周，他们的表现和注释的准确性由一名作者检查。最后，在注释完整的数据集后，应用了一些额外的验证步骤。首先，使用Python脚本，我们确保每个占位符都像最初一样被'['和']'包围[MOVIE_TITLE_1]. 其次，对整个改进的数据集进行另一次彻底的在这种情况下，我们还仔细检查了格式和注释的一致性INSPIRED2数据集总共向INSPIRED添加了1，851个新注释，从而形成了INSPIRED 2数据集。发现的错误或不一致最多的项目是，电影标题，这是开发CRS最相关的我们在表2中给出了关于新注释的统计数据。总体而言，我们在INSPIRED2中添加了约20%的新注释。已修复的问题数量，例如，话语中的重复注释、原始注释中的噪声或事实上错误的信息未在所呈现的统计中示出。我们在线发布TSV和JSON格式的INSPIRED 2。表2INSPIRED 2中新增注释的统计信息总增加百分比电影片名数量96622.0电影类型2065.0演员、导演等人数51949.0电影情节数16054.6新注释数量185118.93https://www.imdb.com/观察到的问题在注释过程中，我们将观察到的问题记录在原始注释中。由于原始注释是使用自动技术创建的，因此许多问题与简单关键字或模式匹配技术的限制有关总的来说，我们观察到一些情况下，轻微的拼写错误或不完整的电影标题使精确的字符串匹配方法无效。例如，在其中一个话语中，类似地，我们观察到大量的情况，其中话语仅被部分注释，例如，“好吧，它是可怕的，像in-cidious或[ MOVIE_GENRE_2][ MOVIE_TITLE_5]“。此外，在用“/”而不是空格分隔两个实体的地方，自动技术通常无法创建正确的注释，例如，此外，自动方法用于启发一些-时代很难处理模棱两可的问题。我们发现了一些情况下，一个常规的词被注释，虽然这样的词不属于任何项目或实体。例如，在其中一个案例中，“您对当前票房的电影感兴趣吗？“，话语被注释为“你对盒子[MOVIE_TITLE_0]中的当前电影感兴趣吗“，其中单词”办公室“被错误地注释为项目，即，办公室（2005年）。总体而言，观察到的主要问题如下。1. 缺少电影标题、类型、演员、电影情节等的注释2. 部分注释的项目和实体，如电影标题或话语中的流派。3. 电影标题的错误注释。4. 注释项和实体的索引不一致。5. 将注释误认为纯文本，例如，家庭，票房;这里可能需要人工注释。6. 在注释过程中，部分话语或少数关键词4. 评价方法我们进行了离线实验以及人类评估，以评估数据质量对CRS响应质量的影响推荐质量的离线评估我们在实验中包括了以下最近的端到端学习方法：DeepCRS [3]，KGSF [12]，TG-ReDial [22]和无策略标签的INSPIRED模型4[1]。该模型选择涵盖CRS的各种设计方法，例如，是否使用额外的知识图谱。我们使用开源工具包CRSLab 5进行评估。这个框架也被用于早期的研究，例如[10，39，40]。对于我们的分析，我们首先使用原始分割比训练上述CRS模型，即，8：1：1，每个数据集。之后，给定每个数据集的训练模型和测试数据，我们对每个CRS进行了三次试验，随后对离线评估指标的结果进行了平均。注意，相同的过程适用于数据集的两个版本，即，灵感和灵感2。语言质量的用户研究我们进行了一项用户研究，以比较使用INSPIRED和INSPIRED 2的系统响应的感知质量。具体来说，我们从每个数据集中随机抽取了相同的50个对话为了创建对话延续，我们使用了基于检索的CRS方法，RB-CRS和CRB-CRS，这是我们在早期工作中提出的，参见[36]。为了获得精细的评估，三个人类法官6参与。法官的具体任务是评估（评级）系统响应的意义，作为对话情况下其质量和一致性的代理，见[3，41，12]。请注意，在这项研究中，我们没有明确评估特定项目建议的质量。相反，本研究的重点是了解改进的基础数据集对语言质量和生成的响应的一致性我们对这些评级使用了3分制，从向人类裁判提供了关于如何评估反应的意义的具体说明，例如，他们应该评估一个回答是否代表一个逻辑对话的继续，并评估给定回答的整体语言质量总的来说，为人类评委提供了50个对话（446个对评级的响应），这些对话是使用INSPIRED和INSPIRED 2数据集生成的。我们还解释了对人类法官的回应中所包含的各种占位符的含义和目的此外，为了避免评估过程中的任何偏见，法官们不知道哪个CRS为哪个数据集创建了哪个响应。此外，对话和系统响应的顺序也是随机的。[4]带有策略标签的INSPIRED模型尚未公开。5https://github.com/RUCAIBox/CRSLab5. 结果推荐质量表3显示了评估的CRS模型的准确度结果具体来说，我们提供了不同的基准CRS模型的性能差异方面的结果，当使用的原始和改进的注释。总的来说，我们可以观察到，当使用改进的数据集时，除了Hit@50之外，所有模型和所有指标的性能都有几乎一致的提高。所获得的改进可以是相当实质性的，这表明改进的数据质量可以有助于不同类型的CRS，包括（i）CRS，其不依赖于额外的知识源，（ii）利用额外知识源的CRS，（iii）由主题策略指导的CRS，以及（iv）依赖于BERT等预训练语言模型的 CRS有趣的是，我们看到了两个使用Hit@50作为指标的测量的负面影响。需要对这种现象进行更深入的研究，特别是在这个（公认的相当不常见的）列表长度的其他指标MRR@50和NDCG@50表明改进的数据集有助于提高推荐准确性。目前，我们只能推测，与原始数据集相比，正在进行的对话历史中的改进注释导致了更多样化或更小的推荐我们可以假设在许多情况下遗漏的注释涉及不太流行的电影，使得没有改进的注释的推荐将更经常地推荐流行的电影，这通常在命中率和召回方面是有利的。语言质量我们记得有三位人类评估员评估了系统响应（对话延续）的语言质量，这些响应是基于INSPIRED或INSPIRED 2数据集创建的。作为底层CRS系统，我们考虑了如上所述的基于检索的方法RB-CRS和CRB-CRS。为了我们的分析，我们平均了三位评估者的分数。表4显示了所有对话情况下的平均评分以及标准差。我们发现，同样在基于检索的方法的情况下，提高基础数据集的质量是有帮助的，导致更高的平均分数，而没有观察到更大的标准差。Student

下载后可阅读完整内容，剩余1页未读，立即下载