无监督的事后知识注入的神经对话模型中缺乏特异性和信息性的解决方案

22 浏览量更新于2023-11-30 收藏 1.33MB PDF 举报

文本生成

实验结果

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2277获取更多论文利用无监督的事后知识注入博希斯萨特瓦·普拉萨德·马朱姆德·哈什·贾姆塔尼·泰勒·伯格-柯克帕特里克·朱利安·麦考利加州大学圣地亚哥分校计算机科学与工程系{bmajumde，tberg，jmcauley}@eng.ucsd.edu卡内基梅隆大学jharsh@cs.cmu.edu摘要当前神经对话模型的局限性在于，它们倾向于在生成的响应中缺乏特异性和信息性，这主要是由于依赖于覆盖有限种类的场景并传达有限知识的训练数据。缓解此问题的一种方法是在解码时从外部源提取相关知识并将其合并到对话响应中。在本文中，我们提出了一种事后知识注入技术，我们首先检索一组不同的相关知识片段的条件下，对话历史和初始响应从现有的对话模型。我们构建多个candidate响应，单独注入每个检索到的片段到初始响应使用基于梯度的解码方法，然后选择最终的响应与unsupervised排名步骤。我们在目标导向和知识为基础的对话设置的实验表明，人类注释者判断所提出的方法的输出是更吸引人的和信息的COM-从以前的对话系统的响应。我们进一步表明，知识增强促进成功实现会话目标，在这两个实验设置。1介绍缺乏特异性的通用响应已经成为现有对话模型中的主要问题（ Hosseini-Aslet al. ， 2020;Dinan等人，2019 a）。这个问题部分源于对话模型中的瓶颈，这是由于场景范围有限以及在培训期间获得的知识有限。另一方面，在训练时对所有可能的世界知识进行编码是不可行的，并且在知识源动态变化的情况下甚至是不可取的（Ghazvininejad et al. ，2018; Majumderet al. ，2020b; Zhao et al. ，2020; Bruyn等人，2020; Kim 等人， 2020; Prabhumoye et al. ，2021年）。一种可能的方法是将在Dialog周围找些有趣的事情做剑桥地区白天！上下文知识检索剑桥周围有很多博物馆可以参观。如果你喜欢徒步旅行，你可以享受河边的我的一些朋友喜欢到市中心去看电影。你可以去看电影。还有什么您更喜欢的吗？许多人更喜欢参观博物馆。如果你喜欢大自然，你可以在河边徒步旅行或者你可以看电影。你喜欢哪一个初始响应最终响应图1：用相关的外部知识增强现有对话模型的初始响应，导致更多参与和信息丰富的响应，提高了实现对话目标的成功率（这里是找到一个有趣的活动）。解码时的相关知识。例如，在图1中，用户正在寻找剑桥周围有趣活动的选项。虽然最初的对话框响应建议观看电影作为一个选项，但它并不提供该选择背后的任何信息我们提出并评估了一种方法，用于在解码时间1将未监督的知识注入到对话模型我们首先从模型（在对话数据上训练）中采样一个以对话上下文为条件的响应接下来，我们利用对话上下文和采样响应来查询外部知识源。最后，检索到的知识用于构建更具信息性和吸引力的响应（图1）。这种事后知识注入的主要优点是其在添加更新的知识源方面的灵活性，特别是在实现会话目标的成功取决于相关知识的可用性的情况下。事后注入也提高了NLP应用程序的效率（Schwartz et al. ，2020; Strubell等人，2019年）：它减轻了重新训练对话模型以适应动态演变的知识的需要我们用两种类型的知识源进行实验：语言模型，我们将其视为参数知识库（Petroni et al. ，2019年;1代码：https://github.com/majumderb/pokiarXiv：2203.11399v1 [cs.CL] 2022年3月+v：mala2277获取更多论文MHHK初始响应XDN个知识片段相关性-从N个片段候选人 ** 对于每个片段ki，响应xf我候选人最终答复对话模型民进党对话模型向前传球以提高LM流畅性知识保真度ki排名w.r.to蕴涵似然与语言反向分集带约束对话历史知识源事后知识N知识选择对话历史约束解码最终响应排名图2：POKI的流水线：它首先根据对话历史记录和来自对话模型的初始响应从外部源检索事后知识。然后从检索到的集合中选择最相关和最多样化的知识片段每个选择的片段通过约束解码与初始响应单独组合以生成候选最终响应。最后，通过无监督排序步骤选择最终响应请注意，POKI不需要额外的培训。Brown等人，2020）;和用户评论数据集，诸如Yelp评论（Hajas et al. ，2014）作为非参数知识源（§ 2）。由于在给定查询的情况下可以收集大量相关知识，因此我们使用无监督方法（第3.1节）选择相关且多样的（通过信息论度量估计的）然后，使用基于梯度的推理方法来构建包含所选知识的更新响应（§ 3.2）。请注意，我们的框架不需要重新训练，ING现有的对话模型，它只依赖于更新模型我们用两种场景进行实验：面向目标的对话和基于知识的对话，其中训练数据只覆盖所需知识的一小部分。自动评估表明，我们的方法能够在这两种设置中产生高度多样化的响应。在某些情况下，生成的响应显示出与原始目标响应的高度重叠，这表明我们的未监督方法弥合了现有对话语料库中存在的可用知识和人类书面响应之间的知识差距。广泛的人类评估证实，生成的响应确实是吸引人的、有趣的和类似人类的，而没有任何流畅性损失。为了确定知识注入在上述环境中的有用性，我们设计了一个实时研究（第5.3节），用户与我们的系统进行交互，以达到对话目标（例如：计划度假或了解更多关于太阳系的信息）。我们发现，外部知识使用户能够更有效地实现他们的目标。此外，我们观察到，我们的方法，子选择相关的，但不同的知识导致的反应，促进成功实现会话目标。2对话的事后知识我们的目标是通过在解码时注入知识（来自外部文本源）来构建对话响应考虑一个对话模型从中我们可以对给定对话历史的对话响应xd进行采样。我们将把从这样的模型中采样的没有任何解码时间知识注入的响应xd称为初始响应。然而，如前所述，来自这样的对话模型的样本通常缺乏细节。为了改善这种反应，我们检索并将相关的外部知识k纳入初始响应。为了实现我们的目标，我们使用对话历史和初始响应xd来构造查询，并从知识源收集相关的知识候选者k。检索到的片段可以为最终用户提供有用的信息，以实现会话目标（参见§5.3）。我们探索参数（如查询语言模型）和非参数（如确定性检索使用词重叠）的方式来获得事后知识。2.1参数化知识源预训练语言模型（PTLM）通常是用跨越不同领域的大量文本进行训练的。Petroni等人（2019）;Brown等人（2020）表明，当使用适当的文本提示（例如，西雅图是著名的）。为了在我们的用例中使用PTLM，我们从对话历史和初始响应中构造有用的提示。我们组装简单的提示，灵感来自各种知识寻求的情况下，在对话（Shwartz等。2019- 02 - 19 00 ： 00+v：mala2277获取更多论文MM×DD其中[KP]是从对话上下文提取的关键短语2我们使用gpt 2-large作为PTLM。例如，查询“这是我所知道的关于剑桥周围有趣的事情：”结果是“剑桥周围有很多博物馆可以参观。如果你喜欢徒步旅行，你可以享受河边的小径“，如图1所示。附录B中提供了完整的提示列表。最后，我们使用可能性对每个知识片段k进行3.1知识选择在每一轮，我们从参数和非参数源获得N个知识片段我们希望选择B（N中）个相关但多样的知识片段的子集我们使用逐点定义关于对话历史H的片段ki互信息（PMI）：从PTLM获得k和对话历史的级联输入，并选择最可能的RELi = PMI（ki，H）= logÅ ãp（H|k i），p（H）2.2非参数知识源文本语料库形式的外部知识可以用作解码时可用的非参数知识与参数知识源相比，这些源不生成-因此，高PMI分数将意味着片段ki和H之间的更大语义相似性。为了考虑片段对ki、kj之间的冗余，我们可以使用PMI分数如下：Å ãp（k|（k）将文本视为知识片段，但提供广告-REDij，j>i=PMI（ki，kj）=log吉岛高质量和可靠性的人类书面文本的优势。我们认为对话的历史和初始响应作为一个查询检索相关的知识实例从语料库。接下来，我们使用基于TF-IDF的表示的余弦相似性来识别给定语料库中相对于构造的查询的顶部相关实例（Robertson et al. ，1995）。3生成对话框中的无监督知识注入有效地利用检索到的知识片段来构建丰富的对话响应包括两个主要挑战。首先，使用从检索步骤获得的潜在数百个知识片段用于单个响应生成是不实际的。因此，我们需要找到一个相关但多样的片段子集。其次，对话模型被训练为仅以对话上下文为条件，而不以外部知识为条件。因此，为了利用知识片段，我们需要一种解码策略来重写初始响应xd，使得所得的最终响应xf应该紧密地跟随要注入的知识片段，而不会损失流畅性和一致性。因此，我们的方法不需要额外的训练，并且只假设在对话上下文上训练的语言模型我们将我们提出的框架（图2）称为POKI（生成的对话框中的Post-hocK节点注入（2）缺少关键短语可能会导致知识匮乏。关键短语提取详情见附录B。p（kj）冗余分数是对称的，即红色ij=REDji作为PMI是一个对称度量。我们估计概率（条件和边际）p（. ）在上述方程中使用GPT 2语言模型，遵循过去的工作（Padmaku-mar和He，2021）。PMI度量通常被认为比其他基于n-gram的重叠度量更好rics来衡量两个句子之间的关联程度（Kedzieet al. ，2018;Padmakumarand He，2021）.语义相似的短语出现在两个句子中，可以很容易地被基于重叠的度量忽略通过决定点过程进行选择。为了从N个知识片段中选择B个知识片段，并进行相关性-冗余性权衡，我们使用了一个名为确定性点过程（DPP）的子集选择过程（Kulesza和Taskar，2011）。DPP采用非均匀选择，通过对独立出现的数据点之间的排斥相关性进行建模，将低概率分配给差异较小的子集（这里是知识片段）（见图2）。我们建立一个N N核矩阵，这是真正的，对称的，半正定的。对角线条目Dii由第i个知识RELi的平方相关性得分填充，并且非对角项Dij是β×平方的重新分配分数REDij。我们以总是保持半正定的方式调整β（更多细节在（Wilhelm et al. ，2018））。为了选择B的子集，DPP分配与行列式成比例的采样这样的子集+v：mala2277获取更多论文DMDDMHHHMM∼（吨）（吨）（吨）H.M.（吨）∼的子矩阵B，使用子集项的索引构造。DPP概率与所选知识片段所跨越的平行六面体的体积几何相关。不同的知识片段往往在其空间中是正交的，因此跨度更大（Kulesza和Taskar，2012）。从N-尺寸中选择B-尺寸子矩阵是一个组合问题，当N非常高时，成本会变得过高。因此，我们使用贪婪方法（Wilhelm et al. ，2018），其中我们用最相关的k i初始化选择，并且随后选择使所得子矩阵的行列式最大化的n e xtkj。3.2知识注入中基于约束的在选择B个知识片段后，我们希望将每个知识片段单独注入xd，以在推理时构建候选最终响应xf先前的工作已经解决了使用基于梯度的解码对已经生成的文本进行无监督修改的问题（Dathathri et al. ，2020; Qin等人，2020），其采用由前向和后向传递组成的迭代过程。生成模型上的向前传递（在这里）鼓励生成的流畅性。文本，而向后传递在某些期望的约束上执行梯度上升。注意，由于xd的离散性质，不可能通过反向传播直接更新它。因此，我们将每个输出标记的隐藏表示序列保持为来自对话模型的z每个输出tokenxd都是重新生成的。通过p（x d）进行化softmax（Wz （ t ）/τ），其中τ是温度超参数，W是输出嵌入矩阵（与输入共享），并且Wz（t）∈ RV（V是词汇表的大小）。约束根据Majumder et al. （2021a）中，我们定义了鼓励xf与知识片段k最小差异的知识保真度目标。我们通过最小化知识令牌k（1），.之间的交叉熵损失（CE）来实现这一点。 . .， k （ T ）作为标号， Wz（1），. . . ，Wz（T）作为logits。我们进一步注意到，注入的知识可以影响一代人的方式，它contra- dicts与前几轮期间发出的响应因此，我们也希望xf与di相蕴涵。历史上的H.我们建立一个蕴涵分类器θ（z，），它预测xf的概率（理想情况下，xf的隐藏表示z），分类器θ（z1）是词袋分类层，其具有来自DNLI数据集的隐藏状态z并且使用DNLI数据集进行微调（Welleck et al. ，2019）来预测当前响应是否与先前响应相关联。译码在随后的向前和向后传递中，隐藏表示z经由相应目标上的梯度上升而逐渐扰动在向后传递期间，具有约束的目标是L（ H，k;z）=αlogθ（z， H） −λCE（k，Wz）与超参数 α和λ。我们使用反向传播来更新z的梯度z（，k;z），而参数保持固定。z的更新后的潜在表示，后向通过被表示为zBW。需要向前传递以朝向原始对话模型目标正则化隐藏状态z以获得zfw。对应于第t个令牌，第t+1个时间步长的隐藏状态经由后向和前向隐藏状态的加权相加来计算z（t+1）=γ×zbw+（1−γ）×zfw其中γ∈（0，1）是超参数。在生成过程中，我们首先对初始响应xd进行采样，并使用贪婪解码。通过交替的向后和向前传递迭代地更新隐藏状态z（xd）。最终响应采样为xfsoftmax（Wz/τ）。迭代次数（= 5）和γ（= 0. （第四十五条）通过在贪婪超参数搜索中最大化对话模型困惑度和语言多样性（不同二元组的%）的Z归一化和来选择更多细节见附录B。3.3候选最终响应的无监督排名一些以前的作品经常过度生成，并使用额外的排名步骤，以选择最终的候选人在无监督的文本生成（秦等。， 2020; Shwartz 等人，2020;Paranjape和Manning，2021）。类似地，在这里，我们想要根据生成的文本的多样性以及给定对话历史的生成的条件可能性来对生成的候选最终响应进行排名。对于多样性，我们测量响应中存在的不同二元组的百分比。对于条件似然，我们使用+v：mala2277获取更多论文系统ACCBleuBRTSc D-2ENTR系统BLEUBRTSc D-2 ENTRKCopy70.14.162.33.162.41KCopy 13.474.33.643.12电影SimpleTOD（2020）70.115.079.20.560.90KGuide（2017）16.771.52.542.12简体中文（zh_cn）69.812.168.10.811.11KGround（2019）18.372.52.872.35中国（2021）70.212.368.50.931.15BART（2020a）19.873.42.972.55重写器（2021）70.212.169.41.031.45RAG（2020b）19.973.11.031.45POKI71.113.774.53.782.67POKI19.476.83.653.44不含蕴涵69.910.967.83.672.56不含蕴涵18.174.23.173.39w/o Kw Fidelity70.012.371.20.951.19w/o Kw Fidelity 18.873.32.752.54黄金1001001000.780.86黄金1001002.982.59表1：MultiWoZ测试集上的自动指标。粗体和非粗体数字之间的差异具有统计学显著性（p<0. 05）。001）。表2：Wizard-of- Wikipedia测试集上的自动度量。粗体和非粗体数字之间的差异具有统计学显著性（p<0.05）。001）。预训练的GPT2模型，以获得当对话历史，随后是生成的响应，作为级联输入传递时的日志由于这两个分数可以有不同的尺度，我们对各个分数进行Z归一化，并将它们相加以获得单个分数进行排名。排名最高的候选响应最终呈现给用户。4实验装置4.1方案和数据集我们用两种对话场景进行实验：目标导向和知识基础.这两种设置都是知识密集型的，但这种设置中的训练数据通常只包含所需知识的一小部分对于目标导向的设置，我们使用多域向导奥兹（Budzianowskiet al. ，2018）数据集。对于基于知识的日志，我们使用维基百科向导（Dinan et al. ，2019b）数据集。更多详情见附录A。多域向导（MultiWOZ）是一个多域对话数据集（我们使用v2.0（Hosseini-Asl et al. ，2020）），其由目标导向的人与人之间的对话组成。该数据集涵盖七个领域（餐厅、火车、景点、酒店、出租车、医院、警察），包含10，438个对话，平均回合数为13.68因为我们不需要任何训练数据，所以我们只使用一个评估集（7K话语）。维基百科向导（WoW）是一个基于知识的对话数据集，涉及从维基百科检索相关知识，阅读和调节它，并最终生成对话响应（Dinan etal. ，2019 b）。该数据集包含来自22K对话的201K话语，跨越1300个不同的主题，我们只使用测试集。维基百科的知识库有540万篇文章和9300万句句子。4.2基线和消融MultiWOZ的基线。对于MultiWOZ，我们考虑以下几个基线（Sun et al. 2021年，知识注入。首先，我们使用当前最先进的模型SimpleTOD，用于面向目标的对话（Hosseini-Asl et al. ，2020）。Sun等人（2021）通过在训练期间向对话历史添加闲聊候选项来它们还有其他变体，可以将SimpleTOD的输出和候选聊天内容连接在一起（Rewriter），也可以通过组合输出和聊天片段（Rewriter）进行重写我们还有一个简单的基线（KCopy），它将从POKI检索到的知识片段k与初始响应xd相加。WOW的基线。对于魔兽世界，我们使用两个当前最好的知识基础模型， KGround（Wolf et al. ，2019）和BART（Lewiset al. ，2020 a），其将相关联的知识片段（存在于WoW中）和对话历史串接为输入以生成具有超视的响应。KGuide（Zhao et al. ，2017）和RAG（Lewis et al. ，2020 b）在响应生成之前具有由潜在变量建模的附加知识选择步骤，类似于知识基础模型。我们还使用KCopy基线，如MultiWOZ所述。POKI的变体。为了研究POKI中各种解码约束的影响，我们考虑POKI的以下两种变体-w/o蕴涵和w/o知识（Kw）保真度（§ 3.2）。在POKI 中，我们在面向目标的场景中使用SimpleTOD作为基本对话模型，并在基于知识的场景中使用BART（这是WoW的最先进模型）作为基本对话模型。对于POKI的所有变体，我们使用基于梯度的推理来解码最终响应。+v：mala2277获取更多论文哇MultiWOZPOKI vsSimpleTOD重写器不含蕴涵w/o Kw Fidelity黄金标准赢得损失κ赢得损失κ赢得损失κ赢得损失κ赢得损失κ相干93.24.40.7685.610.20.7598.70.80.7277.817.80.7826.234.40.69接合94.34.50.7889.77.90.7998.70.60.8071.520.50.8042.437.40.78有趣92.75.40.7291.28.30.7388.68.90.6898.70.80.7549.745.60.67人类一样85.410.70.6887.47.30.6561.930.50.7181.714.00.7429.737.80.66抹布巴特不含蕴涵w/o Kw Fidelity黄金相干95.44.50.7888.59.60.7294.33.40.6883.610.70.6523.825.30.73接合89.37.70.7287.88.30.7197.70.80.7071.525.40.6925.426.70.73有趣96.33.50.7483.39.90.7579.817.20.7093.54.50.7135.937.80.76人类一样91.47.10.6892.46.50.6684.510.50.6781.813.50.7142.341.90.68表3：来自POKI和来自其他基线的响应之间的成对比较（%赢/输情况，未报告平局）以及地面实况。粗体和非粗体数字之间的差异具有统计学显著性（p <0. 05）。001）。κ表示一对注释者之间的科恩人体评价的完整详细信息见附录C。5结果和讨论5.1自动评估我们的主要目标是产生丰富的相关外部知识的反应可以说，一个能在解码时有效利用额外知识的系统应该会产生更多样化的反应。我们将不同二元组的百分比测量为不同-（D-2）（Liet al. ，2016）和n元语法（n=1，2，3）的经验频率分布的熵值的几何平均值作为熵（ENTR）（Jhamtani et al. ，2018年）。此外，我们根据BLEU和BERTScore（BRTSc）报告了生成的响应和相应的地面实况对于多WOZ，我们还报告了最终目标精度（Acc）（Hosseini-Asl et al. ，2020）。MultiWOZ。表1显示POKI在生成的响应的多样性方面优于所有基线。更重要的是，我们看到POKI提高了到达最终对话状态的准确性即目标。对于POKI的消融版本，我们发现蕴涵约束对多样性的影响很小，而放弃知识遵守约束会对准确性和多样性产生负面影响。SimpleTOD的所有变体和POKI的所有版本都显示出与SimpleTOD在BLEU和BERTScore上获得的结果的偏离，因为所有这些版本都添加了数据中没有明确存在的外部知识。然而，我们观察到偏离并不显著，并且与基线相比，POKI 实现了更接近 SimpleTOD 的BERTScore。哇哦尽管WoW的所有系统都在基于知识的对话生成任务中明确使用知识，但表2显示POKI生成了最多样化的响应。与MultiWOZ类似知识依附性约束仍然是增加多样性的一个重要因素，这是知识注入的主要目标之一。对于魔兽世界，我们看到POKI在注入外部知识时的BERTScore 方面甚至优于 BART （以前的SOTA），这表明需要外部知识来建模魔兽世界对话框。5.2人工评价我们进行了一项比较人类评估，300个样本，以评估ACUTE-Eval（Liet al. ，2019）。我们显示了从POKI生成的响应与其相关的对话历史注释注释，如果知识注入使最终的响应更吸引人，有趣和人性化的基线响应相比。作为健全性检查，我们还调查了知识注入后响应是否保持一致。每个样本由两个注释者进行评估3。MultiWOZ。表3记录了显示POKI在所有标准上始终优于基线的成对比较。与SimpleTOD和Rewriter相比，POKI的响应更吸引人和有趣，这表明基于梯度的解码对于知识注入是有效在POKI中，蕴涵约束对一致性的影响最大，而知识保真度约束对一致性和兴趣性的影响最大。哇哦表3显示，POKI在所有标准中都优于在培训期间使用基础知识的基线，这表明即使在知识基础的环境中，外部知识也可以是有用的，以使对话引人入胜且有趣。它还表明培训信号的局限性或缺乏获得足够知识的途径，3有关设置的更多详细信息，请参见附录C。+v：mala2277获取更多论文±±我需要一个便宜的地方吃饭。：您有位置偏好吗？我有几个选择便宜的餐馆。剑桥市中心。我想你可以点亚洲菜，比如中国菜或印度菜。他们是物有所值，因为他们以其伟大的品味而闻名。你们有供应英国菜的餐厅吗？我在市中心没有一家便宜的餐厅供应英国菜。印度菜在市中心很受欢迎。许多喜欢英国食物的人也喜欢印度食物。：太棒了。我可以吃印度菜。大卫：太好了。我可以帮你在光之山订房间。这张桌子将被预订15分钟。他们有一个充满活力的环境，他们是众所周知的首发。没有一像中国菜或印度菜这样的亚洲菜价格不贵。他们是物有所值印度菜在剑桥市中心很受欢迎。我知道很多喜欢英国食物的朋友也喜欢印度食物。印度菜是物有所值。图三：POKI与正在寻找一些餐厅选项的用户对话（左栏）。在每一个回合中，知识片段（右列）被注入初始响应（中间列）。更多示例见附录D。在如何利用知识方面还有改进的余地与最先进的方法相比，POKI在评估“类人”反应方面的获胜百分比存在很大差距，这在这里，两个解码约束也显示出与MultiWOZ相似的趋势。定性分析图3显示了POKI与一个用户的对话，该用户试图在剑桥附近找到餐馆。我们观察到，在大多数回合中，注入的知识作为初始响应的额外理由出现，例如，在回合3中，我们观察到添加关于印度菜的额外信息有助于用户在他们最初选择的英国菜不存在时得出结论。响应长度的影响。如图3所示，由于事后知识注入，POKI生成的响应在人类评估样本中，我们发现POKI中37%的我们调查，如果响应长度作为一个混杂因素，在人类评价。在POKI在基线上丢失的所有病例中，45%（当使用1000个大小为50的子集进行自举时为2%）的POKI应答长于比较基线的应答在POKI的成功案例中，我们观察到49%（当使用1000个大小为50的子集时为3%）的POKI响应比比较方法的响应长这表明人类用户不仅选择更长的响应更好。5.3知识注入有效性的用户研究相关知识注入的好处是增加了更多的理由简洁的对话输出，从而积极影响任务的结果来自（Ghandeharioun et al. ，2019年），需要进行实时完整的对话评估，以调查POKI是否可以比基线更好地实现对话目标。我们为这项研究招募了60名用户。一半的用户与POKI交互，而另一半用户与最佳基线模型交互，该模型不使用外部知识来增强对话响应我们为每个用户构建了一个推测性的目标，以通过对话来实现我们允许用户随时结束对话，并询问他们系统是否帮助他们实现了对话目标，以及其他评论来证明他们的注释。与知识增强系统交互的用户还询问系统是否提供了用户没有明确要求的任何知识，但实际上额外的信息帮助他们达到了会话目标（Majumder et al. ，2021b）。最后，我们还询问他们是否愿意在未来与他们互动的系统进行互动。对于面向目标的对话，我们从300个对话样本的地面实况手动构建推测性目标（例如，寻找娱乐选项）。由于我们不使用底层数据库，因此我们确保推测性目标不需要特定信息（例如预订可用性，航班信息等）。对于基于知识的对话，我们提供了预期的主题4参与者和研究设置的更多详细信息见附录C。我在市中心没有一家便宜的餐厅供应英国菜。科希努尔在晚上有一个充满活力的环境。他们最为人所知的是他们的创始人。一定要去看看。印度甜点也是很好的甜点。我可以帮你在市中心附近订一家中国或印度餐馆。我可以帮你在光之山订房间。这张桌子将被预订15分钟。您有位置偏好吗？我给你几个选择+v：mala2277获取更多论文4±3WoW #turns↑ Goal Know Would use捷运10± 2 56% 70% 48%POKI16±3 76% 89% 71%表4：实时用户研究，平均旋转次数WoW源随机的相关事实BRTSc民进党随机DPP 随机DPP参数82%89%65%83%74.281.3非参数81%83%97%98%65.276.8表5：随机和基于DPP的选择的知识片段的质量的评估。系统MultiWOZ WoW成功完成目标，达到目标的时间百分比在成功案例中，有%的用户得到了额外的知识（Know）的帮助，而这些知识并没有被明确要求达到他们的目标，也没有明确要求用户将来是否愿意使用该系统。讨论（例如，科幻小说）中存在的数据;这里的推测目标是更多地了解，或者对主题进行引人入胜的对话结果首先，在用户研究中，我们发现POKI与基线相比，用户对POKI的偏好不一致。更重要的是，我们发现，当用户成功实现其目标时，与不使用任何外部知识的基线（重写器）相比，84%的时间他们发现广告知识在目标导向设置（MultiWOZ）中有帮助。最重要的是，与Rewriter相比，POKI需要更少的用户来完成目标，隐含地表明注入的知识（我们观察到高相关性，0.67）有助于更有效的对话。对于知识基础设置（ WoW），BART 和POKI都可以访问外部知识源。然而，89%（相比之下，70%）的成功场景直接受到额外的事后知识的影响。对于以知识为基础的对话，较长的对话表明对特定主题的热情（Gopalakrishnan et al. ，2019年），因此，与BART基线相比，用户更喜欢与POKI进行更多回合的交谈。我们引用一位用户的评论，他发现与POKI进行的关于韩国文化的对话特别吸引人-“在这次对话之前，我对韩国电影和艺术形式的了解很少。这给了我一个新的视角和一些流行的观点来看待它。“.5.4讨论知识选择的表现。POKI中的知识选择步骤是一个信息瓶颈，其中生成的响应的质量直接取决于监控17.6±5.2 ms 23.6±4.6 msPPCM（2020）30.9± 7.5 ms 32.6± 4.2 msPOKI 34.2± 8.4 ms 35.7± 5.7 msPOKI，仅解码31.6± 2.7 ms 32.3± 3.4 ms表6：平均值和标准值每令牌选择知识 5.我们对200个片段进行了人工评估，以在两种情况下测量相关性和事实正确性：当我们随机选择检索到的片段或通过DPP选择在表5中，我们看到参数知识源（gpt2-large）比非参数知识源生成更多的相关知识片段。我们将其归因于1）与我们用于检索的Yelp评论（受限域）相比，在gpt 2的预训练期间使用的大型且多样化的数据集（webtext），以及2）使用基于单词重叠的检索时，相关知识的召回有限然而，大型语言模型仍然倾向于生成非事实知识。我们观察到，在POKI中基于DPP的选择能够子选择更多的事实知识，然后积极影响最终的响应质量。对于魔兽世界，我们还将所选片段与数据集中可用的黄金知识进行比较，这些知识在BERTScore方面表现出高保真度时间复杂度。Madotto等人（2020年）表明，基于梯度的迭代解码可能比使用现有模型的单次向前传递生成响应更慢。当我们在Nvidia2080Ti GPU中对POKI进行基准测试时，在表6中，我们看到知识生成（或检索）可能是POKI的计算瓶颈。然而，贪婪选择和受约束的解码步骤不会增加显著的计算负荷。此外，POKI 的性能与 PPCM （ Madotto et al. ，2020）-基于梯度的解码的更有效的版本。知识检索步骤的效率可以通过更好的索引来提高（Johnson et al. 2021年，我们将其作为未来的工作。5关于检索/生成和选择的知识片段数量的统计分析见附录B。MultiWOZ旋转次数↓目标知道将使用重写器POKI8± 2百分之六十九百分之八十六百分之三十五百分之八十四百分之五十六百分之七十六+v：mala2277获取更多论文6相关工作基于知识的对话数据集，例如维基百科向导（ Dinan et al. ， 2019a ）和 Topical chat（Gopalakrishnan et al. ，2019）通常由与作为收集的注释可用的相关知识配对的对话响应组成。因此，在这些数据集上训练的模型仅限于它们在训练时暴露的知识源。过去的工作（Sunet al. ，2021; Majumder等人，2020a; Suet al. ，2020; Komeili et al. ，2021; Adolphs等人，2021; Ghazvininejad等人。，2018; Tuan etal. ， 2020; Lewis等人， 2020c; Guu et al. ，2020）已经研究了在训练时间注入额外的知识源，以试图添加最初不可用的知识作为对对话响应的配对。然而，如果要使用一些新的知识源，则这种方法需要重新训练模型。此外，虽然以前的工作主要集中在使用外部知识来提高对话响应的特异性，但我们也研究了额外知识在实现会话目标中的作用。在过去的工作中已经探索了通过使用多样性促进采样来提高对话响应的多样性（Fan etal. ，2018; Holtzmanet al. ，2020）。我们使用基于梯度的解码方法，建立在过去的工作在这个方向上（Dathathri et al. ，2020; Qin等人，2020; Madotto等人，2020; Majumder et al. ，2021a）。然而，我们提出了新的目标，以注入事后的知识，边缘获得的基础上已经生成的对话-一个无监督的知识注入方法，迄今尚未探索。7结论我们提出了一个框架，无监督的知识注入到对话响应。我们表明，知识可以事后从任何知识源，可以提高用户在未来，我们的想法可以推广到外部知识可以证明模型确认我们感谢匿名评论者提供宝贵的反馈。BPM部分得到了Qual-2000 Innovation Fellowship、国际中心之友奖学金 -UC San Diego 、 NSFAward #1750063和MeetElise的支持引用Leonard Adolphs ， Kurt Shuster ， Jack Urbanek ，Arthur Szlam，and Jason Weston. 2021. 先推理，再回应：模块化生成，用于知识注入式对话。CoRR，abs/2111.05204。汤姆湾Brown，Benjamin Mann，Nick Ryder，et al.2020. 语言模型是少数成功的学习者。在NeurIPS中。Maxime De Bruyn，Ehsan Lotfi，Jeska Buhmann，and Walter Daelemans. 2020. BART用于知识基础对话。在Converse@KDD中，第2666卷。CEUR-WS.org.Pawel Budzianowski 、 Tsung-Hsien Wen 、 Bo-Hsiang Tseng、Iñigo Casanueva、Stefan Ultes、OsmanRa-madan 和 MilicaGasic 。 2018.Multiwoz -一个大规模的多领域向导数据集，用于面向任务的对话建模。在EMNLP。RicardoCampos ， VítorMangaravite ， ArianPasquali，Alípio Jorge，Célia Nunes，and AdamJatowt. 2020. Yake！使用多个局部特征从单个文档中提取关键字。信息科学，509.雅各布·科恩1960.名义尺度的一致系数。教育和心理测量，20（1）：37Sumanth Datathri、Andrea Madotto、Janice Lan、Jane Hung 、 Eric Frank 、 Piero Molino 、 JasonYosinski和Rosanne Liu。2020. 即插即用语言模型：一种简单的受控文本生成方法。在ICLR。艾米丽·迪南，斯蒂芬·罗尔，库尔特·舒斯特，安吉拉·范，迈克尔·奥利和杰森·韦斯顿。2019年a。维基百科的奇才：知识驱动的会话代理。在ICLR。艾米丽·迪南，斯蒂芬·罗尔，库尔特·舒斯特，安吉拉·范，迈克尔·奥利和杰森·韦斯顿。2019年b.维基百科的奇才：知识驱动的会话代理。在ICLR。Angela Fan，Mike Lewis，and Yann N.皇太子2018.分层神经故事生成。在ACL。GuillaumeGautier ， GuillermoPolito ， RémiBardenet，and Michal Valko.2019年。DPPy：使用 Python 进行 DPP 采样。 Journal of MachineLearning Research- Machine Learning OpenSourc

下载后可阅读完整内容，剩余1页未读，立即下载