全球多语言ToD数据集驱动的任务导向对话系统开发

41 浏览量更新于2023-11-30 收藏 1.24MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2277获取更多论文GlobalWoZ：全球化MultiWoZ以开发多语言任务导向对话系统丁博生1，2 胡俊杰3 李冬冰2号Sharifah Mahani Aljunied2ShafiqJoty罗四2号苗春燕11新加坡南洋理工大学2阿里巴巴集团DAMO学院3威斯康星大学麦迪逊分校{bosheng.ding，l.bing，mahani.aljunied，alibaba-inc.comjunjie.hu @wisc.edu{ srjoty，ascymiao} @ ntu.edu.sg luo.si摘要面向任务的对话（ToD）系统的最新进展是由跨多个领域的可用注释数据驱动的。在过去的几年中，已经出现了一种针对多语言ToD系统的数据策展的趋势，这些系统适用于为讲不同语言的人提供服务。然而，现有的多语言ToD数据集要么由于数据管理成本高而覆盖的语言有限，要么忽略了在讲这些语言的国家几乎不存在对话实体的事实。为了解决这些限制，我们引入了一种新的数据管理方法，该方法生成GlobalWoZ-一个我们的方法是基于翻译对话模板，并填写目标语言国家的当地实体。我们发布了我们的数据集以及一组强大的基线，以鼓励针对真实用例学习多语言ToD系统的研究。1介绍追求人工智能的基本目标之一是使机器能够以自然语言智能地与人类交流，其中一个广泛的应用是开发面向任务的对话（ToD）系统（ Gupta et al. ， 2006; Bohus 和 Rudnicky ，2009）。最近，ToD系统已经成功地被部署来帮助用户完成某些特定领域的任务，例如酒店预订、警报设置或天气查询（Eric et al. ，2017; Wu et al. ， 2019a; Lin et al. ， 2020a;Zhang et al. ，2020），这是由于神经网络的共同出现和特定于领域的注释数据的可用性。然而，大多数现有的ToD系统主要基于英语对话，限制了它们对世界上所有公民的服务这种局限性的原因在于高质量的多语言ToD数据集，由于人类标记的高成本和挑战（ Razumovskaia et al. ， 2021年）。对此的一个解决方案是从头开始用其他语言注释会话，例如，CrossWoZ（Zhu et al. ，2020）和BiToD（Lin et al. ，2021年）。然而，这些方法涉及昂贵的人工努力来收集其他语言的对话，导致语言的覆盖范围有限。另一项主要工作集中在由专业翻译人员将现有的英语ToD数据集翻译成几种目标语言（Upadhyayet al. ， 2018; Schuster et al. ， 2019; van derGoot et al. ，2021; Li et al. ，2021年）。尽管语言的覆盖范围越来越大，但这些方法只是翻译英语命名实体（例如，位置、餐馆名称）转换成目标语言，而忽略了这些实体在讲这些目标语言的国家中几乎不存在的事实。这阻碍了经过训练的ToD系统支持用户在目标语言国家寻找本地实体的真实用例。例如，如图1所示，一个中国人在去伦敦旅行时可能会寻找大英博物馆，而在去上海旅行时可能会寻找东方明珠在本文中，我们关注三个未探索的用例，即外语使用者在外语国家（F2 F）或英语国家（F2 E）使用ToD;以及英语使用者在外语国家（E2 F）使用ToD-与传统的E2 E用例有为了弥合现有数据策展方法与实际用例之间的上述差距，我们提出了一种新的数据策展方法，该方法针对三个未探索的用例将现有的多域ToD数据集全局化到英语之外特别是在MultiWoZ之上构建（Zang et al. ，2020年）-用于对话状态跟踪的英语ToD数据集-arXiv：2110.07679v1 [cs.CL] 2021年10+v：mala2277获取更多论文我想在伦敦找一个值得参观的景点。我推荐大英博物馆。I want to finda placein Shanghai（我：我爱东方明志tigo（我推荐东方明珠塔。）伦敦上海使用案例：E2E使用案例：F2F伦敦我想在伦敦找一个地方（我上海我想在上海找一个值得参观的景点。大英博物馆The British Museumtigo（我推荐大英博物馆）：我推荐东方明石。（我推荐东方明珠塔。）使用案例：F2E使用案例：F2F图1：多语言ToD系统的四个用例示例。用例来源ToD扬声器国家(ToD背景）(ToD本体论）在零射击跨舌转移设置。我们的贡献包括：F2FF2E英语外国郎。外国语。外国语。英语E2F英语外语。E2E英语英语表1：多语言ToD系统的四个用例：一个讲外语或英语的人旅行到一个讲外语或英语的国家。ing（DST），我们创建了GlobalWoZ-一个新的多语言ToD数据集，通过机器翻译和目标语言国家的爬行本体，使用三种新的目标语言。我们的方法只需要少量的人力来编辑几百个机器翻译的对话模板，以进行评估。此外，作为经由预训练的多语言模型的跨语言迁移（Conneau et al. ，2019; Liu et al. ，2020; Xue等人，2020）在许多跨语言的下游任务中被证明是有效的，我们进一步研究了另一个问题：这些在英语ToD数据集上训练的多语言模型如何将知识转移到我们的全球化数据集？为了回答这个问题，我们通过在我们创建的测试数据集上评估流行的ToD系统来准备一些基线• 据我们所知，我们为分析多语言ToD系统的三个未开发用例提供了第一步• 我们提出了一种具有成本效益的方法，从可用的英语数据集创建一个新的多语言ToD数据集。我们的数据集由高质量的测试集组成，这些测试集首先由机器翻译，然后由专业翻译人员以三种目标语言进行后期编辑。• 实验结果表明，现有的多语言系统和语料库训练方法在DST上不能实现零次跨语言迁移为了解决这个问题，我们提出了一些有用的数据增强方法来提高性能。• 我们提供了几个流行的基线在零镜头跨语言迁移和少镜头学习设置，以启动未来的研究沿着这一方向。+v：mala2277获取更多论文2数据管理方法为了全球化上述三个用例的现有英语ToD数据集，我们的方法分为四个步骤：（1）我们首先通过用一组通用占位符替换英语特定的实体来从英语ToD数据集中提取对话模板（§ 2.1）;（2）然后我们将模板翻译为训练和测试数据的目标语言，其中一个关键区别是我们只由专业翻译人员对测试数据进行后期编辑，以确保评估的数据质量（§ 2.2）;（3）我们收集本体（Kiefer et al. ，2021），其中包含目标语言国家的对话行为、本地实体及其属性的定义（§2.3）;（4）最后，我们通过自动填充占位符，使用提取的本体中的实体来构建三个用例中的数据，从而定制翻译的对话模板（§ 2.4）。2.1自动创建模板我们从MultiWoZ 2.2（Zang et al. ，2020）-一个高质量的多域英语ToD数据集，与其前身MultiWoZ 2.0相比，具有更准确的人类注释（Budzianowski et al. ，2018）和MultiWoz 2.1（Eric et al. ，2019）。为了减少人类在其他语言中收集ToD上下文的努力，我们的具体如图 2 所示，我们用一组通用占位符（如[attraction-name 0]和[attraction-postcode 1]）替换MultiWoz中的英语特定实体，其中每个占位符包含实体例如，从对话文本-“I recommend- mend Whale of a time andthe post code is cb 238 el”。，我们从其人类注释中获得两个实体-占位符对，即，（Whale ofatime ， [attraction-name0] ）和（cb238el，[attraction-postcode1]）。然后，通过人工标注中的单词索引识别出对话上下文中的实体，并将其替换为词典中相应的占位符，最后得到带有占位符的对话模板。值得注意的是，我们跳过了具有[choice]和[ref]属性的实体，这些属性表示选择和预订ref的数量。编号，因为这些属性可以全局使用。2.2标记序列翻译根据Liu et al. （2021）翻译具有占位符的句子，我们使用机器翻译系统1来翻译具有我们设计的占位符的对话模板。正如我们所观察到的，包含实体域、属性和ID的占位符吸引-名称0）对于向翻译系统提供上下文有意义的信息是有用的，因此通常导致占位符未改变2的高质量翻译输出。这也使我们能够轻松地在翻译输出中定位占位符，并将其替换为目标语言中的新实体。为了建立高质量的测试集进行评估，我们进一步聘请专业翻译人员对数百个机器翻译模板进行后期编辑，从而在目标语言中生成自然和连贯的句子为了选择具有代表性的测试模板进行后期编辑，我们首先计算MultiWoZ数据中所有4-gram组合的频率，然后通过对话中所有4-gram组合的频率之和除以对话的单词长度来对测试集中的每个对话进行最后，我们选择测试集中得分最高的500个对话我们还使用相同的过程来创建一个小的高质量的训练集，用于少镜头半监督设置。32.3本地本体同时，我们从公共网站（例如，tripadvisor.com，booking.com）来分别为三种对应的目标语言创建三个本体我们选择巴塞罗那为西班牙语（印欧语言），上海为汉语（汉藏语），雅加达为印度尼西亚语（南岛语），这些语言涵盖了一系列类型不同的语系。给定一个翻译好的对话模板，我们可以很容易地从抓取的本体中随机抽取一组实体1我们使用谷歌翻译（https://cloud.google.com/translate），这是一个支持100多种语言的现成系统。2标签序列翻译请参见附录图43黄金测试数据分布请参见附录图5+v：mala2277获取更多论文自动模板填充域名：景点名称：[attraction-name 0]邮政编码：[attraction-postcode 1]本地化本体集合当前位置我推荐东方明报，邮编是200000。自动创建邮政编码是[attraction-postcode 1]。域名：景点名称：东方明洞邮编：200000使用案例：E2F当前位置：我推荐Whale of a Time，邮编是cb238el。标记序列翻译本地化本体机器翻译/人工后期编辑：I recommend East Square，Postal codeis 200000.域名：景点名称：时光鲸邮编：cb238el金数据：我推荐 [attraction-name0]，邮政编码是[attraction-postcode1].域名：景点名称：东方明洞邮编：200000使用案例：F2F翻译模板域名：景点名称：[attraction-name 0]邮政编码：[attraction-postcode 1]：我推荐 Whale of a time，邮政编码是cb238el.英语本体论领域：吸引力产品名称：鲸的一个时间邮政编码：图2：我们提出的方法的说明。使用案例：F2E并将实体分配给模板在每个对话模板上重复此过程，我们可以轻松地构建目标语言的高质量标记数据集。表2显示了我们收集的目标语言实体的统计数据与英语数据的比较。除了列车区域外，我们收集的实体数量都大于或等于英语数据中的实体数量，由于列车信息收集的复杂性，我们只收集了每种语言的100辆列车注意到在MultiWoZ的出租车数据库中，它只列出了出租车颜色，出租车类型和出租车电话，出租车目的地和出发地是指餐馆，酒店和景点域中的实体因此，我们使用餐馆、酒店和景点域中实体数量的总和作为出租车域中实体总数的代理。此外，我们跟随MultiWoZ为每个城市收集一家医院和一个警察局。对于F2F情况，使用相同的目标语言，而对于F2E情况，使用英语（源语言）模板作为目标语言实体对于E2F的情况，我们通过跳过翻译步骤并用目标语言中的本地实体替换占位符来保持原始英语上下文综上所述，我们提出的方法具有三个关键特性：（1）我们的方法具有成本效益，因为与其他研究中昂贵的众包努力相比，我们只需要有限的测试集后编辑效果;（2）我们可以很容易地从本体中以创建大规模机器翻译的数据作为用于训练的数据增强的方式;（3）我们的方法是灵活的，以在本体的更新可用时更新ToD系统中的实体，例如，扩大新实体。3提出方法语言休息En 110酒店33attr.79火车2828出租车222医院1警察1我们为GlobalWoZ准备了一个基本模型，零次跨语言迁移设置。我们选择ZhEsId30003000300049642699910001000792100100100449644264791111111Transformer-DST（Zeng和Nie，2020）作为我们的基础模型，其中一个变化是取代其BERTen，mBERT encoder编码器如下详述表2：收集的本体中不同语言的实体的统计。我们统计每个域的数据库中的实体数量2.4三个用例的模板填充按照上述步骤，我们将目标语言的实体分配给我们提出了几个数据增强基线，这些基线创建用于训练基本模型的不同训练和验证数据具体来说，对于每个基线，我们首先在其训练数据上训练一个基础模型20个epoch，并在训练期间使用其验证集来选择最佳模型最后，我们在来自GlobalWoZ的相同测试集上评估+v：mala2277获取更多论文3.1纯零拍（E2E）我们在黄金标准英语数据（E2E）上训练基础模型，并将学习的模型直接应用于GlobalWoZ中三个用例的测试数据。通过这种方法，我们模拟了只有源语言的标记数据进行训练的情况，并评估了模型如何将知识从英语转移到其他语言。我们使用Zero-Shot（E2 E）来表示这种方法。3.2翻译培训我们使用我们的数据管理方法（§2）通过MT系统翻译模板，但用机器翻译的实体替换翻译模板中的占位符，以创建一组伪标记的训练数据作为数据增强的一种方式。利用该方法，我们模拟了具有大量噪声的翻译训练数据而没有本地化实体的情况，以评估传统的翻译训练方法在三种用例上的性能。在此设置中，基本模型可以完全访问目标语言中的大量噪声翻译训练数据。我们将这种方法称为 Translate-Train。3.3单语言单一用例培训我们使用我们的数据策展方法（§2）来创建每个用例的大量伪标记单语训练数据。对于F2F的情况，我们通过MT系统翻译模板，并用本地化实体替换翻译模板中的占位符，以创建大量的训练数据用于数据增强。对于F2E的情况，我们用原始的英语实体替换翻译模板中的占位符，以创建大量的噪声训练数据进行训练。对于E2F的情况，我们使用英语模板，并将英语模板中的占位符替换为本地化实体，以创建大量嘈杂的训练数据。利用该方法，我们模拟了通过机器翻译和目标语言中的本地化实体获得大量伪标记训练数据的情况，并研究了如何将知识从高资源语言转移到低资源语言。在这种情况下，基本模型可以完全访问目标语言中的大量我们将这种方法称为单列车。3.4双语/多语双用例培训我们研究了将黄金英语数据和为三个用例之一创建的伪标记训练数据（即，F2F、F2E、E2F）分别进行双用例训练。在双语训练中，我们只将黄金英语数据（E2E）与一种目标语言的伪标记训练数据在一个用例中结合起来进行联合训练。我们将这种方法称为双语双训练。在多语言训练中，我们将所有语言的黄金英语数据和伪标记训练我们将这种方法称为多语言双训练。3.5多语言多用例培训我们进一步研究了将黄金英语数据和所有目标语言中的所有伪标记训练数据组合在所有用例中的性能F2F、F2E、E2F）进行联合训练。在此设置中，我们模拟了在所有目标语言的所有三个用例中具有英语数据和大量在此设置中的三个用例中，基础模型可以完全访问英语数据和所有目标语言的大型伪标记训练数据我们将这种方法称为多语言多训练。4实验我们的实验集中在对话状态跟踪（DST）-在一个ToD系统的基本组成部分之一，预测用户查询的目标，我们遵循MultiWoZ中的设置（Budzianowski et al. ，2018年）通过联合目标准确度来评估用于DST的ToD系统，联合目标准确度测量在多轮对话中正确预测所有目标的百分比4.1Zero-Shot跨语言迁移与为目标语言注释一整套高质量训练数据的现有研究不同，我们研究了零次跨语言迁移集，其中我们只能访问高质量人类注释的英语ToD数据（下文称为金标准数据）。此外，我们认为我们可以使用机器翻译系统，将英语翻译成目标语言。我们调查这种设置，以评估多语言的ToD系统如何将知识从高资源的源语言转移到低资源的目标语言。+v：mala2277获取更多论文4.2主要结果4.2.1用例F2F表3报告了F2F测试数据上所有提议方法的联合目标精度。我们发现Zero-Shot在所有语言中的准确率最低，在F2 F测试数据中，三种语言的平均准确率为1.28。此外，我们还发现Translate-Train 的平均准确率略高于 Zero-Shot，为3.65，这是因为它虽然不能访问目标语言的局部实体，但可以访问目标语言的对话上下文。当模型可以访问目标语言的对话上下文和本地实体时（即，单列车），它实现了27.68点的增益超过零杆。当我们增加用于联合训练的语言数量时，我们观察到双语双训练和多语言双训练分别比单训练获得0.78和1.80分，这意味着使用更多语言的联合训练导致F2F 情况的改善。最后，我们观察到Multilingual-Multi-Train实现了最佳性能，提高了32.53分高于其他方法。方法.zhesIDavgZero-Shot（E2E）1.221.381.261.28翻译培训2.612.595.743.65单列车36.9724.6625.2628.96双语双列车37.3225.5226.3929.74多语言双向培训38.0126.0328.2230.76多语言多培训37.7527.7435.9433.81表3：F2F用例的三种目标语言上DST的零触发跨语言联合准确度4.2.2用例F2E我们在表4中报告了F2E数据的联合目标准确性得分。与F2 F情况不同，Zero-Shot在F2 E上的性能优于Translate-Train。一个可能的原因是来自Translate-Train的模型无法访问任何英语实体。当模型在目标语言的对话上下文以及英语实体上通过Single-Train进行训练时，模型获得了比Zero-Shot高39.59个准确度点的增益。与F2 F类似，随着训练语言数量的增加， Bilingual-Bi-Train 和 Multilingual-Bi-Train的模型平均比Single-Train高出5.78和7.57个准确度点，表明F2 E的多语言联合训练的有效性。值得注意的是，在F2E情况下，F2F，多语言多训练的得分略低于多语言双训练。我们推测这是由于不同用例中的训练数据与F2E用例中的测试数据之间的分布偏移方法zhesIDavgZero-Shot（E2E）6.9211.349.099.12翻译培训2.284.974.673.97单列车56.2841.9447.93 四十八点七一双语双列车59.8748.2054.79 54.29多语言双列车60.3753.5654.93 五十六点二八多语言多培训58.1251.7452.24 54.03表4：F2E用例的三种目标语言上DST的零触发跨语言联合准确度4.2.3用例E2F表6显示了E2F用例的联合准确度评分。我们观察到Zero-Shot的平均精度仅为1.77。与F2E类似，Translate-Train表现不佳，平均联合准确度为1.67，一个可能的原因是该模型不是在英语上下文和目标语言的本地实体上训练的当模型可以访问英语上下文和目标语言实体（Single-Train）时，模型比Zero-Shot（E2E）平均提高了35.02分。当语言的数量继续增加（双语双列车和多语言双列车），该模型具有与单列车相比分别提高了 0.76 和 1.04 。Multilingual-Multi-Train 的结果略低于Multilingual-Bi-Train，这也可能是由于不同用例引入的分布偏移方法zhesIDavgZero-Shot（E2E）1.691.811.821.77翻译培训1.391.761.861.67单列车38.5628.0043.8236.79双语双列车39.8727.2945.4837.54多语言双向培训40.2029.2247.0638.83多语言多培训39.2628.7848.2238.75表5：E2F用例的三种目标语言上DST的零触发跨语言联合准确度4.3一个模型为所有在图3中，我们比较了三个用例中测试数据的多语言多训练和多语言双训练我们发现，尽管Multilingual-Multi-Train可能无法在每个用例上实现最佳结果，但它实现了最佳+v：mala2277获取更多论文三个用例的平均结果。因此，我们展示了使用一个模型同时处理所有三个用例的潜力图3：在F2F、F2E和E2F4.4用例E2E在这一部分中，我们运行实验来展示黄金英语测试数据的性能。由于我们的Zero-Shot是在单语英语训练数据上训练的，因此它可以作为黄金标准英语测试数据性能的基线翻译-训练和单训练（F2 F）在英语测试数据上实现了2.27和1.09的平均准确率，因为它们都无法访问英语数据。单列车（ F2E ）和单列车（E2F）达到6.39和5.46的联合准确度，因为它们可以访问英语上下文或英语实体，但不能同时访问两者。当我们进行双语和多语联合培训时（即，Bilingual-Bi-Train和Multilingual-Bi-Train），除了Multilingual-Bi-Train（E2E + E2 F）之外，基础模型在英语测试数据上都有显著一个可能的原因是E2F训练数据与E2E数据共享相同的最后，与零射击（E2E）相比，多语言多训练的准确度下降了0.83。5今后工作表6：英语测试数据数据首先由机器翻译，然后由专业翻译人员翻译。如表7和表8所示，MT测试数据的总体报告结果高于MTPE测试数据报告的结果，这是预期的，因为MT测试数据的分布与MT训练数据更相似。虽然在个别语言上存在一些差异，但从MT测试数据的评估中得出的结论与从MTPE测试数据的评估中得出的结论相同。我们还计算了表9中MTPE测试数据和MT测试数据报告的平均结果的结果之间的Spearman等级相关系数和Pearson相关系数，这表明MT测试数据和MTPE测试数据的系统性能之间的统计学高度相关性因此，我们表明，MT测试数据可以作为一个代理，以估计更多的语言的真实测试数据上的模型性能。我们选择了谷歌翻译、Trip Advi- sor和Booking.com同时支持的20种语言，如附录中的表10所示我们将在今后的工作中把语文范围扩大到所有这些语文5.1扩展到20种语言由于数据注释的成本较高，现有数据集的语言覆盖范围仍限于不到10种通过我们提出的具有成本效益的数据管理方法，可以扩展数据集以覆盖更多语言。因此，我们通过评估我们提出的方法（§2）在两组测试数据上的模型性能来进行实验：（1）仅由机器翻译创建的MT测试数据（§2.2）;（2）MTPE测试数据。方法zh es id avgZero-Shot（E2E）1.19 1.40 1.28 1.29翻译培训2.502.815.813.71单列车37.7926.9542.5935.78双语双列车38.6227.3442.9636.31多语言双向培训39.1129.1745.3937.89多语言多培训38.1629.0946.5137.92表7：用例F2 F- MT测试数据方法EnZero-Shot（E2E）52.78翻译培训2.27单列车（F2F）1.09单列车（F2E）6.39单列车（E2F）5.46双语双列车（E2E+F2F）52.87双语双列车（E2E+F2E）53.69双语双列车（E2E+E2F）53.05多语言双向培训（E2E+F2F）53.28多语言双向培训（E2E+F2E）53.43多语言双向培训（E2E+E2F）51.75多语言多培训51.95+v：mala2277获取更多论文方法zhesIDavgZero-Shot（E2E）7.6111.679.649.64翻译培训2.255.255.034.17单列车57.1055.7055.6456.15双语双列车59.0557.6856.8057.84多语言双向培训60.4857.0458.2358.76多语言-多列车。59.2157.5156.4157.71表8：用例F2 E- MT测试数据方法Spearman相关Pearson相关F2f1.001.00F2e1.001.00表9：MTPE测试数据和MT测试数据5.2少量跨舌迁移近年来，小镜头跨语言迁移引起了学术界和工业界的广泛研究兴趣在少量跨语言迁移设置中，我们的目标是包含一小部分由专业翻译人员（§2.2）用目标语言后期编辑的高质量训练数据此设置对于评估多语言ToD从一小组目标语言数据中学习的效率6相关工作6.1多语言ToD系统正如Razumovskaia等人（2021）所指出的，ToD系统有两种主要设计：模块化ToD系统和端到端ToD系统。在模块化ToD系统中，对话状态跟踪是从对话话语中解析用户目标的重要组件（Wu et al. ，2019 b; Heck et al. ，2020;Hosseini-Asl等人，2020; Lin等人，2020 b）。在这些流行的模型中， Transformer-DST（ Zeng 和 Nie ， 2020 ）是 MultiWoZ2.0 和MultiWoZ2.1上最先进的模型之一四、在我们的论文中，我们用为我们的基础模型设计了一个mBERT编码器，并为GlobalWoZ提出了一系列的训练方法。我们将发布GlobalWoZ以及我们预先训练的模型，以鼓励更快地适应未来的研究。4根据MultiWoZ 2.0和MultiWoZ 2.1上的多域对话状态跟踪排行榜-withcode.com6.2多语言ToD数据集在过去的几年里，ToD系统的成功很大程度上是由神经网络模型的共同出现驱动的（Eric etal. ， 2017; Wu et al. ， 2019a; Lin et al. ，2020a）和大规模注释语料库的集合。这些语料库涵盖了来自单个领域的广泛主题（例如，ATIS （ Hemphill et al. ， 1990 ）、 DSTC 2（Hender-sonet al. ，2014）、Frames（El Asriet al. ， 2017 ）、 KVRET （ Eric et al. ，2017 ）、 WoZ 2.0 （ Wen et al. ， 2017 ）、M2M（Schatzmann et al. ，2007））到多域（例如， MultiWoZ（Budzianowski et al. ，2018），SGD（Rastogi et al. ，2020））。在这些集合中最值得注意的是，MultiWoZ是一个大规模的多域数据集，专注于真实人类对话中不同域或场景之间的转换（Budzianowski etal. ，2018）。由于收集面向任务的对话的成本很高，只有少数单语或双语非英语ToD数据集可用（Zhu et al. ，2020; Quan等人，2020;Lin等人，2021; Farajian et al. ，2020）。虽然人们对多语言ToD系统的数据管理越来越感兴趣，但绝大多数现有的多语言ToD数据集在使用ToD系统搜索一个国家的本地实体我们在本文中填补了这一空白，对三个以前未探索的用例进行了首次分析。7结论在本文中，我们提供了三个未开发的多语言面向任务的对话系统的用例分析。我们提出了一种新的数据处理方法，利用机器翻译系统和目标语言的本地实体来创建一个新的多语言TOD数据集我们提出了一系列流行的基线方法，并在GlobalWoZ上进行了广泛的实验确认这项研究得到了南洋理工大学阿里巴巴-南洋理工大学新加坡联合研究院的我们也要感谢阿里巴巴同事何瑞丹、彭海云和徐子凡在这项工作中的帮助。+v：mala2277获取更多论文引用丹·博胡斯和亚历山大一世。鲁德尼奇2009.拉文克劳对话管理框架：建筑与系统。 ComputerSpeech Language，23：332-361.Pawestern Budzianowski ， Tsung-Hsien Wen ， Bo-Hsiang Tseng，Inigo Casanueva，Stefan Ultes，Osman Ra-madan，andMilicaG asi c'. 2018年一个arXiv预印本arXiv：1810.00278。Alexis Conneau 、 Kartikay Khandelwal 、 NamanGoyal、VishravChaudhary、GuillaumeWenzek 、 FranciscoGuzma' n 、 EdouardGrav e 、MyleOtt、LukeZettle-moyer和VeselinStoyanov 。2019.大规模无监督跨语言表征学习。arXiv预印本arXiv：1911.02116。Layla El Asri，Hannes Schulz，Shikhar Sharma，Jeremie Zumer ， Justin Harris ， Emery Fine ，Rahul Mehrotra ， and Kaheer Suleman. 2017. 框架：为目标导向的对话系统。在第18届对话与对话国际会议记录中，第 207- 219 页，Saarbrucken，German y。计算语言学协会Mihail Eric、Rahul Goel、Shachi Paul、Adarsh Ku-mar 、 Abhishek Sethi 、 Peter Ku 、 Anuj KumarGoyal、 Sanchit Agarwal 、Shuyang Gao 和 DilekHakkani-Tur。2019. Multiwoz 2.1：一个整合的多域对话数据集，具有状态校正和状态跟踪基线。arXiv预印本arXiv：1907.01669。MihailEric ， LakshmiKrishnan ， FrancoisCharette，and Christopher D.曼宁2017. 面向任务对话的键值检索网络。在第18届关于话语和对话的SIGdial年会的会议记录中，第37-49页，Saarbručken，Germany。计算语言学协会。M. AminFarajian，An too'nioV. 洛佩斯，和re'F。 T.马丁，萨姆恩·马鲁夫，和戈拉姆瑞扎·哈法利.2020. WMT 2020聊天翻译共享任务的结果。第五届机器翻译，第65计算语言学协会。罗布·范德古特、易卜拉欣·沙拉夫、艾占·伊曼库洛娃、艾哈迈德·乌斯季恩、玛丽亚·斯捷潘、阿兰·兰波尼、西蒂·奥瑞扎·凯鲁尼萨、小町守和巴尔巴拉·普朗克。2021. 从掩蔽语言建模到翻译：非英语辅助任务提高零出手口语理解。在计算语言学协会北美分会2021年会议的开幕式上：人类语言技术，第2479-2497页，在线。计算语言学协会。纳伦德拉·库马尔·古普塔，戈汗·图尔，迪莱克ZHakkani-Tur？r，Sriniv asBangg alore，GiuseppeRic-cardi，and Mazin Gilbert. 2006. 语言理解系统。IEEETransactions on Audio ， Speech ， and LanguageProcessing，14：213-222.Michael Heck，Carel van Niekerk ，Nurul Lubis ，Chris- tianGeishauser ， Hsien-Chin Lin ， MarcoMoresi和MilicaGa s i c'。2020年。Tripp y：用于值独立的神经对话状态跟踪的三重复制策略arXiv预印本arXiv：2005.02877。Charles T Hemphill，John J Godfrey，and George RDoddington. 1990. atis口语系统试点语料库。在语音和自然语言：在隐谷，宾夕法尼亚州，1990年。马修·亨德森，布莱斯·汤姆森，杰森·威廉姆斯。2014.第二个对话状态跟踪挑战。在话语和对话特别兴趣小组（SIGDIAL）第15届年会的会议记录中，第263Ehsan Hosseini-Asl，Bryan McCann，Chien-ShengWu，Semih Yavuz，and Richard Socher.2020.一个简单的面向任务的对话语言模型。arXiv预印本arXiv：2005.00796。Bernd Kiefer，Anna Welker，and Christophe Biwer.2021. Vonda：一个基于本体的数据库管理框架。在口语对话互动中增加自然性和灵活性：第10届口语对话系统国际研讨会，第93-105页。Springer新加坡。Haoran Li，Abhinav Arora，Shuohui Chen，AmaritGupta，Sonal Gupta，and Yashar Meidong. 2021.MTOP：一个全面的多语言面向任务的语义解析基准。在计算语言学协会欧洲分会第16次会议的会议记录：主要卷，第2950-2962页，在线。计算语言学协会。Zhaojiang Lin ， Andrea Madotto ， Genta IndraWinata，and Pascale Fung. 2020年a。MinTL：Minimalisttrans-ferlearningfortaskorienteddialogue systems.在2020年自然语言处理经验方法会议（EMNLP）中，第3391计算语言学协会Zhaojiang Lin ， Andrea Madotto ， Genta IndraWinata ， and Pascale Fung. 2020 年 b 。 Mintl ：Minimalist TransferLearningfortask-orienteddialogue systems （英语： Minimalist TransferLearning for task-oriented dialogue systems）arXiv预印本arXiv：2009.12005。Zhaojiang Lin ， Andrea Madotto ， Genta IndraWinata，Peng Xu，Feijun Jiang，Yuxiang Hu，Chen Shi，and Pascale Fung. 2021. Bitod：一个用于面向任务的对话建模的双语多域数据集。arXiv预印本arXiv：2106.02787。+v：mala2277获取更多论文Linlin Liu ， Bosheng Ding ， Lidong Bing ， ShafiqJoty ， Luo Si ， and Chunyan Miao. 2021.MulDA：一个用于低资源跨语言NER的。在第59届计算语言学协会年会和第11届自然语言处理国际联合会议的会议记录（第1届：长文），第5834计算语言学协会.Yinhan Liu，Jiatao Gu，Naman Goyal，Xian Li，Sergey Eddom ， Marjan Ghazvininejad ， MikeLewis，and Luke Zettlemoyer. 2020.用于神经机器翻译的多语言去噪预训练《计算语言学协会学报》，8：726全钧，张世安，曹谦，李自忠，熊德义。2020.Risawoz：一个大规模的多领域向导数据集，具

下载后可阅读完整内容，剩余1页未读，立即下载