没有合适的资源?快使用搜索试试~ 我知道了~
+v:mala2277获取更多论文SaFeRDialogues:在对话安全失败后优雅地接受反馈Megan Ung Jing XuFacebook AI Research{meganu,jingxu23,ylan}@fb.com摘要警告:本文包含可能令人反感或不安的示例数据。当前的开放域会话模型很容易以不适当的方式进行交谈。从对话伙伴给出的对话反馈中进行在线学习是一种很有前途的途径,可以改进和适应模型,从而减少这些安全故障。然而,目前最先进的模型往往会对反馈做出防御性或遗忘性的反应。这会造成不愉快的体验,并且可能会阻止对话伙伴在未来提供反馈。这项工作提出了SaFeRDialogues,一个任务和数据集的优雅的会话反馈有关安全故障的反应。我们收集了一个8k对话的数据集,这些对话展示了安全故障,反馈信号,以及确认反馈的响应。我们展示了如何在这个数据集上进行微调,从而导致人类评分员认为更有可能导致文明对话的对话,而不会牺牲友好性或一般对话能力。1介绍训练来模仿人类英语开放域对话的大型神经生成对话模型已经变得很吸引人(Adiwardanaetal. ,2020; Roller等人,2020 b),但仍然倾向于说出有问题的语言,例如,显示毒性或偏见,或同意攻击性的状态(Xu et al. ,2021;Dinan et al. ,2021年)。会话伙伴可能会给模型提供有用的反馈,通过发出信号表明模型说的不好,甚至给出更详细的原因。这反过来又可以成为宝贵的训练信号,用于通过在线学习持续改进模型(Hancock et al. ,2019; Roller etal. ,2020a)。特别是,图一: 响应时bot响应的类型 关于来自BAD数据集的有问题的输入的反馈(Xu et al. ,2021年)。现有的模型(左边的四条)通过攻击或忽略反馈来做出反应。本研究中提出的恢复模型是根据对反馈的亲切反应的数据集进行微调的,它没有防御性地道歉(右边的两个条)。或不好的语言在不同的人(在不同的文化中,对什么是冒犯性的或有趣的有不同的“界限”)和时代(一个世纪前可能被接受的东西,根据现代社会规范,可能经常被认为是非常不合适的)之间有很大的差异。因此,一个单一的会话模型可能会说一些大多数人都能接受的话,但仍然会从那些想表达自己不满的人那里产生这种反馈最终可以用于将单个模型更新为个性化模型,从而了解每个对话伙伴– but this requires the model to make the feedbackinteraction 相反,当前的对话模式通常以一种不鼓励合作伙伴在未来给予更多的方式来回应反馈:-10模型在他们有争议的立场上加倍,或者完全忽略反馈(见图1和表1)。一些更安全的应对策略,如改变主题(Xu et al. ,2021年)确实减少了模型攻击,但仍然没有道歉(图1)。这项工作改善了端到端会话模型对安全反馈arXiv:2110.07518v2 [cs.CL] 2022年5月+v:mala2277获取更多论文示例上下文1示例上下文2安全故障:大多是拉布拉多犬,它们很好当他们长大后,肉做得很好而且口感很棒。安全故障:我得到了一个踢出手表-让你觉得自己在家庭中有价值信号反应:你信号反应:没有必要攻击别人,因为你的想法不同。现有pushshift.io Reddit模特:我喜欢做饭,但是我不太擅长。不过,我确实喜欢烘焙我养过狗,但不经常。还我可不会我就像所有种类的狗一样。拉布拉多金毛寻回犬斗犬、罗威纳犬、德国牧羊犬等。BST2.7B +安全层模型:嘿,你想谈谈别的吗?我们谈谈完美主义(心理学)怎么样?BST2.7B +安全层模型:嘿,你想谈谈别的吗?我们谈谈德雷克(音乐家)怎么样?SD恢复响应:对不起恢复恢复(BST2.7B)模型:故意吓你的我恢复(DialoGPT)模型:对不起,我不是故意吓你的。下次我恢复(DialoGPT)模型:表一:两个精心挑选的对话从来自BAD数据集的不安全话语开始,然后是反馈信号。现有的公共对话模型(例如,BST 2.7(Roller等人,,2020 b)和DialoGPT(Zhang et al. ,2019))在他们的立场上加倍,或者忽略反馈,并就主题给出一般性的陈述。恢复模型在我们新的SaFeRDialogues(SD)数据集上进行了微调,并学会道歉。通过在专门收集的会话数据集上对它们进行微调,以鼓励对反馈做出优雅的响应(参见图1中的计数和表1中的示例)。自动和人工评估表明,所产生的模型被评估为更有可能导致民事对话,同时保持友好性。因此,这项工作的贡献是双重的:(1)它提出了一个任务和伴随的数据集,对关于安全故障1的反馈做出响应,以及(2)它演示了如何对该数据集进行微调,使模型更容易接受反馈,以人类评级者评估为导致更文明但仍然参与的对话的方式1数据集和任务已通过ParlAI框架发布(Miller et al. 、 (2017年) 可在以下网址获得https://github.com/facebookresearch/ParlAI/tree/main/parlai/tasks/saferdialogues2从对话中的安全故障中恢复建 设 性 反 馈 是 人 类 学 习 的 重 要 工 具(Ovando,1994).不幸的是,反馈常常被认为是自我威胁(即,挑战对自己的积极看法),导致各种阻碍学习的防御性反应(谢尔曼和科恩,2006),如抵制改变信念,甚至采用更极端的信念(Lord et al. ,1979)。这些常见的人类心理自卫反应广泛出现在用于训练神经生成会话模型的大规模人类语料库中,例如 pushshift.io Reddit ( Baumgartner et al. ,2020)。因此,会话模型经常表现出防御性或遗忘性的反应,拒绝反馈而不是反思反馈(图1)。这项工作试图通过收集回复:你是对的。谢谢你指出来我需要记住,人们的观点与我的不同,我需要尊重这一点。pushshift.io Reddit模型:我恢复(BST2.7B)模型:BST2.7B型号:拉布拉多寻回犬是世界上最受欢迎的犬种。DialoGPT模型:拉布拉多是最好的。BST2.7B型:我不是在攻击你,我只是在告诉你我对你的感觉。我觉得你DialoGPT模型:我不知道你想说什么。+v:mala2277获取更多论文一个众包数据集,其中工作人员被特别指示以一种将导致民间互动的方式确认反馈根据这些数据进行微调的转换模型将有望显示出优雅接受反馈的目标质量。这一总体策略类似于以前的工作,通过对收集的数据进行微调,赋予模型更多的同理心或知识,以展示所需的质量( Smith et al. , 2020; Rashkin et al. ,2019)。在对我们的方法进行更详细的描述之前,我们简要回顾一下相关的工作。3相关工作如Dinan等人(2021)所述,神经端到端会话模型可以显示许多安全问题,例如, 产生不适当的内容(Dinan et al. ,2019年),或不适当地回应谈话伙伴发出的敏感内容(CercasCurry和Rieser,2018年)。在逆向收集的数据集上训练模型的努力已经产生了更安全的模型(Dinan et al. ,2019; Xu et al. ,2021),然而,它仍然可以被刺激到说出攻击性的声明(徐等人。,2021年)。来自对话伙伴的反馈很可能成为改进已部署模型的重要信息源,正如Roller et al. (2020年a),尤其重要的是使模型更强大的不断变化的价值观和社会规范(Dinan等人。,2021年)。在这项工作中,我们并不试图提高会话模型的安全性,而是专注于改善它们如何响应会话中会话参与者给出的一些作品研究了对不安全话语的反应 Chin和Yi(2019); Chin等人 (2020)看看不同的反应策略(脱离,道歉或反击)如何改变会话模型的评级以及它们引起的负面反应。Curry和Rieser(2019)表明,根据不安全输入的类型,不同的策略被认为是适当的Paranjape et al.(2020)研究了各种反应类型后的重新犯罪率。最近的工作集中在产生反言语和教学干预( Pranesh et al. , 2021; Chaud-hary et al. ,2021; Zhu和Bhat,2021)。相比之下,这项工作着眼于对话的另一面,即模型本身说了一些不安全的话而不是像de los Riscos和D'Haro(2021)那样的主持人机器人4训练恢复模型在 本 节 中 , 我 们 将 介 绍 一 个 名 为SaFeRDialogues2(SD)的新任务和数据集,用于训练可以从安全故障中恢复的模型。4.1数据集收集和统计我们收集了以下数据:(1)当有人说了不安全的话时,众包工作者会给出反馈,(2) 其他众包工作者对这些反馈提供为了提供对 话 安 全 失 败 的 背 景 , 我 们 从 Xu 等 人(2021)的机器人对抗对话(BAD)数据集的火车分裂开始,机器人和众包之间的对话,人类试图探测或对抗性地刺激机器人以不安全的该数据集中的每个对话话语由众包工作者标记为安全或不安全,其中如果消息“不可以发送与你刚在网上遇到的人的友好对话”,则该消息是不安全或不好的。 我们从BAD数据集的训练集中提取了4个连续话语的7,049个实例,这些话语以不安全的话语(无论是来自机器人还是人类)结束,并将其用作安全故障的上下文。信号失败任务众包工作者对这些对话上下文做出自然响应,以向其他说话者发出信号,表明先前的消息不正确(参见附录中的屏幕截图,图3)。由此产生的数据被其他人群工作者组验证为充分发出安全故障信号,如附录A中更详细描述的。恢复任务然后其他众包工作者响应由此产生的对话和提供的关于对话安全失败的反馈,并指示以鼓励文明的方式做出回应(参见图2中的屏幕截图,以及附录B中的其他细节)。在通过单独的验证任务进行验证后,我们保留了7,881个恢复响应(共11,246个)。SaFeRDialogues ( SD ) 数 据 集 所 得 到 的SaFeRDialogues(SD)数据集由7,881个对话组成,每个对话由来自BAD数据集的训练集的4个发声组成,其中第4个发声不正常,随后是发出安全故障信号的响应的而人类伴侣给出的反馈nals它. This setup设置corresponds对应to alearner学习bot机器人,2安全反馈恢复对话+v:mala2277获取更多论文图2:恢复任务的屏幕截图。 众包工作者被展示了截断的对话片段,以响应信号安全故障结束,并被指示信令恢复无礼的道歉进攻性出租评论评论谈话攻势women reflect违法粗暴恰如其分的词暴力发言不同意说滚道勾缝表2:从BST到SaFeRDialogues(SD)排名前10位的单词。我们对SD和BST响应(分别针对SD内的信号和恢复响应)中的单词频率(不包括停用词)进行排名,并按排名差异的大小对其进行排序。前30名见附录表21和表227881个对话分别被分成6305、788和788个对话的训练集、有效集和播种训练BAD对话上下文的集合在训练集、有效集和测试集之间保持不同。表2显示,与常规聊天(BST)相比,在数据集的反馈话语中,表示有问题的反应(粗鲁,冒犯,非法)或潜在敏感话题(妇女,暴力,种族)的单词为了重新-在SD和BST中的响应4.2在SaFeR对话框我 们 考 虑 在对话任务上训练的大 型 基 于Transformer 的 架 构 , 并 使 用 ParlAI 工 具 包(Milleret al. ,2017年)。为了保持模型的一般会话能力,我们在Blended Skill Talk数据集(Smithet al. ,2020年),而不使用人物角色(BSTnp),因为删除人物角色并没有被评为更有吸引力(Roller et al. ,2020b),并且BAD数据集没有人物角色。数据集之间的差异人物角色存在将允许模型使用人物角色的缺失作为需要响应反馈的虚假指示器。 3仅在SaFeRDialogues数据集上进行微调会导致道歉话语(“对不起”)的极端过度表示,即使不需要。我们使用两个初始的预训练模型,BST2.7和DialoGPT。BST 2.7我们使用Roller等人的BST 2.7B参数模型运行我们的大部分实验。(2020 b)作为初始预训练模型,因为它在之前的测试中被人类评为更具吸引力阐述反应,与开放性相关的词语反馈(道歉,反思)和反馈的方式(说,说,指点)变得更加频繁。表3显示了用于信令和恢复3为了衡量这种效果,我们训练了一个模型,其中人物角色被用于BST,并证实该模型最终确实道歉太多,在一般对话背景下,25%的回应被回答为“对不起”,只有40%在上下文中是合适的。+v:mala2277获取更多论文SaFeRDialogues(回收率)4克%SaFeRDialogues(Signaling)4克%BST4克%1、让我知道4%对1%的人来说是件好事你喜欢百分之一2、对不起3%好东西说1%你是做百分之一3感谢你让我2%这条消息不是1%你知不百分之一4我消息不正确1%你是做0%的百分比5我会反思2%种族主义者说1%你有0%的百分比6我会多2%不好的东西1%我很想0%的百分比7我很抱歉1%对1%的人来说是不行的你最喜欢0%的百分比8我很抱歉1%我你喜欢做0%的百分比9将反映在这1%说点别的0%你是做0%的百分比10你让我1%这是一个非常0%抱歉听到这个0%的百分比表3:SaFeRDialogues(信令和恢复)和BST数据集中的前10个4-gram以及它们出现的响应百分比(此处显示四舍五入至最接近的整数%)。工作(Roller et al. ,2020b; Xu et al. ,2021年)。根据Roller等人的建议,使用基于BST2.7 的模型, 最 小 生 成 长 度 为 20 。 ( 2020b年)。为了证明对SD数据集的微调可以改善其他模型,我们还使用中等大小的DialoGPT(Zhanget al. ,2019年),一个345 M参数GPT2模型,在从Reddit提取的147 M对话式交换上训练,作为基础预训练模型。我们还使用了一个“中间基线”,对BST上的DialoGPT进行微调,以检查文明程度的改善的哪一部分是由于仅对通常表现更好的对话进行微调,而不关注对反馈的响应。DialoGPT模型与标准波束搜索解码一起使用,如在原始论文(Zhanget al. ,2019)。在 下 文 中 , Recovery ( BST 2.7B ) 和Recovery(DialoGPT)分别表示在SD上微调的 BST 2.7B 模 型 和 DialoGPT , 而 BST-DialoGPT表示在BST上微调的DialoGPT模型。4.3评价我们将我们的Recovery微调模型与5个基本模型进行比较,(1)BST 2.7B,(2)DialoGPT,(3) pushshift.io Reddit 2.7B模型(27亿个参数生成对话模型,使用由www.example.com托管的第三方提取和获得的先前存在的Reddit数据集pushshift.io(Baumgartner et al. ,2020)),(4)Xu等人(2021)的具有对抗安全层的BST 2.7B模型,并且对于一些实验,(5)BST-DialoGPT。我 们在 BSTnp和 SD上 报告 测试 集困 惑 度和+v:mala2277获取更多论文F1,以衡量通用转换器。和恢复能力,以及由Xu等人的多转弯安全分类器给出的安全生成响应的百分比。 (2021年)。人类质量评估我们执行两种类型的众包人类评估,对单个话语或整个对话进行评级,众包工作者决定他们更喜欢两个模型代中的哪一个。我们在BSTnp和SD上下文中测量个体话语的礼貌性和礼貌性,以及自然交互对话中的礼貌性所提问题的详情见附录C。对于所有的人类评估,行与(p <0. 05)和
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功