SaFeRDialogues：构建安全对话反馈处理模型

74 浏览量更新于2024-06-19 收藏 1.22MB PDF 举报

"SaFeRDialogues是针对开放域对话模型的一种新方法，旨在改善其安全性并有效处理对话反馈。此方法关注的是当模型在对话中出现安全故障时，如何优雅地接受并处理人类的负面反馈，以促进更文明、更具适应性的对话。论文提出了一项任务和一个包含8000个对话的数据集，该数据集记录了安全故障、反馈信号以及相应的回应。通过在该数据集上进行微调，模型能够生成人类评分员认为更有利于文明对话的回复，同时保持友好性和对话能力。研究表明，当前最先进的模型往往对反馈做出防御性或遗忘性的回应，这可能破坏用户体验并阻碍未来反馈的提供。SaFeRDialogues的目标是解决这一问题，创造一个更加安全、包容的对话环境。" 在开放域对话模型的研究中，模型的不适当语言和潜在的毒性或偏见问题一直是个挑战。例如，模型可能会产出冒犯性或攻击性的言论，导致对话伙伴给出负面反馈。为了应对这种情况，研究者们提出了在线学习策略，通过接收并利用对话伙伴的反馈来改进模型。然而，现有的模型在面对反馈时，可能会采取防御性策略，如道歉或完全忽略反馈，这不仅无法解决问题，还可能加剧对话中的不愉快。 SaFeRDialogues的贡献在于创建了一个专门针对安全故障反馈的训练任务和数据集。这个数据集包含了模型在对话中触发安全故障的实例，以及接收到的反馈和合适的回复。通过在该数据集上进行微调，模型能够学习到更适宜的响应策略，即不防御性地接受批评，而是以更加文明的方式回应，从而提高对话质量。论文中提到的一个关键观察是，人们的语言接受度因人而异，取决于他们的文化背景和个人经历。因此，一个模型可能在多数情况下表现良好，但仍会在某些特定情境下引发不满。SaFeRDialogues的目标是让模型能够更好地理解和适应这些差异，以降低冒犯他人的可能性，并鼓励用户提供有价值的反馈，进而促进模型的持续学习和优化。 SaFeRDialogues为构建更安全、更敏感的对话系统提供了新的思路，通过改进模型对反馈的处理，有望在开放域对话中创建一个更加友好、尊重多样性的交流环境。这一工作对于推动AI对话系统的社会接受度和道德规范具有重要意义。

+v：mala2277获取更多论

文

SaFeRDialogues

（回收

率）

克

SaFeRDialogues

（Signaling）4克%

BST

4克

、让我知道

对

的人来说是件好事

你喜欢

百

分

之

一

、对不起

好东西说

你是做

百

分

之

一

3感谢你让我2%

这条消息不是1%

你知不

百

分

之

一

4我

消息不正确1%

你是做

的

百

分

比

5我会反思2%

种族主义者说1%

你有

的

百

分

比

6我会多2%

不好的东西1%

我很想

的

百

分

比

7我很抱歉1%

对1%的人来说是不行的

你最喜欢

的

百

分

比

8我很抱歉1%

我

你喜欢做

的

百

分

比

9将反映在这1%

说点别的0%

你是做

的

百

分

比

10你让我1%

这是一个非常0%

抱歉听到这个

的

百

分

比

表3：SaFeRDialogues（信令和恢复）和BST数据集中的前10个4-gram以及它们出现的响应百分比（此

处显示四舍五入至最接近的整数%）。

工作（Roller et al. ， 2020b; Xu et al. ， 2021

年）。根据Roller等人的建议，使用基于BST

2.7

的模型，最小生成长度为

。（

2020b

年）。

为了证明对

数据集的微调可以改善其他模

型，我们还使用中等大小的DialoGPT（Zhang

et al. ， 2019 年），一个 345 M 参数 GPT2 模

型，在从Reddit提取的147 M对话式交换上训

练，作为基础预训练模型。我们还使用了一个

“

中间基线

”

，对

BST

上的

DialoGPT

进行微调，

以检查文明程度的改善的哪一部分是由于仅对

通常表现更好的对话进行微调，而不关注对反

馈的响应。DialoGPT模型与标准波束搜索解

码一起使用，如在原始论文（

Zhanget al.

，

2019）。

在下文中， Recovery （ BST 2.7B ）和

Recovery

（

DialoGPT

）分别表示在

上微调

的 BST 2.7B 模型和 DialoGPT ，而 BST-

DialoGPT表示在BST上微调的DialoGPT模型。

4.3

评价

我们将我们的Recovery微调模型与5个基本模型

进行比较，（1）BST 2.7B，（2）DialoGPT，

(3)

pushshift.io Reddit 2.7B

模型（

亿个参数生

成对话模型，使用由www.example.com托管的

第三方提取和获得的先前存在的Reddit数据集

pushshift.io（ Baumgartner et al. ， 2020）），

（

）

等人（

2021

）的具有对抗安全层的

BST 2.7B模型，并且对于一些实验，

（

）

BST-DialoGPT

。

我们在 BSTnp 和 SD 上报告测试集困惑度和

剩余21页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

SaFeRDialogues：构建安全对话反馈处理模型

模块一项目源码(1).rar

【超强组合】基于VMD-飞蛾扑火优化算法MFO-Transformer-GRU的光伏预测算研究Matlab实现.rar

基于php实现的一个rbac权限管理微型系统+项目源码+文档说明

畅玩北海旅游网站 SSM毕业设计 附带论文.zip

【MATLAB代码】二维平面上的TDOA，使用加权最小二乘法，不限制锚点数量（锚点数量>3即可）

【活字格插件】文件复制

基于vue和element-ui实现的可视化表单设计器，让表单开发简单而高效；高级版本目前已支持 Vue3

【java毕业设计】美好生活日志网源码（ssm+jsp+mysql+说明文档+LW）.zip

基于java+sqlserver实现的电子通讯录（带系统托盘）(源码+数据库+系统详细配置方法)

入职资料整理小程序，能够整理入职资料

最新资源

畅玩北海旅游网站 SSM毕业设计附带论文.zip