QAConv：信息性对话的问答数据集与模型提升

121 浏览量更新于2024-06-19 收藏 22.71MB PDF 举报

QAConv是一项重要的研究，它聚焦于信息性对话的问答数据集和模型开发。相较于开放领域的闲聊和任务导向对话，信息性对话如商务邮件、在线会议和工作聊天室具有独特的特性，如长篇幅、复杂性、非实时性和涉及深厚的专业知识。研究者们从10,259个多样化的对话中提炼出34,204个问答对，这些问题涵盖了不同类型的挑战，如跨段落的问题、自由形式提问和难以回答的问题，其中包括人工设计和机器自动生成的问题。数据集的收集过程中，通过将长对话划分为可管理的块，并利用问题生成器和对话摘要生成器工具来创建多跳问题，旨在模拟真实世界的信息查询场景。数据集提供了两种测试模式：块模式和完整模式，前者要求模型仅依赖当前对话块中的信息，后者则允许模型利用整个对话历史。这反映了实际应用中可能遇到的不同情景。实验结果显示，目前最先进的QA系统在面对信息性对话的零样本迁移学习时表现不佳，往往无法准确处理这类对话中的问题。通过在QAConv数据集上进行微调，可以显著提升系统的性能，例如在块模式和完整模式下分别提高了23.6%和13.6%的准确率。 QAConv的研究填补了对话理解和文档理解之间的空白，强调了对话数据格式和语言风格对模型训练的重要性。尽管对话AI领域的研究先前更多关注于对话问答，但QAConv的数据集和研究方法为更深入地探究信息性对话的问答问题提供了有价值的资源。这对于构建能够适应各种情境，特别是需要综合运用领域知识的智能问答系统具有重要意义，有助于推动人工智能技术在实际商业应用中的发展。

表2：不同对话来源的数据集统计信息。

BC3EnronCourt

完整块完整块完整块

问题16480969456对话40843,2574,2201254,923平均/最大单词数514.9/1,236245.2/593383.6/69,13

285.8/6,78713,143.4/19,917330.7/1,551平均/最大发言者数4.8/82.7/62.7/102.2/810.3/142.7/7

媒体Slack

完整块完整块

问题9,1555,599对话6994,8126,1384,689平均/最大单词数2,009.6/11,851

288.7/537247.2/4,777307.2/694平均/最大发言者数4.4/322.4/112.5/

154.3/14

提取的实体。我们假设这些问题是可以轻松找到答案的平凡问题，因此对于我们的数据集来说并不有

趣。

2.1.3众包QA对

我们使用两种策略来收集QA对，即人类作者和机器生成器。我们首先要求众包工作者阅读部分对话

，然后我们随机分配设置，要么让他们自己编写QA对，要么选择一个推荐的机器生成的问题来回答

。我们应用了几个即时约束条件来控制收集到的QA对的质量：1）问题应该有超过6个单词，并以问

号结尾，至少有10％的单词必须出现在源对话中；2）问题和答案不能包含第一人称和第二人称代词

（例如，我，你等）；3）答案必须少于15个单词，并且所有单词必须出现在源对话中，但不一定来

自同一文本片段。

我们从问题池中随机选择四个MG问题，并要求众包工作者回答，不提供我们的预测答案。他们可以

根据需要修改问题。为了收集无法回答的问题，我们要求众包工作者编写至少提及给定对话中的三个

实体但无法回答的问题。我们向众包工作者支付大约每小时8-10美元的报酬，平均阅读和编写一个Q

A对的时间约为4分钟。

2.1.4质量验证和数据拆分

我们设计了一种基于不同答案的过滤机制：人类作者的答案、现有QA模型的答案以及QG问题的答案

。如果所有答案的配对模糊匹配比（FZ-R）得分都低于75％，我们将进行另一轮众包调查，并要求

众包工作者选择以下选项之一：A）QA对看起来不错，B）问题无法回答，C）问题的答案错误，D）

问题的答案正确，但我更喜欢另一个答案。我们在大约40％的不确定样本上运行此步骤。我们过滤（

C）选项的问题，并将（D）选项的答案添加到真实答案中。对于标记为（B）选项的问题，我们将它

们与我们收集到的无法回答的问题结合起来。此外，我们还将1％的随机问题（从其他对话中抽样的

问题）包含在相同的数据收集批次中，并且如果众包工作者未能将此类问题标记为（B）选项，则过

滤其结果。最后，我们根据每个对话源内的抽样将数据分为80％的训练集，10％的验证集和10％的

测试集，结果为27,287个训练样本，3,414个验证样本和3,503个测试样本。在训练、验证和测试集中

，无法回答的问题分别占4.7％、4.8％和5.8％。

2.2QA分析

在本节中，我们分析了我们收集的问题和答案。我们首先调查问题类型的分布，并比较人工编写的问

题和机器生成的问题。然后，我们通过现有的命名实体识别（NER）模型和成分解析器分析答案。

2https://pypi.org/project/fuzzywuzzy

+v:mala2277获取更多论文

剩余16页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

QAConv：信息性对话的问答数据集与模型提升

对话数据集

QAConv:具有查询自适应卷积和时间提升的可解释且可概括的人员重新识别

QAConv 2.0：使用Graph Sampler提升时间特性与可解释性

基于python深度学习对船舶进行目标检测-含摄像头识别-含代码和数据集.zip

基于小程序的家具购物小程序源代码（php+小程序+mysql+LW）.zip

【电力负荷预测】基于matlab沙猫群算法优化回声神经网络SCSO-ESN电力负荷预测（多输入单输出）【Matlab仿真 5350期】.zip

基于微信的疫情期间学生请假与销假系统的设计与实现源代码（java+小程序+mysql+LW）.zip

【JCR一区级】基于matlab金豺算法GJO-CNN-BiLSTM-Attention故障诊断分类预测【Matlab仿真 5449期】.zip

基于中医药知识图谱智能问答源码+文档+全部资料.zip

机器学习（视觉识别）：真实人脸和AI生成的人脸图像数据集

最新资源