BQ语料库:大规模银行领域中文SSEI语料库与聚类标注方法

2 下载量 2 浏览量 更新于2024-08-26 收藏 308KB PDF 举报
本文主要探讨了"大规模特定领域汉语语料库的句子语义对等识别"(BQ语料库),这是一项关键的研究工作,着重于中文自然语言处理领域。BQ语料库的创建是为了支持句子语义对等识别(SSEI)的研究,这是一个重要的自然语言理解任务,旨在找出具有相同含义或意图的不同表达方式。该语料库的独特之处在于其庞大的规模,包含了来自一年在线银行客户服务日志的120,000个问题对,这些数据源自真实的商业场景,因此具有高度的实用性和代表性。 在处理如此大量的数据时,研究者提出了一种创新的基于聚类的注解方法。首先,他们利用Word Mover's Distance (WMD) 的亲和力传播(AP)算法来识别并删除具有相同答案的重复问题,这样可以简化后续的注解过程,提高效率。然后,研究团队要求注释者根据问题的意图将其划分为不同的类别,确保每个类别内的问题都具有相似的语义。 注解过程中,除了同一意图类别内的问题对,还挑选了正面和负面的样本,以展示语料库在语义匹配中的多样性。这有助于评估SSEI模型的鲁棒性和精确度,特别是在处理不同表达方式和情感色彩时。 BQ语料库作为银行领域的最大手动注释中文公共SSEI语料库,对于中文问题语义匹配、跨语言和跨域的SSEI研究具有重大价值。它不仅推动了学术界的研究进展,也为实际应用提供了丰富的训练和测试资源。此外,该语料库公开可供学术界和工业界使用,促进了知识的共享和技术创新。 在2018年的Empirical Methods in Natural Language Processing (EMNLP)会议上,这篇论文被发表,展示了BQ语料库的建设方法和初步的性能评估结果。通过对比不同的SSEI基准算法,研究者证明了BQ语料库在提升句子语义理解和模型性能方面的潜力。BQ语料库的发布标志着汉语语义对等识别研究的一个重要里程碑。