基于字符粒度fastText的SMP2018 ECDT用户意图分类：短文本挑战与优化策略

需积分: 0 183 浏览量更新于2024-08-05 收藏 146KB PDF 举报

在本文中，北京来也网络科技有限公司的唐梓毅研究团队专注于用户意图领域分类这一关键问题，特别是在SMP2018 ECDT评测中。用户意图领域分类作为人机对话系统的核心组成部分，它决定了对话系统的理解和响应能力。面对口语对话场景中用户查询通常较为简短的特点，短文本分类任务显得尤为重要。该研究采用了一种创新的方法，即基于字符粒度的fastText模型。fastText是Facebook AI实验室提出的一种有效解决短文本分类和表示学习问题的工具，它利用词内部结构信息，即使是罕见或新词也能通过其子词进行预测，从而提高了模型的泛化能力。团队注意到训练数据样本量有限和文本长度较短的问题，他们引入了预训练字向量，这些预训练模型已经在大量文本数据上进行了训练，能够捕捉到丰富的语言信息，增强了模型的表达能力。此外，团队还利用领域实体和领域正则进行进一步优化。领域实体是指对话上下文中特定的实体名称或关键词，它们能帮助模型更好地理解对话的主题。领域正则则是通过对特定领域的规则建模，提升了模型对特定领域语义的理解。这两种策略都旨在增强模型在短文本中识别用户意图的准确性。实验结果显示，通过结合字符粒度的fastText、预训练字向量、领域实体和领域正则，该团队在SMP2018 ECDT评测中的用户意图领域分类任务上获得了良好的分类效果，证明了这种方法在短文本分类任务中具有显著优势。这不仅有助于提升人机对话系统的整体性能，也为未来的研究者提供了有价值的参考思路和技术路径。

基于字符粒度 fastText 的用户意图领域分类

唐梓毅

北京来也网络科技有限公司

tangziyi@laiye.com

摘

要

: 用户意图领域分类（domain classification）是人机对话系统的重要组成部分。本文针对 SMP2018

ECDT 评测用户意图领域分类任务的数据特点，采用字符粒度的 fastText 分类模型，并通过引入预训练字

向量、领域实体、领域正则等方式优化其表现，最终在测试集上达到了较好的分类结果。实验证明，字符

粒度的 fastText 在短文本的用户意图领域分类任务中有一定潜力。

关键词

: 短文本分类；fastText；预训练字向量；领域实体；领域正则

引言

近年来，人机对话技术受到了学术界和产业界的广泛关注。学术上，人机对话是人机交互最自然的方式

之一，其发展影响及推动着语音识别与合成、口语语言理解、对话管理以及自然语言生成等研究的进展；产

业上，众多产业界巨头相继推出了人机对话技术相关产品，如个人事务助理、娱乐型聊天机器人等。以上极

大地推动了人机对话技术在学术界和产业界的发展。在第七届全国社会媒体处理大会（SMP 2018）上，哈尔

滨工业大学和科大讯飞股份有限公司组织了 SMP 2018 中文人机对话技术评测（ECDT），为人机对话技术相

关的研发人员提供了一个良好的沟通平台。

在人机对话系统中，用户意图领域分类（domain classification）作为人机对话系统的第一步，通常扮演着

重要的角色，其性能好坏直接影响到系统后续模块的运行。由于口语对话场景中用户 query 通常较短，因此

领域分类属于短文本分类。传统的短文本分类主要是基于特征工程的统计学习方法，比如支持向量机（SVM）、

随机森林（RF）等，但由于短文本特征较少，因此很难取得较好的分类效果。近几年来，基于向量空间表示

（vector space representation）以及深度学习（deep learning）的方法的应用，使得短文本分类取得了长足的进

步。特别是 Facebook AI 实验室提出的 fastText

[1,2]

，被证明是一种简单而高效的短文本分类和表征学习的方法。

本文介绍我们参加 SMP2018 ECDT 评测中用户意图领域分类任务的系统，采用了基于字符的 fastText 模

型，并针对训练集样本数量有限以及文本长度较短等特点，引入预训练的字向量，以及从样本中抽取领域实

体特征、领域正则等，进一步优化领域分类效果。

用户意图领域分类系统

2.1

系统总体描述

本文提出的用户意图领域分类系统主要基于字符粒度的 fastText 模型。在此基础上，针对训练集样本

数量有限的特点，我们引入了外部语料预训练的字向量，补充必要的语义信息；针对训练集文本长度较短

的特点，我们从样本中抽取了一些领域实体特征，丰富了样本的特征以及系统的泛化能力；最后，针对一

些容易混淆的样本，我们引入领域正则修正结果，进一步减少系统的误判。

2.2

基于字符粒度的

fastText

领域分类

Facebook AI 实验室已经实验证明，对于中文的 fastText 文本分类，字符粒度的 n-gram 特征优于单词粒度

的 n-gram 特征

[3]

，我们在 SMP2018 测试集上的实验也验证了这点。因此，我们选择了字符粒度输入的 fastText

分类模型作为领域分类方案。

下载后可阅读完整内容，剩余3页未读，立即下载

学习呀三木

粉丝: 29
资源: 303

基于字符粒度fastText的SMP2018 ECDT用户意图分类：短文本挑战与优化策略

人工智能-项目实践-情感分析-基于fasttext的中文细粒度情感分类.zip

人工智能项目-基于Bi-LSTM与FastText网络舆情情感分析项目源码（高分大作业）

valohai-fasttext-example:使用 fastText 进行文本分类的生产机器学习管道

fb-fasttext-train:Facebook Fasttext实施游乐场

fastText_java-master.zip_Java 文本分类_fasttext tf-idf_java fasttext

人工智能-项目实践-检测-一个基于 fasttext + faiss 的商品内容相关推荐实现，nginx+uwsgi+flas

人工智能-项目实践-舆情分析-基于Bi-LSTM与FastText网络舆情情感分析.zip

人工智能-深度学习-基于Fasttext的中文医疗问答系统

人工智能-项目实践-智能问答-基于Fasttext的中文医疗问答系统.zip

Text-Classification-using-FastText

最新资源