词向量与EMD距离在短文本聚类中的应用

需积分: 10 131 浏览量更新于2024-08-31 1 收藏 1.18MB PDF 举报

"基于词向量和EMD距离的短文本聚类，通过Skip-gram模型训练词向量，利用欧式距离与EMD计算文本相似度，应用在Kmeans聚类中，提升短文本聚类效果。" 本文探讨了短文本聚类在数据挖掘中的重要性，以及传统方法在处理此类问题时面临的挑战，如高维度、数据稀疏和缺乏语义信息。针对互联网上的短文本，由于其特征稀疏、语义奇异性和动态性，导致传统的聚类算法性能不佳。为了解决这些问题，文章提出了一种创新的短文本聚类方法，结合词向量和Earth Mover's Distance (EMD)。首先，文章采用了Skip-gram模型，这是一种基于神经网络的语言模型，用于在大规模语料库中训练词向量。Skip-gram模型能够捕捉到词与词之间的上下文关系，从而生成能反映词语语义的低维向量表示。这些词向量不仅能够捕获词汇的局部结构，还能够表达词语的语义信息，使得词与词之间的相似度可以通过向量的余弦相似度或欧式距离来度量。接下来，为了进一步考虑短文本的整体相似性，文章引入了EMD距离。EMD是一种衡量两个概率分布之间差异的度量，常用于图像处理和地理信息系统。在短文本聚类中，它被用来计算两个文本的特征词向量集合之间的“运输”成本，即把一个文本的词向量分布转换为另一个文本的词向量分布所需的最小代价。这种方式考虑了词序和词的重要性，更全面地反映了文本的相似性。最后，将得到的文本相似度矩阵应用于K-means聚类算法，对短文本进行聚类。K-means是一种迭代的中心点聚类算法，通过不断调整文本分配以最小化簇内平方误差和来找到最佳的类别划分。实验结果显示，结合词向量和EMD的聚类方法在三个不同的数据集上表现优于传统的文本聚类算法，验证了该方法的有效性。关键词涵盖了短文本、EMD距离、词向量、相似度计算和聚类等核心概念，强调了本文的研究重点是提高短文本聚类的准确性和效率。通过将词向量的语义信息与EMD的全局比较相结合，该方法为处理互联网上的短文本提供了新的思路，对于文本挖掘和信息检索等领域具有实际应用价值。

　第５２卷　第７期

　Ｖｏｌ．５２　Ｎｏ．７

山　东　大　学　学　报　（理　学　版）

ＪｏｕｒｎａｌｏｆＳｈａｎｄｏｎｇＵｎｉｖｅｒｓｉｔｙ（ＮａｔｕｒａｌＳｃｉｅｎｃｅ）

２０１７年７月　

Ｊｕｌ．２０１７　

收稿日期：２０１６１１２５；网络出版时间：２０１７０６１４０９∶０２

网络出版地址：ｈｔｔｐ：／／ｋｎｓ．ｃｎｋｉ．ｎｅｔ／ｋｃｍｓ／ｄｅｔａｉｌ／３７．１３８９．Ｎ．２０１７０６１４．０９０２．０１４．ｈｔｍｌ

基金项目：国家自然科学基金资助项目（６１５７２１０２，６１６０２０７８，６１５６２０８０）；国家高技术研究发展计划（８６３）资助项目（２００６ＡＡ０１Ｚ１５１）；辽宁省

自然科学基金资助项目（２０１２０２０３１，２０１４０２０００３）；教育部留学回国人员科研启动基金和高等学校博士学科点专项科研基金资助课

题（２００９００４１１１０００２）；中央高校基本科研业务费专项资金资助

作者简介：黄栋（１９８１— ），男，硕士研究生，助理研究员，研究方向为自然语言处理、文本挖掘．Ｅｍａｉｌ：５９９６３６９５＠ｑｑ．ｃｏｍ



通讯作者：林鸿飞（１９６２— ），男，博士，教授，研究方向为搜索引擎、文本挖掘、情感计算和自然语言处理．Ｅｍａｉｌ：ｈｆｌｉｎ＠ｄｌｕｔ．ｅｄｕ．ｃｎ

　文章编号：１６７１９３５２（２０１７）０７００６６０７　　　ＤＯＩ：１０６０４０／ｊ．ｉｓｓｎ．１６７１９３５２．１．２０１６１２３

基于词向量和ＥＭＤ距离的短文本聚类

黄栋，徐博，许侃，林鸿飞



，杨志豪

（大连理工大学信息检索研究室，辽宁大连１１６０２３）

摘要：短文本聚类在数据挖掘中发挥着重要的作用，传统的短文本聚类模型存在维度高、数据稀疏和缺乏语义信

息等问题，针对互联网短文本特征稀疏、语义存在奇异性和动态性而导致的短文本聚类性能较差的问题，提出了

一种基于特征词向量的文本表示和基于特征词移动距离的短文本聚类算法。首先使用Ｓｋｉｐｇｒａｍ模型（Ｃｏｎｔｉｎｕ

ｏｕｓＳｋｉｐｇｒａｍＭｏｄｅｌ

）在大规模语料中训练得到表示特征词语义的词向量；然后利用欧式距离计算特征词相似度，

引入ＥＭＤ（ＥａｒｔｈＭｏｖｅｒ



ｓＤｉｓｔａｎｃｅ）来计算短文本间的相似度；最后将其应用到Ｋｍｅａｎｓ聚类算法中实现短文本聚

类。在３个数据集上进行的评测结果表明，效果优于传统的聚类算法。

关键词：短文本；ＥＭＤ距离；词向量；相似度计算；聚类

中图分类号：ＴＰ３９１１　　　文献标志码：Ａ

引用格式：黄栋，徐博，许侃，等．基于词向量和ＥＭＤ距离的短文本聚类［Ｊ］．山东大学学报（理学版），２０１７，５２（７）：６６７２．

ＳｈｏｒｔｔｅｘｔｃｌｕｓｔｅｒｉｎｇｂａｓｅｄｏｎｗｏｒｄｅｍｂｅｄｄｉｎｇｓａｎｄＥＭＤ

ＨＵＡＮＧＤｏｎｇ，ＸＵＢｏ，ＸＵＫａｎ，ＬＩＮＨｏｎｇｆｅｉ



，ＹＡＮＧＺｈｉｈａｏ

（ＩｎｆｏｒｍａｔｉｏｎＲｅｔｒｉｅｖａｌＬａｂｏｒａｔｏｒｙ，ＤａｌｉａｎＵｎｉｖｅｒｓｉｔｙｏｆＴｅｃｈｎｏｌｏｇｙ，Ｄａｌｉａｎ１１６０２３，Ｌｉａｏｎｉｎｇ，Ｃｈｉｎａ）

Ａｂｓｔｒａｃｔ：Ｓｈｏｒｔｔｅｘｔｃｌｕｓｔｅｒｉｎｇｐｌａｙｓａｎｉｍｐｏｒｔａｎｔｒｏｌｅｉｎｄａｔａｍｉｎｉｎｇ．Ｔｈｅｔｒａｄｉｔｉｏｎａｌｓｈｏｒｔｔｅｘｔｃｌｕｓｔｅｒｉｎｇｍｏｄｅｌｈａｓ

ｓｏｍｅｐｒｏｂｌｅｍｓ，ｓｕｃｈａｓｈｉｇｈｄｉｍｅｎｓｉｏｎａｌｉｔｙ、ｓｐａｒｓｅｄａｔａａｎｄｌａｃｋｏｆｓｅｍａｎｔｉｃｉｎｆｏｒｍａｔｉｏｎ．Ｔｏｏｖｅｒｃｏｍｅｔｈｅｓｈｏｒｔｃｏｍ

ｉｎｇｓｏｆｓｈｏｒｔｔｅｘｔｃｌｕｓｔｅｒｉｎｇｃａｕｓｅｄｂｙｓｐａｒｓｅｆｅａｔｕｒｅｓ、ｓｅｍａｎｔｉｃａｍｂｉｇｕｉｔｙ、ｄｙｎａｍｉｃｓａｎｄｏｔｈｅｒｒｅａｓｏｎｓ，ｔｈｉｓｐａｐｅｒｐｒｅｓ

ｅｎｔｓａｆｅａｔｕｒｅｂａｓｅｄｏｎｔｈｅｗｏｒｄｅｍｂｅｄｄｉｎｇｓｒｅｐｒｅｓｅｎｔａｔｉｏｎｏｆｔｅｘｔａｎｄｓｈｏｒｔｔｅｘｔｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍｂａｓｅｄｏｎｔｈｅｍｏｖ

ｉｎｇｄｉｓｔａｎｃｅｏｆｔｈｅｃｈａｒａｃｔｅｒｉｓｔｉｃｗｏｒｄｓ．Ｉｎｉｔｉａｌｌｙ，ｔｈｅｗｏｒｄｅｍｂｅｄｄｉｎｇｓｔｈａｔｒｅｐｒｅｓｅｎｔｓｓｅｍａｎｔｉｃｓｏｆｔｈｅｆｅａｔｕｒｅｗｏｒｄｗａｓ

ｇａｉｎｅｄｔｈｒｏｕｇｈｔｒａｉｎｉｎｇｉｎｌａｒｇｅｓｃａｌｅｃｏｒｐｕｓｗｉｔｈｔｈｅＣｏｎｔｉｎｏｕｓＳｋｉｐｇｒａｍＭｏｄｅｌ．Ｆｕｒｔｈｅｒｍｏｒｅ，ｕｓｅｔｈｅＥｕｃｌｉｄｅａｎｄｉｓ

ｔａｎｃｅｃａｌｃｕｌａｔｉｏｎｆｅａｔｕｒｅｗｏｒｄｓｉｍｉｌａｒｉｔｙ．Ａｄｄｉｔｉｏｎａｌｌｙ，ＥＭＤ（ＥａｒｔｈＭｏｖｅｒ



ｓＤｉｓｔａｎｃｅ）ｗａｓｕｓｅｄｔｏｃａｌｃｕｌａｔｅｔｈｅｓｉｍｉ

ｌａｒｉｔｙｂｅｔｗｅｅｎｔｈｅｓｈｏｒｔｔｅｘｔ．Ｆｉｎａｌｌｙ

，ａｐｐｌｙｔｈｅｓｉｍｉｌａｒｉｔｙｂｅｔｗｅｅｎｔｈｅｓｈｏｒｔｔｅｘｔｔｏＫｍｅａｎｓｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍｉｍｐｌｅ

ｍｅｎｔｅｄｉｎｔｈｅｓｈｏｒｔｔｅｘｔｃｌｕｓｔｅｒｉｎｇ．Ｔｈｅｅｖａｌｕａｔｉｏｎｒｅｓｕｌｔｓｏｎｔｈｒｅｅｄａｔａｓｅｔｓｓｈｏｗｔｈａｔｔｈｅｅｆｆｅｃｔｏｆｔｈｉｓｍｅｔｈｏｄｉｓｓｕｐｅｒｉ

ｏｒｔｏｔｒａｄｉｔｉｏｎａｌｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍｓ．

Ｋｅｙｗｏｒｄｓ：ｓｈｏｒｔｔｅｘｔ；ｅａｒｔｈｍｏｖｅｒ



ｓｄｉｓｔａｎｃｅ；ｗｏｒｄｅｍｂｅｄｄｉｎｇｓ；ｓｉｍｉｌａｒｉｔｙｃａｌｃｕｌａｔｉｏｎ；ｃｌｕｓｔｅｒｉｎｇ

０　引言

随着移动互联网的高速发展，以移动互联网为

阵地的微信、微博、电子邮件、论坛、直播平台、点评

网站等应用已经越来越普及，其产生的大多数信息

都以短文本的形式出现。无论是论坛、在线即时聊

天工具中包含的关系数据和社会数据，还是电子商

务平台中蕴藏的电商数据和信用数据，都具有极大

的价值。文本聚类是将文本集合按照文本内在的联

系，将其聚合成多个不同类别文档集合的过程。文

档聚类不需要对实验文档的类别进行标注，没有训

下载后可阅读完整内容，剩余6页未读，立即下载

weixin_38653443

粉丝: 9

词向量与EMD距离在短文本聚类中的应用

根据word2vec词向量进行文本相似度分析

基于 word2vec 计算文本相似度的话题聚类研究

基于EMD和优化K-均值聚类算法诊断滚动轴承故障 (2012年)

论文研究-基于EMD和优化K-均值聚类算法诊断滚动轴承故障.pdf

emd.zip_EMD_EMD距离_emd 计算距离_搬土距离

基于小波包和EMD的滚动轴承故障诊断

基于小波包和EMD处理的滚动轴承故障诊断

fast EMD 距离

基于Shannon熵和EMD算法的MEMS陀螺仪信号降噪处理

基于EMD距离的数据流分布式相似性连接技术.pdf

最新资源