并行信息瓶颈下的多语种文本聚类提升

179 浏览量更新于2024-08-27 收藏 1001KB PDF 举报

本文主要探讨了一种创新的多语种文本聚类算法，该算法旨在解决传统聚类方法在处理文本数据中忽略不同语种信息互补性的问题。在当前的文本挖掘和自然语言处理中，文本数据常常包含多种语言的信息，如社交媒体上的跨语言讨论、多语言文档等。然而，传统的聚类技术往往专注于单一语言，导致得到的模式结构可能无法充分揭示数据的多元特征。作者首先采用词袋模型（Bag-of-Words Model），这是一种常见的文本表示方法，它将文本转换成一组词汇计数，忽略了词汇的顺序和语法结构，但保留了每个词语出现的频率。通过这种方法，为文本的不同语种构建了各自的独立相关变量，这些变量捕捉了每种语言的语义特征。接着，作者引入并行信息瓶颈（Parallel Information Bottleneck, PIB）原理，这是一个信息理论概念，旨在在压缩信息的同时保持关键特征。PIB允许同时考虑多个相关变量，从而更好地捕捉数据中潜在的语种互补性。通过最大化模式结构与各相关变量之间的信息共享，算法能够生成一个综合的、能反映所有语种信息的模式结构。在算法优化方面，作者提出了基于信息论的抽取合并方法，对目标函数进行调整，确保算法能够在求解过程中收敛到局部最优解。这种方法有效地解决了传统聚类算法可能陷入局部最优而导致全局性能受限的问题。实验部分展示了新算法在处理多语种文本数据方面的优越性，相比于单语种聚类算法以及已有的处理文本多语种信息的两种常见算法，它能够提供更准确、全面的聚类结果。这不仅提高了文本分析的精度，也拓展了文本聚类在多语种环境下的应用范围。总结来说，本文提出的基于并行信息瓶颈的多语种文本聚类算法是一个创新的方法，它利用信息论原理和技术手段，有效地整合了多语种信息，为文本数据的深度分析提供了新的视角和工具，对于跨语言信息检索、情感分析、知识图谱构建等领域具有重要的实际应用价值。

摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇

*国家自然科学基金项目(No. 61502434,61502432,61170223)资助

Supported by National Natural Science Foundation of China(No. 61502434,61502432,61170223)

收稿日期:2016-09-26;修回日期:2017-03-07;录用日期:2017-03-27

Manuscript received September 26, 2016; revised March 7, 2017; accepted March 27, 2017

基

于并行信息瓶颈的多语种文本聚类算法

闫小强摇摇卢耀恩摇摇娄铮铮摇摇叶阳东

(郑州大学信息工程学院摇郑州 450052)

摘摇要摇聚类算法在抽取文本数据中的模式结构时,忽略多个语种信息之间潜在的互补作用,得到的模式结构不

能充分反映数据的内在信息. 针对此问题,文中提出基于并行信息瓶颈的多语种文本聚类算法. 首先使用词袋模型

为文本数据的不同语种信息构建相应的相关变量. 然后将多种相关变量引入并行信息瓶颈方法,通过最大化地保

存模式结构与多个相关变量之间的信息,使得到的模式结构能够反映数据的多个语种信息. 最后提出基于信息论

的抽取合并方法优化文中算法的目标函数,保证其收敛到局部最优解. 实验表明,文中算法能有效处理文本数据的

多个语种信息,性能优于单语种聚类算法和现有的两类能够处理文本多语种信息的聚类算法.

关键词摇并行信息瓶颈, 多语种, 文本聚类, 信息最大化

中图法分类号摇 TP 391. 4 DOI摇 10. 16451 / j. cnki. issn1003鄄6059. 201706009

引用格式摇闫小强,卢耀恩,娄铮铮,叶阳东. 基于并行信息瓶颈的多语种文本聚类算法. 模式识别与人工智能,

2017, 30(6): 559-568.

Multilingual Documents Clustering Algorithm Based on

Parallel Information Bottleneck

YAN Xiaoqiang, LU Yaoen, LOU Zhengzheng, YE Yangdong

(School of Information Engineering, Zhengzhou University, Zhengzhou 450052)

ABSTRACT

The potential complementation between different languages is ignored while traditional clustering

algorithms discover the hidden structures in document collection. Thus, the latent information in the

collection can not be reflected by the obtained patterns. Aiming at this problem, multilingual document

clustering algorithm based on parallel information bottleneck(ML鄄IB) is proposed. Firstly, the relevant

variables of multiple language information are constructed according to the bag鄄of鄄words model. Then,the

multiple relevant variables are incorporated into the parallel information bottleneck, and the relevant

information between data patterns and multiple relevant variables is preserved maximally. Finally, to

optimize the objective function of ML鄄IB, a draw and merge method based on information theory is

proposed to guarantee the convergence of ML鄄IB to a local optimal solution. Extensive experimental

results on multilingual document datasets show that the proposed algorithm significantly outperform the

state鄄of鄄the鄄art single and multilingual clustering methods.

第 30 卷摇第 6 期模式识别与人工智能 Vol. 30摇 No. 6

2017 年 6 月 PR & AI Jun. 摇 2017

摇摇摇摇摇

摇摇摇摇

摇摇摇摇摇

摇

万方数据

下载后可阅读完整内容，剩余9页未读，立即下载

weixin_38694355

粉丝: 3
资源: 964

并行信息瓶颈下的多语种文本聚类提升

计算机研究 -中文文本聚类算法分析与研究.pdf

并行信息瓶颈提升多语种文本聚类性能

基于模型的文本聚类算法研究_尹建华_第4章_基于狄利克雷过程多项式混合模型的文本聚类算法_51_77.caj

基于STC的中文文本聚类算法

一种基于语义相似度的文本聚类算法

论文研究-基于语义列表的中文文本聚类算法.pdf

kmeans文本聚类算法

文本聚类算法TextColuster

基于相似度的文本聚类算法研究及应用

文本挖掘文献资料-基于语义距离的文本聚类算法研究

最新资源