动态权重LDA算法：提升主题模型的语义连贯性

156 浏览量更新于2024-08-26 收藏 1.53MB PDF 举报

"基于动态权重的LDA算法旨在改进潜在狄利克雷分布（LDA）主题模型，解决高频词对主题建模的负面影响，通过动态权重赋予每个单词不同的重要性，提高主题语义连贯性和模型性能。" 潜在狄利克雷分布（LDA）是一种广泛应用于文本挖掘和自然语言处理的三层概率主题模型。它假设文本由多个主题组成，每个主题又由一组概率分布的单词构成。LDA基于词袋模型，忽略了单词顺序，仅关注文档中单词出现的频率，这简化了模型构建，但也导致高频词在主题分配中占据主导，从而降低了主题的语义连贯性。为了解决这一问题，提出了基于动态权重的LDA算法。这种算法的核心创新在于引入了动态权重机制，即在模型迭代过程中，每个单词根据其在当前主题分布下的概率动态地获得一个权重。高权重将被赋予那些在特定主题下出现概率大的关键词，而低权重则给予高频但不具特异性的词汇。这样的设计能够有效地抑制高频词的过度影响，同时提升关键信息的辨识度，从而增强主题的语义一致性。实验在四个公开数据集上进行，结果显示基于动态权重的LDA算法在多项指标上优于传统的LDA推理算法，包括主题语义连贯性、文本分类准确率、模型的泛化性能以及预测精度。这些改进对于提升主题模型的实际应用价值，尤其是在信息检索、文本分类和信息抽取等领域，有着显著的积极效果。此外，该研究得到了国家自然科学基金和江苏省科技支撑计划的支持，由苏州大学计算机科学与技术学院的研究团队完成。研究团队成员包括居亚亚、杨璐和严建峰，他们在机器学习领域有深入的研究，其中杨璐和严建峰还担任硕士生导师，指导学生在这个领域进行研究工作。基于动态权重的LDA算法是对经典LDA模型的重要改进，它通过动态调整单词的权重，增强了主题模型的性能和实用性，对于文本分析和理解提供了更精确的工具。这一成果为后续的自然语言处理和机器学习研究开辟了新的可能性，特别是在处理大量文本数据时，能更好地捕捉文本的深层结构和意义。

第

４６

卷

第

８

期

２０１９

年

８

月

计算机科学

ＣＯＭＰＵＴＥＲ

ＳＣＩＥＮＣＥ

Ｖｏｌ．４６Ｎｏ．８

Ａｕ

ｇ

．２０１９

到稿日期

：

２０１８

－

０７

－

１４

返修日期

：

２０１８

－

１０

－

２９

本文受国家自然科学基金

（

６１５７２３３９

，

６１２７２４４９

），

江苏省科技支撑计划重点项目

（

ＢＥ２０１４００５

）

资助

。

居亚亚

（

１９８９－

），

女

，

硕士生

，

主要研究方向为机器学习

，

Ｅ

－

ｍａｉｌ

：

ｙ

ａ

ｙ

ａ

ｊ

ｕ

＠

１６３．ｃｏｍ

；

杨

璐

（

１９８２－

），

女

，

副教授

，

硕士生导师

，

主要研究方向为

机器学习与软件工程

，

Ｅ

－

ｍａｉｌ

：

ｙ

ａｎ

ｇ

ｌｕ

＠

ｓｕｄａ．ｅｄｕ．ｃｎ

（

通信作者

）；

严建峰

（

１９７８－

），

男

，

副教授

，

硕士生导师

，

主要研究方向为机器学习

。

基于动态权重的

ＬＤＡ

算法

居亚亚

杨

璐

严建峰

（

苏州大学计算机科学与技术学院

江苏苏州

２１５００６

）

摘

要

潜在狄利克雷分布

（

Ｌａｔｅｎｔ

Ｄｉｒｉｃｈｌｅｔ

Ａｌｌｏｃａｔｉｏｎ

，

ＬＤＡ

）

是一种流行的三层概率主题模型

，

其实现了文本与文

本中的单词在主题层次上的聚类

。

该模型以词袋

（

Ｂａ

ｇ

ｏｆ

Ｗｏｒｄｓ

，

ＢＯＷ

）

模型为假设

，

所有单词的重要性相同

，

简化了

建模的复杂度

，

但使得主题分布倾向于高频词

，

影响了主题模型的语义连贯性

。

针对此问题

，

提出了一种基于动态权

重的

ＬＤＡ

算法

，

该算法的基本思想是每个单词在建模中具有不同的重要性

，

在迭代过程中根据单词的主题分布动态

生成相应的权重并反作用于主题建模

，

降低了高频词对建模的影响

，

提高了关键词的重要性

。

在

４

个公开数据集上的

实验表明

，

基于动态权重的

ＬＤＡ

算法在主题语义连贯性

、

文本分类准确率

、

泛化性能和精度方面比目前流行的

ＬＤＡ

推理算法表现得更加优越

。

关键词

潜在狄利克雷分布

，

主题模型

，

动态权重

中图法分类号

ＴＰ３９１

文献标识码

Ａ

ＤＯＩ

１０．１１８９６

／

ｊ

．ｉｓｓｎ．１００２

－

１３７Ｘ．２０１９．０８．０４３

ＬＤＡ

Ａｌ

ｇ

ｏｒｉｔｈｍ

Ｂａｓｅｄ

ｏｎ

Ｄ

ｙ

ｎａｍｉｃ

Ｗｅｉ

ｇ

ｈｔ

ＪＵ

Ｙａ

－

ｙ

ａ

ＹＡＮＧ

Ｌｕ

ＹＡＮ

Ｊｉａｎ

－

ｆｅｎ

ｇ

（

Ｓｃｈｏｏｌ

ｏｆ

Ｃｏｍ

ｐ

ｕｔｅｒ

Ｓｃｉｅｎｃｅ

ａｎｄ

Ｔｅｃｈｎｏｌｏ

ｇｙ

，

Ｓｏｏｃｈｏｗ

Ｕｎｉｖｅｒｓｉｔ

ｙ

，

Ｓｕｚｈｏｕ

，

Ｊｉａｎ

ｇ

ｓｕ

２１５００６

，

Ｃｈｉｎａ

）

Ａｂｓｔｒａｃｔ

Ｔｈｅ

ｌａｔｅｎｔ

Ｄｉｒｉｃｈｌｅｔ

ａｌｌｏｃａｔｉｏｎ

（

ＬＤＡ

）

ｉｓ

ａ

ｐ

ｏ

ｐ

ｕｌａｒ

ｔｈｒｅｅ

－

ｌａ

ｙ

ｅｒ

ｐ

ｒｏｂａｂｉｌｉｔ

ｙ

ｔｏ

ｐ

ｉｃ

ｍｏｄｅｌ

，

ｗｈｉｃｈ

ｉｍ

ｐ

ｌｅｍｅｎｔｓ

ｔｈｅ

ｃｌｕｓｔｅｒｉｎ

ｇ

ｏｆ

ｗｏｒｄｓ

ｉｎ

ｄｏｃｕｍｅｎｔ

ａｎｄ

ｄｏｃｕｍｅｎｔ

ａｔ

ｔｈｅ

ｔｏ

ｐ

ｉｃ

ｌｅｖｅｌ．Ｔｈｉｓ

ｍｏｄｅｌ

ｉｓ

ｂａｓｅｄ

ｏｎ

ｔｈｅ

Ｂａ

ｇ

ｏｆ

Ｗｏｒｄｓ

（

ＢＯＷ

）

ｍｏ

－

ｄｅｌ

，

ａｎｄ

ｅａｃｈ

ｗｏｒｄ

ｈａｓ

ｔｈｅ

ｓａｍｅ

ｉｍ

ｐ

ｏｒｔａｎｃｅ．Ｉｔ

ｓｉｍ

ｐ

ｌｉｆｉｅｓ

ｔｈｅ

ｃｏｍ

ｐ

ｌｅｘｉｔ

ｙ

ｏｆ

ｍｏｄｅｌｉｎ

ｇ

，

ｂｕｔ

ｍａｋｅｓ

ｔｈｅ

ｔｏ

ｐ

ｉｃ

ｄｉｓｔｒｉｂｕｔｉｏｎｓ

ｔｅｎｄ

ｔｏ

ｈｉ

ｇ

ｈ

－

ｆｒｅ

ｑ

ｕｅｎｃ

ｙ

ｗｏｒｄｓ

，

ｗｈｉｃｈ

ａｆｆｅｃｔｓ

ｔｈｅ

ｓｅｍａｎｔｉｃ

ｃｏｈｅｒｅｎｃｅ

ｏｆ

ｔｈｅ

ｔｏ

ｐ

ｉｃ

ｍｏｄｅｌ．Ｔｏ

ａｃｈｉｅｖｅ

ｔｈｉｓ

ｇ

ｏａｌ

，

ａｎ

ＬＤＡ

ａｌ

－

ｇ

ｏｒｉｔｈｍ

ｂａｓｅｄ

ｏｎ

ｄ

ｙ

ｎａｍｉｃ

ｗｅｉ

ｇ

ｈｔ

ｗａｓ

ｐ

ｒｏ

ｐ

ｏｓｅｄ．Ｔｈｅ

ｆｕｎｄａｍｅｎｔａｌ

ｉｄｅａ

ｏｆ

ｔｈｅ

ａｌ

ｇ

ｏｒｉｔｈｍ

ｉｓ

ｔｈａｔ

ｅａｃｈ

ｗｏｒｄ

ｈａｓ

ｄｉｆｆｅｒｅｎｔ

ｉｍ

ｐ

ｏｒｔａｎｃｅ．Ｉｎ

ｔｈｅ

ｉｔｅｒａｔｉｖｅ

ｐ

ｒｏｃｅｓｓ

ｏｆ

ｍｏｄｅｌｉｎ

ｇ

，

ｗｏｒｄ

ｗｅｉ

ｇ

ｈｔｓ

ａｒｅ

ｇ

ｅｎｅｒａｔｅｄ

ｄ

ｙ

ｎａｍｉｃａｌｌ

ｙ

ａｃｃｏｒｄｉｎ

ｇ

ｔｏ

ｔｈｅ

ｔｏ

ｐ

ｉｃ

ｄｉｓｔｒｉｂｕ

－

ｔｉｏｎ

ｏｆ

ｗｏｒｄｓ

ａｎｄ

ｆｅｅｄｂａｃｋ

ｔｏ

ｐ

ｉｃ

ｍｏｄｅｌｉｎ

ｇ

，

ｒｅｄｕｃｉｎ

ｇ

ｔｈｅ

ｉｎｆｌｕｅｎｃｅ

ｏｆ

ｈｉ

ｇ

ｈ

ｆｒｅ

ｑ

ｕｅｎｃ

ｙ

ｗｏｒｄｓ

ａｎｄ

ｉｍ

ｐ

ｒｏｖｉｎ

ｇ

ｔｈｅ

ｒｏｌｅ

ｏｆ

ｋｅ

ｙ

ｗｏｒｄｓ．Ｅｘ

ｐ

ｅｒｉｍｅｎｔｓ

ｏｎ

ｆｏｕｒ

ｐ

ｕｂｌｉｃ

ｄａｔａｓｅｔｓ

ｓｈｏｗ

ｔｈａｔ

ｔｈｅ

ＬＤＡ

ａｌ

ｇ

ｏｒｉｔｈｍ

ｂａｓｅｄ

ｏｎ

ｄ

ｙ

ｎａｍｉｃ

ｗｅｉ

ｇ

ｈｔ

ｃａｎ

ｂｅ

ｓｕ

ｐ

ｅｒｉｏｒ

ｔｏ

ｔｈｅ

ｃｕｒｒｅｎｔ

ｐ

ｏ

ｐ

ｕｌａｒ

ＬＤＡ

ｉｎｆｅｒｅｎｃｅ

ａｌ

ｇ

ｏｒｉｔｈｍｓ

ｉｎ

ｔｅｒｍｓ

ｏｆ

ｔｏ

ｐ

ｉｃ

ｓｅｍａｎｔｉｃ

ｃｏｈｅｒｅｎｃｅ

，

ｔｅｘｔ

ｃｌａｓｓｉｆｉｃａｔｉｏｎ

ａｃｃｕｒａｃ

ｙ

，

ｇ

ｅｎｅ

－

ｒａｌｉｚａｔｉｏｎ

ｐ

ｅｒｆｏｒｍａｎｃｅ

ａｎｄ

ｐ

ｒｅｃｉｓｉｏｎ．

Ｋｅ

ｙ

ｗｏｒｄｓ

Ｌａｔｅｎｔ

ｄｉｒｉｃｈｌｅｔ

ａｌｌｏｃａｔｉｏｎ

，

Ｔｏ

ｐ

ｉｃ

ｍｏｄｅｌ

，

Ｄ

ｙ

ｎａｍｉｃ

ｗｅｉ

ｇ

ｈｔ

１

引言

随着信息技术的迅速发展

，

网络中以文本形式呈现的信

息增长迅猛

。

如何有效地挖掘其中隐含的信息

，

正是人们当

前所面临的一大挑战

。

在此背景下

，

各种文本挖掘模型被相

继提出

，

包括文档表示模型

（

Ｔｅｒｍ

Ｆｒｅ

ｑ

ｕｅｎｃ

ｙ

－

Ｉｎｖｅｒｓｅ

Ｄｏｃｕ

－

ｍｅｎｔ

Ｆｒｅ

ｑ

ｕｅｎｃ

ｙ

，

ＴＦ

－

ＩＤＦ

）

［

１

］

、

潜在语义索引模型

（

Ｌａｔｅｎｔ

Ｓｅ

－

ｍａｎｔｉｃ

Ｉｎｄｅｘ

，

ＬＳＩ

）

［

２

］

、

概率潜在语义索引模型

（

ｐ

ｒｏｂａｂｉｌｉｓｔｉｃ

ＰＬＳＩ

）

［

３

－

４

］

和潜在狄利克雷分布

（

ＬＤＡ

）

［

５

］

。

其中

，

ＬＤＡ

是一种

处理非结构化文档集合的有效工具

，

被广泛应用于文本分

类

［

６

］

、

信息检索

［

７

］

等任务

。

参数估计是

ＬＤＡ

模型的核心

，

其

中最常用的

３

种推理算法是变分贝叶斯

（

Ｖａｒｉａｔｉｏｎａｌ

Ｂａ

ｙ

ｅｓ

，

ＶＢ

）

［

５

］

、

吉布斯采样

（

Ｇｉｂｂｓ

Ｓａｍ

ｐ

ｌｉｎ

ｇ

，

ＧＳ

）

［

８

］

和期望最大化算

法

（

Ｅｘ

ｐ

ｅｃｔａｔｉｏｎ

Ｍａｘｉｍｉｚａｔｉｏｎ

，

ＥＭ

）

［

９

－

１０

］

。

这

３

种推理算法的

优化目标差异较大

，

其中的

ＥＭ

算法是直接优化后验概率以

寻找最优拟合数据集的参数

，

因此在泛化性能和精度上都明

显优于

ＶＢ

算法和

ＧＳ

算法

［

１０

］

。

目前流行的

ＬＤＡ

算法在主题建模过程中没有较好地结

合相关的语义信息

，

这严重影响了主题的语义连贯性

、

可解释

性

［

１１

］

和文本语义表征的准确性

［

５

］

。

针对这种现象

，

通常有两

种解决方法

。

１

）

针对特定的任务

，

在建模过程中加入合适的

外部先验知识

［

１２

］

。

文献

［

１３

］

提出了一种基于单词共现的熵

加权策略以获得解释性更强的主题

，

但如何有效地获取符合

建模的

、

正确的外部先验知识始终是一大挑战

。

２

）

在建模初

始化前使用一些统计方法对数据集中的单词进行处理

。

文献

［

１４

］

和文献

［

１５

］

分别使用

ＰＭＩ

和

ＴＦ

－

ＩＤＦ

作为单词的权重

，

文献

［

１６

］

通过单词间共现的关系和主题间相似的关系获得单

词权重并将其融入到主题建模中

。

这些统计方法只是简单地

下载后可阅读完整内容，剩余5页未读，立即下载

weixin_38607479

粉丝: 3
资源: 965

动态权重LDA算法：提升主题模型的语义连贯性

一种动态改变惯性权重的自适应粒子群算法

基于NPP和LDA融合算法的人脸识别.pdf

LDA算法输出xlsx关键词权重

LDA算法输出xlsx关键词权重的代码

C++实现LDA算法的面部识别源码分享

LDA算法探索：从欧拉到现代人工智能

词聚类LDA算法在商品特征提取中的应用

主题敏感LDA算法在多文档摘要中的应用

LDA算法在医疗领域中的应用与疾病诊断

使用Python深入主题建模：LDA算法实战，揭示文本隐含结构

最新资源