融合LDA-Word2Vec与Single-Pass-SOM的高效话题检测方法

需积分: 33 2 下载量 33 浏览量 更新于2024-08-13 1 收藏 1.15MB PDF 举报
在当前网络舆情快速传播和影响力日益增强的背景下,话题检测作为网络舆情监管的关键技术,其性能直接影响到舆情分析的准确性和时效性。传统的方法在处理文本特征时存在不足,如特征提取不全面和维度过高。针对这些问题,本文提出了一种创新的解决方案——基于多特征融合的Single-Pass-SOM组合模型。 首先,文章构建了一个基于时间衰减因子的LDA(Latent Dirichlet Allocation)和Word2Vec模型的文本表示模型。LDA模型通过捕捉文档中的隐含主题,提供了深度的主题信息;Word2Vec模型则通过词向量捕获词语之间的语义关系,增强了文本的表达能力。通过将这两种模型的特征进行加权融合,并引入时间衰减因子,该模型不仅实现了降维,减少了特征维度带来的复杂性,还提高了文本特征的完整性,有助于更好地反映文本的主题内容。 接着,本文提出了Single-Pass-SOM(Self-Organizing Map)组合聚类模型,对传统SOM模型进行了改进。Single-Pass-SOM消除了初始神经元设置的难题,避免了人为设定可能引入的误差,从而提高了话题聚类的精确度和稳定性。这种单次迭代的聚类策略简化了模型的使用流程,降低了对用户专业知识的要求。 通过对比实验,研究结果明确显示,本文提出的文本表示模型和聚类方法相较于传统方法在话题检测方面表现更优。它们能够更有效地识别出网络上的热点话题,提升舆情监管的效率和准确性。因此,这种结合了多特征融合和优化聚类策略的Single-Pass-SOM模型对于实际应用具有很高的实用价值。 总结来说,这篇文章主要贡献在于: 1. 提出了一种新颖的文本表示方法,利用LDA和Word2Vec的互补优势,以及时间衰减因子来增强文本特征。 2. 推出了Single-Pass-SOM模型,提高了话题聚类的精度和算法效率。 3. 通过实证验证,展示了新模型在话题检测任务上的优越性能,为网络舆情监管提供了有力的技术支持。 参考文献: 李丰男, 孟祥茹, 焦艳菲, 张琳琳, 刘念. (2020). 基于多特征融合Single-Pass-SOM组合模型的话题检测. 计算机系统应用, 29(7), 245-250. <http://www.c-s-a.org.cn/1003-3254/7508.html>