优化潜在语义标引：增广空间模型与子空间分割策略

33 浏览量更新于2024-08-28 收藏 527KB PDF 举报

"基于子空间优化的潜在语义标引技术研究" 本文主要探讨了潜在语义标引（Latent Semantic Indexing, LSI）这一无监督的特征抽取技术，并提出了针对其优化的新方法——增广空间模型。潜在语义标引在信息检索等领域已经得到了广泛的认可，其核心是通过分析文本数据的共现矩阵来捕获词汇的隐含语义关系。然而，LSI的效果很大程度上取决于数据的特征分布，因此对数据的优化对于提升LSI的性能至关重要。文中提出了一种数据分割策略，该策略结合文档长度和特征的文档频率（Document Frequency, DF）值分布状态，旨在使子空间能够保留原始空间的结构特性。这种策略的目的是使得每个子空间能更好地反映整体数据的特征，从而提高处理效率和准确性。实验结果显示，合理的子空间分割不仅保证了分类的正确率，还显著减少了算法的运行时间。此外，作者还引入了增广空间模型，这是一种用于集成不同子空间的方法。通过在各个子空间之间建立联系，增广空间模型能够融合多个子空间的信息，进一步提升LSI的性能。在实际的分类实验中，应用此方法后的分类正确率达到了85.92%，显示出了该优化技术的有效性。这篇研究工作是由季铎、常利伟和蔡东风在沈阳航空航天大学知识工程研究中心完成的，得到了国家自然科学基金的支持。文章强调了在LSI中进行数据优化的重要性，特别是在使用文档长度和DF值分布状态作为分割依据时，能够显著提升系统的效率和准确性。此外，通过增广空间模型实现子空间的融合，是提高LSI性能的一种创新方法，对于未来的信息检索和自然语言处理研究具有指导意义。关键词：潜在语义标引；文档频度(DF)值分布分割；增广空间模型；系统融合该研究为LSI的优化提供了一个新的视角，对于信息检索和文本挖掘领域的研究者来说，这是一个值得深入研究的方向，尤其是如何更有效地利用数据特性来提升无监督学习方法的性能。

展开