WEB日志分析与子空间聚类算法探索

需积分: 9 5 下载量 178 浏览量 更新于2024-07-30 收藏 4.24MB PDF 举报
"WEB日志和子空间聚类挖掘算法研究" 在当前信息化社会中,数据挖掘技术已经成为从海量数据中提取有价值信息的关键手段。尤其是在WEB应用领域,随着互联网的飞速发展,WEB日志记录了用户的浏览行为,蕴含着丰富的用户行为模式和潜在的商业价值。本文主要探讨了WEB日志和子空间聚类挖掘算法的研究,旨在提升数据挖掘的效率和准确性。 首先,论文关注的是基于WEB日志的查询词翻译问题。通过对WEB日志的深入分析,作者胡蓉提出了一种名为MTQC(Multi-language Term Query Translation)的查询词翻译挖掘框架。MTQC利用双语言URL的对应关系,以及URL与查询词之间的联系,通过两个步骤实现翻译对的挖掘:首先,识别双语言URL对;然后,匹配相应的查询词翻译对。MTQC-1和MTQC-2是基于此框架的挖掘算法,它们有以下几个优点:能够发现未在字典中出现的词的翻译;能够提取与目标语言翻译语义相关的查询词;不需要下载网页,直接从日志中获取翻译,避免了分词和短语边界识别错误的风险;并且能够及时响应最新的、热门的查询词,解决了多义词选择的问题。实验结果显示,与现有的流行方法相比,MTQC-1和MTQC-2在处理未在字典中存在的查询词和常见查询词时表现更优。 其次,针对WEB日志中的大规模数据,论文还研究了基于样式相似性的最大子空间聚类问题。传统的子空间聚类算法往往无法捕捉到基于样式相似性的聚类,而现有的一些样式相似性聚类算法则存在一些缺陷。为此,提出了EMaPle(Extended Maximal Pattern with Local and Global Pruning),这是一种新的算法,能够同时满足一致性、大小和符号约束。EMaPle在小规模属性空间上计算MDSc(Maximal Dependency Set with Consistency),采用全局和局部修剪规则来优化结果。实验结果证明,EMaPle在真实和人造数据集上的性能显著优于经典的MaPle算法。 这篇博士学位论文深入研究了WEB日志分析中的两大关键问题,即查询词翻译和最大子空间聚类,并提出了有效的解决方案。这些研究不仅对计算机科学领域的理论研究有所贡献,而且对于实际的WEB应用,如搜索引擎优化、个性化推荐系统和用户行为分析等,都具有重要的实践意义。