基于互信息和邻接熵的微博新词发现算法:有效性实验

需积分: 42 3 下载量 194 浏览量 更新于2024-09-07 收藏 1.06MB PDF 举报
本文研究的论文关注于自然语言处理领域的一个关键任务——新词发现,尤其是在微博这种非结构化文本语料中的应用。当前新词发现方法存在一些挑战,比如切词错误可能导致部分新词被遗漏,而传统的n-gram方法可能会识别出大量的冗余和无关词汇。为了解决这些问题,作者提出了一种创新的算法,其核心思想是利用互信息和邻接熵。 互信息是一种衡量两个随机变量之间关联强度的统计量,作者将这个概念引入到新词发现中,通过计算候选词语与其右邻接字的互信息,逐字扩展潜在的新词。这种方法能够更准确地捕捉词语之间的关联,避免了由于固定长度窗口选择不当造成的误识别。 邻接熵则用于进一步筛选候选新词。它考虑了词语出现的上下文分布,通过评估候选词在语料库中的整体分布情况,可以有效地剔除停用词和旧词语,提高新词的识别精度。同时,删除首尾停用词也是为了减少噪声干扰,确保新词集的质量。 论文的创新之处在于将互信息和邻接熵结合,形成一种动态且高效的策略,针对微博语料的特点,实现了从左至右的逐字搜索,减少了因为切词问题而遗漏新词的可能性,并有效降低了n-gram方法导致的重复和垃圾词串作为新词的情况。 作者们还进行了实证研究,通过对比实验验证了这一新词发现算法的有效性和优越性。实验结果表明,该算法在处理未切词的微博语料时,不仅提高了新词的识别率,还能减少误识别和冗余,从而为自然语言处理中的新词挖掘提供了新的思路和方法。 总结来说,这篇论文提出了一个基于互信息和邻接熵的新词发现算法,针对微博语料的特点,优化了新词识别过程,提升了准确性。这对于文本挖掘、情感分析等领域具有重要的实践价值。同时,这项研究也为未来的文本处理技术发展提供了一个有价值的参考案例。