KnowSim:基于类型化的异构信息网络的文档相似度计算

0 下载量 7 浏览量 更新于2024-08-26 收藏 346KB PDF 举报
"KnowSim:结构化异构信息网络上的文档相似性度量"是一篇研究论文,关注于在复杂的信息检索和理解场景中提升文档相似性的精确度。传统的文本处理方法倾向于将文档表示为词袋模型(Bag-of-Words),通过余弦相似度、Jaccard系数或Dice系数来计算文档间的相似性。然而,这些方法往往忽视了文档中的实体短语和它们在上下文中的关键作用,以及不同类型实体之间的关系。 论文提出了一种新颖的文档表示方法,即将文档转化为一种类型化的异构信息网络(Heterogeneous Information Network,HIN)。在这个网络中,每个实体和关系都被赋予了特定的类型,使得文档不仅由单词构成,还包含了丰富的实体及其相互联系。这种网络结构允许不同文档之间通过共有的单词和实体进行连接,从而提供更全面的文档关联性分析。 通过将文档相似性问题转化为图的距离计算问题,KnowSim能够更好地捕捉到文档中实体和关系的丰富信息,进而提高相似性评估的准确性和深度。这种方法不仅考虑了单个词的重要性,还考虑了实体短语的整体含义以及它们在文档主题中的影响力。这对于诸如文档分类、聚类和排名等任务具有重要意义,因为它们依赖于对文档内在关联性的精细理解和挖掘。 作者Chenguang Wang、Yangqiu Song、Haoran Li、Ming Zhang和Jiawei Han分别来自北京大学电子工程与计算机科学学院以及伊利诺伊大学厄巴纳-香槟分校计算机科学系,他们的研究旨在填补传统方法的空白,推动文档相似性度量在信息技术领域的发展,并可能对未来信息检索、知识图谱和自然语言处理技术产生深远影响。