上述代码,构建隐私词库都不需要用到余弦相似度计算吗,就是输出微博文本数据中与种子词相似的词汇
时间: 2024-02-23 08:57:32 浏览: 57
文本相似度算法,首先对文本分词,然后计算词频,生成词频向量,使用余弦相似度算法进行计算
是的,上述代码并没有使用余弦相似度计算来构建隐私词库。它使用了一种简单的基于规则的方法,通过匹配微博文本数据中的词汇和种子词库中的词汇进行匹配,并将匹配成功的词汇添加到隐私词库中。这种方法虽然简单,但是在一些场景下可能效果不太好,因为它无法发现那些与种子词汇语义相似但是表达方式不同的词汇。余弦相似度计算可以帮助我们发现这些语义相似的词汇,因此在一些场景下可能更为有效。
阅读全文