def compare(text1, text2): similarities = [] text1 = ("text_new:\n", text_new) text2 = ("text_old:\n", text_old) for i in range(len(text1)): for j in range(len(text2)): tf_idf_vectorizer = TfidfVectorizer() tf_idf_vectors = tf_idf_vectorizer.fit_transform([text1[i], text2[j]]) cosine_similarities = cosine_similarity(tf_idf_vectors) similarities.append(cosine_similarities[0, 1]) print (similarities)这段代码可以比较出结果，但结果会随着文本的增多而变小，怎么修改？

时间: 2024-02-19 07:58:49 浏览: 170

这段代码的问题在于每个文本都会与其他所有文本进行比较，并且每一次比较都会使用新的 TfidfVectorizer 对象进行计算。这样会导致计算出的相似度值被稀释，因为每个文本都会有很多与其他文本不相关的词汇。为了解决这个问题，可以考虑以下几点： 1. 只比较最新的文本和之前的最后一个文本，而不是每个新文本都与之前的所有文本进行比较。 2. 保持一个全局的 TfidfVectorizer 对象，而不是每一次比较都创建一个新的对象。 3. 可以考虑使用其他的相似度算法，例如余弦相似度的变种。下面是修改后的代码示例： ``` python from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.metrics.pairwise import cosine_similarity # 定义一个全局的 TfidfVectorizer 对象 tf_idf_vectorizer = TfidfVectorizer() # 存储之前的文本 text_old = "" def compare(text_new): global text_old similarities = [] # 比较最新的文本和之前的最后一个文本 tf_idf_vectors = tf_idf_vectorizer.fit_transform([text_old, text_new]) cosine_similarities = cosine_similarity(tf_idf_vectors) similarities.append(cosine_similarities[0, 1]) # 更新之前的文本 text_old = text_new return similarities ``` 这个修改后的代码只会比较最新的文本和之前的最后一个文本，而不是每个新文本都与之前的所有文本进行比较。同时，我们使用了一个全局的 TfidfVectorizer 对象来计算相似度，保证了每次比较使用的都是同一个对象，避免了相似度被稀释的问题。

阅读全文

相关推荐

蛋白质序列分析：二维光谱图表示与相似性比较

3D蛋白序列新描述符：结构关联的比较与ND5蛋白实例验证

余弦相似度在推文查找中的应用：使用tfidfvectorizer

优化这款代码def compare(): text1 = text_new text2 = text_old tf_idf_vectorizer = TfidfVectorizer() tf_idf_vectors = tf_idf_vectorizer.fit_transform([text1, text2]) cosine_similarities = cosine_similarity(tf_idf_vectors) return cosine_similarities[0, 1]增加逐一对比功能

【GLM and Linear Regression】: Exploring the Similarities and Differences Between Generalized Linear...

Time Series Data Preprocessing: Experts Teach Standardization and Normalization Techniques

FuzzyWuzzy快速入门指南：5分钟掌握Python文本相似度分析秘诀

字典树在实际项目中的应用案例：搜索引擎、推荐系统，打造用户体验

Word2Vec模型在信息检索领域的应用

CherubNLP：探索.NET Core下的自然语言处理技术

Java相似度计算库：pHash编译版与SimMetrics集成

基于springboot的酒店管理系统源码（java毕业设计完整源码+LW）.zip

蓄电池与超级电容混合储能并网matlab simulink仿真模型 （1）混合储能采用低通滤波器进行功率分配，可有效抑制功率波动，并对超级电容的soc进行能量管理，soc较高时多放电，较低时少放电

017 - 搞笑一句话台词.docx

基于微信小程序的购物系统+php后端毕业源码案例设计全部资料+详细文档.zip

基于APS.net的办公物品管理系统全部资料+详细文档.zip

大家在看

MariaDB Galera Cluster 集群配置（MariaDB5.5.63亲测可用）

初等数论及其应用-第五版-华章-Kenneth.H.Rosen

基于plc自动门控制的设计毕业论文正稿.doc

得利捷DLCode软件使用手册V1.3.pdf

AWS(亚马逊)云解决方案架构师面试三面作业全英文作业PPT

最新推荐

基于springboot的酒店管理系统源码（java毕业设计完整源码+LW）.zip

蓄电池与超级电容混合储能并网matlab simulink仿真模型 （1）混合储能采用低通滤波器进行功率分配，可有效抑制功率波动，并对超级电容的soc进行能量管理，soc较高时多放电，较低时少放电

017 - 搞笑一句话台词.docx

WildFly 8.x中Apache Camel结合REST和Swagger的演示

管理建模和仿真的文件

【声子晶体模拟全能指南】：20年经验技术大佬带你从入门到精通

2024-07-27怎么用python转换成农历日期

FDFS客户端Python库1.2.6版本发布

"互动学习：行动中的多样性与论文攻读经历"

传感器集成全攻略：ICM-42688-P运动设备应用详解

蓄电池与超级电容混合储能并网matlab simulink仿真模型（1）混合储能采用低通滤波器进行功率分配，可有效抑制功率波动，并对超级电容的soc进行能量管理，soc较高时多放电，较低时少放电

蓄电池与超级电容混合储能并网matlab simulink仿真模型（1）混合储能采用低通滤波器进行功率分配，可有效抑制功率波动，并对超级电容的soc进行能量管理，soc较高时多放电，较低时少放电