# 遍历数据行 for i in range(len(df)): author1 = df.loc[i, "author"] org1 = df.loc[i, "org"] max_similarity = 0 # 计算当前行与其他行的相似度 for j in range(len(df)): if i != j: author2 = df.loc[j, "author"] org2 = df.loc[j, "org"] # 计算相似度 similarity = SequenceMatcher(None, org1, org2).ratio() if author1 == author2 and similarity > max_similarity: max_similarity = similarity similarity_list.append(max_similarity)帮我优化一下，太慢了

时间: 2024-04-14 19:25:40 浏览: 96

确实，遍历数据行并计算相似度的方法可能会在数据量较大时变得较慢。为了提高效率，可以使用一种更有效的方法来处理。以下是优化后的代码示例： ```python import pandas as pd from difflib import SequenceMatcher # 读取原始数据 df = pd.read_excel("1.xlsx") # 创建空的相似度列表 similarity_list = [] # 根据 author 对数据进行分组 grouped = df.groupby("author") # 遍历每个分组 for author, group in grouped: max_similarity = 0 # 获取当前分组的 org 列数据 org_values = group["org"].tolist() # 计算当前分组内的 org 列数据两两之间的相似度 for i in range(len(org_values)): for j in range(i+1, len(org_values)): org1 = org_values[i] org2 = org_values[j] # 计算相似度 similarity = SequenceMatcher(None, org1, org2).ratio() if similarity > max_similarity: max_similarity = similarity similarity_list.extend([max_similarity] * len(group)) # 将相似度列表添加为新的一列 df["similarity"] = similarity_list # 判断是否存在相同的作者数据 duplicates = df.duplicated(subset=["author"], keep=False) # 筛选相同作者且相同组织的数据并保存到 2.xlsx same_org_df = df[duplicates & (df["similarity"] == 1)] same_org_df.to_excel("2.xlsx", index=False) # 筛选其他数据并保存到 3.xlsx other_df = df[~duplicates | (df["similarity"] != 1)] other_df.to_excel("3.xlsx", index=False) ``` 优化后的代码首先使用 `groupby()` 方法根据 `author` 列对数据进行分组。然后，遍历每个分组，依次获取当前分组的 `org` 列数据，并计算当前分组内的 `org` 列数据两两之间的相似度。相似度的计算仅在同一分组内进行，避免了不必要的重复计算。接着，将每个分组内的最大相似度值按照数据行数扩展为相似度列表 `similarity_list`。最后，根据相似度列表和作者是否重复的判断，将数据分别保存到 `2.xlsx` 和 `3.xlsx`。这种优化方法可以减少不必要的计算量，从而提高处理速度。请确保在运行代码之前已经安装了 Pandas 和 difflib 库，并将 `1.xlsx` 文件准确放置在当前工作目录下。

阅读全文

相关推荐

pandas数据选取：df[] df.loc[] df.iloc[] df.ix[] df.at[] df.iat[]

Python数据分析实践：pandas的索引处理new.pdf

Python数据分析实践：pandas的统计功能new.pdf

帮我分析一下下面代码的作用def FeatureEquals(df): dfEquals = pd.DataFrame([],columns=df.columns,index=df.columns) for i in df.columns: for j in df.columns: dfEquals.loc[i,j] = df[i].equals(df[j]) return dfEquals

# 数据处理 for i in new_df.index: new_df.loc[i,'Total Cases'] = new_df.loc[i,'Total Cases'].replace(',','') new_df.loc[i,'Total Deaths'] = new_df.loc[i,'Total Deaths'].replace(',','') new_df.loc[i,'Total Recovered'] = new_df.loc[i,'Total Recovered'].replace(',','')

for i in range(len(sh)): merged_df.loc[i,'age'] = merged_df.loc[i,'age'].where(sh.loc[i,'age'] >= th.age, np.nan) merged_df

下面这段代码是否有错误，或者不是最新格式：for i in range(len(df_stock)): # 判断是否买入 if df_stock.loc[i, 'buy_signal'] == 1 and bought == 0: buy_price = df_stock.loc[i, 'close'] # 以当天收盘价买入 df_stock.loc[i, 'bought'] = 1 # 标记已购买 bought = 1

for user_id, group in tqdm(grouped): songs = list(group['song_id']) for i in range(len(songs)): for j in range(i + 1, len(songs)): new_df.loc[len(new_df)] = [user_id, songs[i] + '#' + songs[j]]

最新推荐

pandas数据选取：df[] df.loc[] df.iloc[] df.ix[] df.at[] df.iat[]

白色大气风格的旅游酒店企业网站模板.zip

RStudio中集成Connections包以优化数据库连接管理

管理建模和仿真的文件

Keil uVision5全面精通指南

flink提交给yarn19个全量同步MYsqlCDC的作业，flink的配置参数怎样设置

PHP博客旅游的探索之旅

"互动学习：行动中的多样性与论文攻读经历"

【单片机编程实战】：掌握流水灯与音乐盒同步控制的高级技巧

java 号码后四位用‘xxxx’脱敏