fuzz.token_sort_ratio("张豪",“张毫”)返回的结果只有50，但实际上我们肉眼上看，两个名字差不多

`fuzz.token_sort_ratio()` 方法虽然通常用于中文姓名的模糊匹配，但它主要是基于词汇的排序顺序，而不是字符间的直接比对。对于"张豪"和"张毫"这种情况，由于它们的字符组成几乎相同，只是笔画顺序有所调整，可能会导致排序后的结果不如预期高，尤其是当名字中字母较少或者字符排列规则性较强时。在这种情况下，你可能需要考虑其他的文本相似度算法，例如 `fuzz.partial_ratio()`，它会逐字符地计算两个字符串的部分匹配，或者 `nltk` 库中的 `edit_distance()` 函数，即Levenshtein距离，它衡量的是从一个字符串转换到另一个字符串所需的最少编辑操作次数（插入、删除或替换字符）。如果你的目的是寻找非常近似的名称，这些方法可能会提供更好的匹配结果。 ```python from fuzzywuzzy import fuzz import nltk partial_similarity = fuzz.partial_ratio(name1, name2) levenshtein_similarity = nltk.edit_distance(name1, name2) print(f"Partial similarity: {partial_similarity}%") print(f"Levenshtein similarity: {levenshtein_similarity}") ```

def match(name, choices): return process.extractOne(name, choices, scorer=fuzz.token_sort_ratio)[0] # 对每个姓名进行匹配，并统计出现次数 counts = names.groupby(lambda x: match(x, names)).count().sort_values(ascending=False) # 保存结果为 Excel 表格 counts.to_excel('counts.xlsx')这段代码正确吗

这段代码有问题，因为 `names` 变量未定义。你需要将 `names` 变量替换为你想要统计的姓名列。同时，如果你想要将结果保存为 Excel 表格，你需要将输出语句写入一个新的代码块中，如下所示： ```python # 定义一个匹配函数 def match(name, choices): return process.extractOne(name, choices, scorer=fuzz.token_sort_ratio)[0] # 对每个姓名进行匹配，并统计出现次数 counts = df41['用户名称'].groupby(lambda x: match(x, df41['用户名称'])).count().sort_values(ascending=False) # 保存结果为 Excel 表格 counts.to_excel('counts.xlsx', index=True, header=['出现次数']) ``` 在这个例子中，我们假设你想要统计 `df41` 中的 `用户名称` 列。结果将会保存到 `counts.xlsx` 文件中，并且会包含一个名为 `出现次数` 的表头。

修正代码cmeans = fuzz.cluster.cmeans # 使用网格搜索法 clf = GridSearchCV(cmeans, param_grid) cntr, _, _, _, _, _ = clf.fit(train_X.T) test_u, _, _, _, _, _ = fuzz.cluster.cmeans_predict(test_X.T, cntr, 3, error=clf.best_params_['error'], maxiter=clf.best_params_['maxiter']) test_predictions = np.argmax(test_u, axis=0)

这段修正的代码看起来比之前好多了，不过似乎还有一些小问题。首先，你需要确认 `fuzz` 和 `GridSearchCV` 这两个库被正确导入了。如果没有导入，你需要在代码的开头添加类似于以下的导入语句： ```python from sklearn.model_selection import GridSearchCV import skfuzzy as fuzz ``` 其次，你需要确保 `train_X` 和 `test_X` 这两个数据集被正确初始化，并且它们的维度是正确的。`train_X` 应该是一个形状为 `(n_features, n_samples)` 的数组，其中 `n_features` 是输入特征的数量，`n_samples` 是训练样本的数量。`test_X` 则应该是一个形状为 `(n_features, n_test_samples)` 的数组，其中 `n_test_samples` 是测试样本的数量。最后，你需要确认模型的超参数 `error` 和 `maxiter` 被正确设置。这两个参数的最佳值可以从 `GridSearchCV` 的 `best_params_` 属性中获取。所以你需要在代码中添加以下语句： ```python best_error = clf.best_params_['error'] best_maxiter = clf.best_params_['maxiter'] ``` 然后将 `best_error` 和 `best_maxiter` 传递给 `cmeans_predict` 函数，就像这样： ```python test_u, _, _, _, _, _ = fuzz.cluster.cmeans_predict(test_X.T, cntr, 3, error=best_error, maxiter=best_maxiter) ``` 有了这些修改，你的代码应该可以正确运行了。

阅读全文

fuzz.token_sort_ratio("张豪",“张毫”)返回的结果只有50，但实际上我们肉眼上看，两个名字差不多

相关推荐

Mppt_fuzz.zip_MPPT模糊控制_fuzz mppt_模糊控制 MPPT_模糊控制MPPT_模糊控制器

fuzz.zip_PID 速度_模糊_模糊PID速度_模糊比较_速度模糊PID

PID_FUZZ.rar_模糊 温度_模糊PID温度_模糊pid_模糊温度_温度模糊PID

fuzz9.rar_fuzzy controller_tank level

fuzz pid.rar_KP_Pid自整定_fuzzy pid_模糊自整定_自整定 PID

修正代码def membership_function(self, x, params): mf = fuzz.trimf(x, params) for j in range(self.n_input): rule[:, j] = self.membership_function(x[i, j], self.mf_params[j, :])

X_norm[:, i] = fuzz.interp_membership(X[:, i], X[:, i], [np.min(X[:, i]), np.max(X[:, i])])优化

优化X_norm[:, i] = fuzz.interp_membership(X[:, i], X[:, i], [np.min(X[:, i]), np.max(X[:, i])])

一个基于Qt Creator（qt,C++）实现中国象棋人机对战

热带雨林自驾游自然奇观探索.doc

冰川湖自驾游冰雪交融景象.doc

C51 单片机数码管使用 Keil项目C语言源码

基于智能算法的无人机路径规划研究 附Matlab代码.rar

前端分析-2023071100789s12

Delphi 12.3控件之Laz-制作了一些窗体和对话框样式.7z

ocaml-docs-4.05.0-6.el7.x64-86.rpm.tar.gz

大家在看

XenCenter7.6中文版

参数定义-cdh软硬件配置建议

IEC-CISPR16-1-1-2006 & IEC-CISPR22.pdf

迈瑞Benevision中心监护系统 Central Monitoring System

asltbx中文手册

最新推荐

一个基于Qt Creator（qt,C++）实现中国象棋人机对战

热带雨林自驾游自然奇观探索.doc

冰川湖自驾游冰雪交融景象.doc

C51 单片机数码管使用 Keil项目C语言源码

基于智能算法的无人机路径规划研究 附Matlab代码.rar

Windows下操作Linux图形界面的VNC工具

【SketchUp Ruby API：从入门到精通】

VMware虚拟机打开虚拟网络编辑器出现由于找不到vnetlib.dll,无法继续执行代码。重新安装程序可能会解决问题

基于Preact的高性能PWA实现定期天气信息更新

从停机到上线，EMC VNX5100控制器SP更换的实战演练

PID_FUZZ.rar_模糊温度_模糊PID温度_模糊pid_模糊温度_温度模糊PID

基于智能算法的无人机路径规划研究附Matlab代码.rar

基于智能算法的无人机路径规划研究附Matlab代码.rar