import pandas as pd import matplotlib.pyplot as plt from sklearn.cluster import DBSCAN from sklearn import metrics # 读取CSV文件 df = pd.read_csv('D:/TJU/交通数据/obike_1.csv',encoding='gb18030') # 绘制样本点分布图 plt.scatter(df['olgt'], df['olat'], s=5) plt.xlabel('Longitude') plt.ylabel('Latitude') plt.show() # 进行聚类 eps_values = [0.01, 0.02, 0.03, 0.04, 0.05] # eps值列表 min_samples_values = [5, 10, 15, 20, 25] # min_samples值列表 silhouette_scores = [] # 轮廓系数列表 for eps in eps_values: for min_samples in min_samples_values: dbscan = DBSCAN(eps=eps, min_samples=min_samples) labels = dbscan.fit_predict(df[['olgt', 'olat']]) silhouette_scores.append(metrics.silhouette_score(df[['olgt', 'olat']], labels)) # 绘制关于eps的折线图 plt.plot(eps_values, silhouette_scores) plt.xlabel('Eps') plt.ylabel('Silhouette Score') plt.show(),报错ValueError: Number of labels is 1. Valid values are 2 to n_samples - 1 (inclusive),给出修改后的代码解决该问题
时间: 2024-01-28 14:04:04 浏览: 187
详解pandas库pd.read_excel操作读取excel文件参数整理与实例
可以尝试使用以下代码修改该问题:
```python
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.cluster import DBSCAN
from sklearn import metrics
# 读取CSV文件
df = pd.read_csv('D:/TJU/交通数据/obike_1.csv', encoding='gb18030')
# 绘制样本点分布图
plt.scatter(df['olgt'], df['olat'], s=5)
plt.xlabel('Longitude')
plt.ylabel('Latitude')
plt.show()
# 进行聚类
eps_values = [0.01, 0.02, 0.03, 0.04, 0.05] # eps值列表
min_samples_values = [5, 10, 15, 20, 25] # min_samples值列表
silhouette_scores = [] # 轮廓系数列表
for eps in eps_values:
for min_samples in min_samples_values:
dbscan = DBSCAN(eps=eps, min_samples=min_samples)
labels = dbscan.fit_predict(df[['olgt', 'olat']])
n_clusters = len(set(labels)) - (1 if -1 in labels else 0) # 计算聚类的簇数
if n_clusters > 1:
silhouette_scores.append(metrics.silhouette_score(df[['olgt', 'olat']], labels))
else:
silhouette_scores.append(-1) # 将轮廓系数置为-1
# 绘制关于eps的折线图
plt.plot(eps_values, silhouette_scores)
plt.xlabel('Eps')
plt.ylabel('Silhouette Score')
plt.show()
```
这里的修改主要是在计算轮廓系数时增加了一个判断,如果聚类结果只有1类,则将轮廓系数置为-1。这样在绘制折线图时,轮廓系数为-1的点会被忽略,只有多于1类的聚类结果才会被计算轮廓系数。
阅读全文