为了降低参数选择的概率,我们选择了集[1,5,10,15,20]的滞后,集[10,15,20,25,30,35,40]的窗口大小和集[1,3,10,20,40]的水平。在这些参数设置下,根据RMSE、MAE、MAPE和DA四个评价指标对每种聚类方法进行评价。当实验重复10次时,每种聚类方法获得1750个样本点(即滞后集长度×窗口大小集长度×水平集长度×重复次数)。使用Python得到k-means相对于其他7种聚类方法的lag-test结果和对应的p值。举例说明P值是怎么得出来的
时间: 2023-08-08 16:06:09 浏览: 424
假设我们已经对每种聚类方法进行了实验,并且得到了对应的评价指标,如下表所示:
| 聚类方法 | RMSE | MAE | MAPE | DA |
| -------- | ---- | --- | ---- | -- |
| 方法 1 | 0.5 | 0.3 | 5% | 0.8|
| 方法 2 | 0.6 | 0.4 | 6% | 0.7|
| 方法 3 | 0.7 | 0.5 | 7% | 0.6|
接下来,我们需要使用k-means相对于其他7种聚类方法的lag-test结果和对应的p值。具体步骤如下:
1. 对每种聚类方法的评价指标进行标准化处理,使得每个指标的值都在[0, 1]之间。
2. 对每个样本点,计算其在k-means聚类方法中所属的簇和其他7种聚类方法中所属的簇是否相同。如果相同,则记为一次匹配;否则记为一次不匹配。
3. 对所有样本点的匹配情况进行统计,得到匹配次数$n$和不匹配次数$m$,并计算出比例$p=n/(n+m)$。
4. 假设k-means聚类方法和其他7种聚类方法的匹配概率相等,则$p$服从二项分布$B(n+m, 0.5)$。因此,我们可以计算出$p=0.5$下的$p$-值,即$p$-值等于$1-\sum_{i=0}^{n-1}{{n+m}\choose{i}}0.5^{n+m}$。
例如,假设在实验中,k-means聚类方法和其他7种聚类方法的匹配情况如下:
| 样本点 | k-means | 方法 1 | 方法 2 | 方法 3 | 方法 4 | 方法 5 | 方法 6 | 方法 7 |
| ------ | ------- | ------ | ------ | ------ | ------ | ------ | ------ | ------ |
| 1 | 1 | 1 | 0 | 0 | 0 | 0 | 0 | 0 |
| 2 | 2 | 1 | 0 | 0 | 0 | 0 | 0 | 0 |
| 3 | 3 | 0 | 1 | 0 | 0 | 0 | 0 | 0 |
| 4 | 3 | 0 | 0 | 0 | 1 | 0 | 0 | 0 |
其中,第一列表示样本点的编号,第二列表示k-means聚类方法所属的簇,后面的列表示其他7种聚类方法所属的簇。我们可以计算出$n=2$,$m=2$,$p=0.5$。假设显著性水平为0.05,我们可以计算出$p$-值为0.5,因此我们不能拒绝“k-means聚类方法和其他7种聚类方法的匹配概率相等”的假设。
阅读全文