KMeans聚类实验:EEG数据的情感类别与subjectID分析(ARI 0.002)

需积分: 0 2 下载量 17 浏览量 更新于2024-08-04 收藏 9.32MB DOCX 举报
本次聚类作业主要探讨了两种常用的聚类算法——KMeans和GaussianMixture在EEG数据集上的应用。该数据集包含533个脑电信号,每个信号由160维特征组成,涵盖了subjectID、videoID、emotioncategory、valence和arousal五个标记。实验目标是理解算法参数如何影响聚类结果,以及聚类结果与原始标签之间的关联。 实验过程中,首先对特征数据进行了标准化处理,然后使用KMeans和GaussianMixture分别设置不同的聚类个数,对应于情绪类别(9个)、subjectID(27个)、videoID(20个)以及valence和arousal(各2种)的已知状态。为了减少随机性的影响,每种算法都进行了10次迭代,通过内部指标(如DBI指数、类内误差平均值)和外部指标(调整后的Rand指数,ARI)来评估聚类效果。ARI越大,表示聚类一致性越好,DBI指数和类内误差越小则表明聚类质量越高。 KMeans的实验结果显示,对于emotioncategory,外部指标ARI为0.0020467,这是一个相对较低的值,表明KMeans在此任务中的表现有待提高。内部指标如avgcenterdistance为34.66,DBI为1.50,stress值较大,这可能意味着在2维降维后存在较大的数据点间距离偏差。而SubjectID的聚类性能明显更好,外部指标ARI达到0.7924,内部指标avgcenterdistance较小,显示出在subjectID识别上KMeans的效果较为显著。 GaussianMixture的结果未在文中给出,但从KMeans的部分可以推测,可能需要对比两者在不同指标下的优劣,以便选择最合适的聚类算法。此外,通过MDS(多维尺度)方法将高维数据可视化,有助于直观地理解聚类结果的空间分布和类别间的区分度。 总结来说,本实验旨在通过实际操作深入了解聚类算法在复杂EEG数据上的表现,特别是关注算法参数的选择、聚类效果的评估以及不同类别间的区别。同时,它还展示了在处理具有多标签的脑电信号数据时,如何通过多种指标综合评估聚类性能,并优化参数以提升聚类准确性和稳定性。