流形嵌入过采样:非平衡数据分类新方法

1 下载量 99 浏览量 更新于2024-09-02 1 收藏 626KB PDF 举报
"这篇论文提出了一种新的非平衡数据分类方法,称为基于流形嵌入过采样的方法,尤其适用于工业监测数据中的异常检测。传统过采样技术在处理非线性和高维噪声数据时可能效果不佳,而该方法通过结合流形学习的非线性降维和过采样技术,提供了一个统一的框架,能更好地处理非平衡数据。实验证明,这种方法在TE过程和矿山微震两种不同的工业监测数据集上,显著提高了F1和AUC指标,表明其在大规模非平衡模式分类问题上的稳定性和有效性。" 本文关注的是非平衡数据分类问题,这是机器学习领域的一个挑战,特别是在工业监测数据中,正常状态和异常状态的数据比例通常不平衡。传统的过采样技术,如随机过采样或合成 minority class samples,可能会导致过拟合或忽视数据的非线性和高维特性。为了解决这些问题,论文提出了流形嵌入过采样方法,它首先利用流形学习来对高维数据进行非线性降维,保持数据的内在结构。流形学习是一种理论,它假设数据在低维流形上分布,即使在高维空间中也能找到其结构。 接着,过采样在流形嵌入空间进行,这有助于创建更符合原始数据特性的非线性插值样本,减少因映射回原始空间带来的计算复杂度。这样,不仅平衡了数据集,还保持了数据的结构信息,使得分类器能更好地捕获非平衡数据集的模式。在TE过程和矿山微震数据集上的实验结果显示,这种方法在F1分数和AUC(Area Under the Curve)指标上都有显著提升,证明了其在实际应用中的优势。 此外,该研究也得到了国家重点研发计划和国家自然科学基金等多个项目的资助,表明了其在学术和工业界的重要地位。通信作者程健是机器学习、计算智能和模式识别领域的专家,他和他的团队通过这项工作展示了如何结合理论和实践来解决实际问题。 基于流形嵌入过采样的非平衡数据分类方法提供了一种新的策略,对于处理非平衡数据集,特别是那些包含复杂非线性结构的工业监测数据,有着显著的优势。这种方法有望在未来的工业数据分析和异常检测任务中发挥重要作用。