时间序列分类中基于孤立点检测的实例选择方法

版权申诉
0 下载量 154 浏览量 更新于2024-07-06 收藏 1.94MB PDF 举报
"Outlier Detection as Instance Selection Method for Feature Selection in Time Series Classification" 本文是一篇由David Cemernek撰写的硕士论文,旨在探讨如何在时间序列分类中利用孤立点检测作为特征选择的实例选择方法。这篇论文是软件工程与管理硕士课程的一部分,并在格拉茨科技大学提交,由Roman Kern博士指导,互动系统与数据科学研究所的Stefanie Lindstaedt教授担任负责人。论文发布于2019年2月,后来在arXiv上进行了更新。 孤立点检测是一种数据分析技术,用于识别数据集中与大多数其他数据点显著不同的观测值。在时间序列分析中,这些异常值可能代表数据收集过程中的错误、罕见事件或潜在的新模式。在机器学习任务中,如分类,异常值可能对模型性能产生负面影响,因此有效地处理它们是至关重要的。 论文的主要贡献是提出将孤立点检测作为一种实例选择策略,用于特征选择过程。传统上,特征选择涉及从原始特征集合中挑选出最相关或最有影响力的子集,以减少过拟合风险,提高模型解释性。然而,通过考虑数据实例(即每个时间序列)的异常程度,作者主张可以进一步优化这个过程。这种方法可以去除那些由于异常值导致的误导性实例,从而提高模型的稳定性和预测能力。 论文详细介绍了实施这一策略的步骤,包括选择合适的孤立点检测算法(例如基于距离的方法、统计方法或聚类方法),评估不同方法对时间序列分类性能的影响,以及如何将孤立点检测集成到特征选择框架中。此外,作者可能还比较了这种方法与其他特征选择技术(如递归特征消除、基于惩罚的方法等)的效果,并进行了实验验证,以证明其有效性。 论文还涵盖了数据预处理、模型评估指标以及可能的应用场景,如金融交易、医疗诊断或工业监控等领域的时间序列数据。作者强调,正确处理孤立点对于确保机器学习模型能够从复杂、有时噪声大的时间序列数据中准确提取信息至关重要。 总结起来,这篇论文深入探讨了孤立点检测在时间序列分类特征选择中的应用,提供了一种新颖的实例选择策略,有望改善机器学习模型的性能。通过理解和利用异常值的特性,该方法有助于提高模型的稳健性和泛化能力,对于数据挖掘、人工智能和机器学习领域的研究具有重要意义。