代价敏感决策树在劣质数据处理中的应用

0 下载量 161 浏览量更新于2024-06-28 收藏 2.33MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

试读

16页

"该资源是一篇关于在劣质数据上构建代价敏感决策树的学术论文，由齐志鑫、王宏志、周雄、李建中和高宏等人撰写，发表在《软件学报》2019年第30卷第3期。文章探讨了在大数据背景下，由于数据质量下降，如何在建立代价敏感决策树时考虑数据清洗代价的问题。作者提出了3种融合数据清洗算法的决策树构建方法，并通过实验验证了这些方法的有效性。" 代价敏感决策树是一种机器学习模型，它的目标是通过最小化误分类代价和测试代价来构建决策树。在传统决策树构建过程中，数据的质量至关重要，因为错误或劣质的数据会影响属性选择和决策树节点的划分，导致模型性能下降。然而，随着数据量的迅速增长，数据质量问题日益突出。数据清洗是解决这个问题的一个方法，但这个过程通常需要大量的时间和经济投入。在实际应用中，考虑到数据清洗的代价，用户可能会设定一个可接受的最大清洗代价阈值。因此，除了误分类代价和测试代价外，数据清洗的代价也成为构建代价敏感决策树时不可忽视的因素。现有的决策树构建方法并未充分考虑这一因素。针对这一挑战，论文提出了3种结合数据清洗算法的代价敏感决策树构建方法。这些方法旨在在满足用户设定的数据清洗代价限制下，优化决策树的构建过程。通过实验，作者证明了这些新方法能够有效地平衡模型性能和数据清洗成本，从而提高了决策树在劣质数据上的适用性和效率。关键词涉及的主题包括代价敏感决策树、劣质数据、数据清洗、误分类代价和测试代价。文章的分类号为TP311，表明它属于计算机科学与技术领域的数据处理类别。这篇论文的中文引用格式和英文引用格式也已给出，方便后续的文献引用。

资源推荐