"该资源是一篇关于在劣质数据上构建代价敏感决策树的学术论文,由齐志鑫、王宏志、周雄、李建中和高宏等人撰写,发表在《软件学报》2019年第30卷第3期。文章探讨了在大数据背景下,由于数据质量下降,如何在建立代价敏感决策树时考虑数据清洗代价的问题。作者提出了3种融合数据清洗算法的决策树构建方法,并通过实验验证了这些方法的有效性。"
代价敏感决策树是一种机器学习模型,它的目标是通过最小化误分类代价和测试代价来构建决策树。在传统决策树构建过程中,数据的质量至关重要,因为错误或劣质的数据会影响属性选择和决策树节点的划分,导致模型性能下降。然而,随着数据量的迅速增长,数据质量问题日益突出。数据清洗是解决这个问题的一个方法,但这个过程通常需要大量的时间和经济投入。
在实际应用中,考虑到数据清洗的代价,用户可能会设定一个可接受的最大清洗代价阈值。因此,除了误分类代价和测试代价外,数据清洗的代价也成为构建代价敏感决策树时不可忽视的因素。现有的决策树构建方法并未充分考虑这一因素。
针对这一挑战,论文提出了3种结合数据清洗算法的代价敏感决策树构建方法。这些方法旨在在满足用户设定的数据清洗代价限制下,优化决策树的构建过程。通过实验,作者证明了这些新方法能够有效地平衡模型性能和数据清洗成本,从而提高了决策树在劣质数据上的适用性和效率。
关键词涉及的主题包括代价敏感决策树、劣质数据、数据清洗、误分类代价和测试代价。文章的分类号为TP311,表明它属于计算机科学与技术领域的数据处理类别。这篇论文的中文引用格式和英文引用格式也已给出,方便后续的文献引用。