UELM-MapReduce:高效处理不确定数据流的并行分类器

0 下载量 136 浏览量 更新于2024-08-26 收藏 1.31MB PDF 举报
"该资源主要探讨了如何在高速不确定数据流中进行高效挖掘,提出了一种基于极端学习机(ELM)和MapReduce的并行集成分类器UELM-MapReduce。该方法旨在解决现实生活中由于仪器不精确、无线传输错误等因素导致的自然不确定性数据。" 在当前的数据挖掘领域,大多数算法都是针对精确且完整数据设计的。然而,许多实际应用中的数据存在不确定性,这可能是由仪器的不准确、无线传输错误等原因引起的。论文作者Donghong Han、Christophe Giraud-Carrier和Shuoru Li提出了一种新的解决方案,称为UELM-MapReduce,它是一种利用极端学习机(Extreme Learning Machine)和MapReduce框架处理不确定数据流的并行集成分类器。 极端学习机(ELM)是一种快速的单隐藏层前馈神经网络训练方法,它的优势在于无需反向传播,可以快速得到权重。UELM-MapReduce通过将数据流分割成连续的训练块,训练出一个高效的并行ELM基础分类器集合。每个基础分类器的权重根据其在最新测试块上的均方误差进行调整,而准确率最低的分类器会被替换,以此来应对概念漂移(Concept drifts)问题。 概念漂移是指数据分布随着时间推移发生变化的现象,这是数据流挖掘中的一个重要挑战。UELM-MapReduce通过动态调整分类器权重和替换低效分类器,能够有效地适应这种变化,保持模型的准确性。 实验结果证明,UELM-MapReduce在处理不确定数据流时,既具有较高的效率,又能够保持良好的分类精度。同时,通过MapReduce并行化处理,使得该方法能够在大规模数据集上运行,提升了处理速度,适应了大数据时代的需求。 这篇论文为不确定数据流的挖掘提供了一个新的视角,通过结合ELM的快速学习能力和MapReduce的并行计算能力,解决了数据不确定性带来的挑战,为实时和大规模的数据流分析提供了有力工具。