GPU加速分析:Apache Spark上的高性能工具

需积分: 5 0 下载量 178 浏览量 更新于2024-06-21 收藏 7.15MB PDF 举报
“藏经阁-leveraging gpu-accelerated analytics on top of apache spark” 本文主要探讨了如何利用GPU加速Apache Spark上的数据分析,以应对日益增长的数据量和CPU处理能力相对滞后的挑战。GPU(图形处理器单元)在数据密集型分析中展现出超越CPU的强大性能,尤其是在内存带宽和浮点运算能力方面。 1. 计算转折点:随着数据量每年以40%的速度增长,而CPU处理能力仅以20%的速度提升,计算能力与数据增长之间的不平衡成为了一个问题。GPU的处理能力每年增长50%,为解决这一问题提供了可能的方向。 2. GPU的优势:GPU相比于CPU,拥有更高的内存带宽和浮点运算能力,这使得它们在读取和处理大量数据时表现出色。图表显示,自2007年以来,GPU的内存带宽和浮点运算能力的增长远超CPU,表明GPU在数据处理速度上有显著优势。 3. MapD核心与MapD Immerse:MapD是一家专注于GPU加速数据分析的公司,其产品MapD Core是一个基于GPU的内存数据库,能够实现高速的列式存储数据处理。MapD Immerse则是一个利用MapD Core速度和渲染能力的视觉分析引擎,提供比Tableau或其他第三方工具快100倍的查询速度,以及实时思维级别的可视化效果。 4. 系统集成:MapD解决方案不仅支持快速查询,还能够通过JDBC或与Hadoop集成,输出非可视化结果,适应不同的数据流处理需求。此外,MapD在数据流处理的生态系统中占据一席之地,可以与实时数据流配合使用,提供全面的分析能力。 5. GPU加速Apache Spark:Apache Spark作为一个分布式计算框架,结合GPU的加速能力,可以极大地提高大数据分析的效率。通过将计算任务分配给GPU,Spark可以更快地执行复杂的数据处理任务,如机器学习、深度学习等,从而实现实时或近实时的分析。 GPU加速的Apache Spark分析是应对大数据挑战的一种有效策略,MapD等解决方案通过充分利用GPU的计算能力,实现了对数据的高速处理和可视化,为现代数据分析提供了新的可能性。在当前数据驱动的时代,这种技术的应用对于提升企业决策效率和洞察力具有重要意义。

这一段讲的是什么:Abstract—A recent trojan attack on deep neural network (DNN) models is one insidious variant of data poisoning attacks. Trojan attacks exploit an effective backdoor created in a DNN model by leveraging the difficulty in interpretability of the learned model to misclassify any inputs signed with the attacker’s chosen trojan trigger. Since the trojan trigger is a secret guarded and exploited by the attacker, detecting such trojan inputs is a challenge, especially at run-time when models are in active operation. This work builds STRong Intentional Perturbation (STRIP) based run-time trojan attack detection system and focuses on vision system. We intentionally perturb the incoming input, for instance by superimposing various image patterns, and observe the randomness of predicted classes for perturbed inputs from a given deployed model—malicious or benign. A low entropy in predicted classes violates the input-dependence property of a benign model and implies the presence of a malicious input—a characteristic of a trojaned input. The high efficacy of our method is validated through case studies on three popular and contrasting datasets: MNIST, CIFAR10 and GTSRB. We achieve an overall false acceptance rate (FAR) of less than 1%, given a preset false rejection rate (FRR) of 1%, for different types of triggers. Using CIFAR10 and GTSRB, we have empirically achieved result of 0% for both FRR and FAR. We have also evaluated STRIP robustness against a number of trojan attack variants and adaptive attacks. Index Terms—Trojan attack, Backdoor attack

2023-07-24 上传