南京大学PASA大数据技术实验室发布跨平台大章鱼:R语言大数据机器学习与分析框架

版权申诉
0 下载量 76 浏览量 更新于2024-07-06 收藏 9.32MB PPTX 举报
大章鱼(Octopus)是南京大学PASA大数据技术实验室与南京大学计算机软件新技术国家重点实验室共同研发的跨平台大数据机器学习与数据分析系统,由黄宜华教授主导。这套系统是基于R语言设计的,致力于解决大数据处理中的各种复杂问题,将理论研究与实践应用相结合。 南京大学PASA大数据实验室作为国内最早专注于大数据技术研究的团队之一,自2009年起便投身于这个领域。他们的研究范围广泛,涵盖了分布式大数据存储和查询、分布式文件系统、大数据并行计算模式与系统等多个关键方向。实验室对Hadoop和Spark进行了深度优化,包括Hadoop任务调度优化、Spark RDD持久化优化,旨在提升这两种主流大数据处理框架的性能。 此外,他们还开发了并行化的机器学习和数据挖掘算法,构建了大数据机器学习系统,能够处理大规模Web信息挖掘和大规模文本语义分析等任务。实验室与国际知名机构如Google、Intel、微软亚洲研究院、百度、华为、中兴通讯等有着密切的合作,共同推动了大数据技术的发展。他们与UCBerkeley AMP实验室在Spark和分布式内存文件系统Tachyon方面的合作,进一步强化了他们的技术实力。 实验室的研究重点包括并行计算模型与框架,以及Hadoop和Spark的性能优化。针对实际应用,他们关注Hadoop作业和资源的优化调度,以及Spark中RDD持久化的效率。同时,他们在电力、电信等典型行业的大数据平台建设和分析应用上也取得了显著成果,体现了其在理论研究和产业实践之间的桥梁作用。 大章鱼系统是南京大学PASA大数据技术实验室的一项重要研究成果,它代表了中国在大数据处理和机器学习领域的前沿水平,不仅推动了国内科研进步,也为业界提供了高效、可扩展的解决方案。通过参与各类国际合作项目和行业应用研究,实验室不断积累技术和实践经验,为我国大数据技术的发展做出了重要贡献。