没有合适的资源?快使用搜索试试~ 我知道了~
首页陈跃国:SQL-on-Hadoop结构化大数据分析系统性能评测
陈跃国:SQL-on-Hadoop结构化大数据分析系统性能评测
需积分: 9 83 浏览量
更新于2023-03-16
评论 1
收藏 1.16MB PDF 举报
陈跃国介绍了关系型结构大数据的概念以及特点,并阐述了TPC-DS基准对于实时大数据分析应用的局限性。近期,陈跃国进行了一次大规模的测试,利用人民大学的云平台,使用50台物理机,虚拟出了100个节点,并用使用TPC-DS生成不同规模的关系型数据,测试了开源大数据分析系统。
资源详情
资源评论
资源推荐

SQL-on-Hadoop结构化
大数据分析系统性能评测
陈跃国
中国人民大学
数据工程与知识工程教育部重点实验室

战国时代,新的大数据
系统不断涌现…
百家争鸣,孰优孰劣?

基准的意义
• 如今大数据市场形如80年代的的数据库市场
– 新的系统和产品迅速涌现,尚未形成垄断
• 传统数据库成功非常受益于基准的制定和
推广
– TPC: Transaction Processing Performance Council
• 目前缺少大数据系统之间比较的基准
– 基准制定困难:数据类型多、应用类型多、系统
复杂、负载动态等

基准测试
• 大数据基准正在建设,尚需完善
– BigBench,Berkeley Big Data Benchmark等
– 研究和产业化不能坐等公认的基准形成
• 当前交互式大数据分析系统(SQL-on-
Hadoop)非常火热
– 在Hadoop构架基础上深度借鉴MPP数据库技术
– 性能远超Hive,各说各的好,缺少公正比较
• TPC-DS可以做到100TB
– 可以用来比较SQL-on-Hadoop系统

5
近期的测试工作
• 利用人大行云平台
– 50台物理机,虚拟出100个节点
– 单节点4核,20GB内存,1TB本地磁盘存储
– 普通千兆网
• 使用TPC-DS生成关系型数据
– 300GB、1TB、3TB
• 测试开源大数据分析系统(SQL-on-Hadoop)
– Hive, Stinger, Shark
– Impala, Presto
剩余29页未读,继续阅读

















安全验证
文档复制为VIP权益,开通VIP直接复制

评论0