
Spark在腾讯的当前现状
作业类型:ETL,SparkSQL,Machine Learning,Graph Compute,Streaming
每天仸务数:10K+
部署模式:Gaia(8000+ Nodes,with 24 cores and 60G memory each)
底层存储: HDFS/Hive/HBase/MySQL/......
从2013年的Spark 0.6版本开始,目前的版本是Spark1.2
Spark
Spark SQL
Spark
Streaming
MLlib
(machine
learning)
Graphx
Scala/Java/
Python
ETL
HDFS Hive Table
HBase MySQL
PostgreSQL Others
评论18