亿级数据下Hive和Impala中text、orc、parquet性能对比(一)

需积分: 0 148 浏览量更新于2024-06-25 1 收藏 506KB PDF 举报

本文是一篇关于在Hadoop生态系统中，特别是Hive和Impala两个查询引擎下，对比Text、Orc和Parquet三种数据存储格式性能表现的研究。作者首先强调了读者需要对Hadoop、Hive、Impala、Kafka和Flink等技术有一定的了解，而且环境已经配置和可用。文章分为五个部分，包括结论、文件类型简介、需求背景、实现步骤和实际测试结果。 1. 结论部分： - 在Hive中，如果只考虑查询速度，推荐使用Orc文件格式；而在Impala中，尽管Parquet文件格式的文件大小约为Orc的7倍，但查询速度仅稍有差距，因此Parquet可能是更好的选择。 - 综合查询速度和存储大小，Hive仍倾向于使用Orc，而Impala则推荐Orc，尽管Parquet由于其高效压缩和编码，常用于系统应用。 - Parquet的优势在于压缩和编码效率，但不支持更新操作和ACID特性，通常与Impala配合使用。 2. 文件类型介绍： - Parquet：高效的压缩和编码使得读取速度更快，尤其在Impala中表现突出；不支持更新和ACID特性，适用于Impala和Hive共享数据的场景。 - Text：易于分割和标记，加载速度快，适合在数据源层（ODS层）使用，但数据未压缩，占用空间大，不适合大规模数据。 - Orc：具有高压缩比，查询性能优秀，每个任务只输出单个文件，减轻NameNode压力；每个字段有轻量级索引，适合大量数据的存储和查询。文章分为两部分，第一篇主要关注数据的准备，而第二篇则会深入探讨具体的查询比较实验结果。由于篇幅原因，第一篇只介绍了背景和结论，详细的数据对比将在后续章节呈现。作者的博客链接可供读者查阅完整内容和更多实践细节。

该示例需要先在mysql中创建好表，此处省略。

2、主程序

   ps.executeUpdate();

 }

 @Override

 public void close() throws Exception {

   super.close();

   if (connection != null) {

     connection.close();

   }

   if (ps != null) {

     ps.close();

   }

 }

}

package org.kafkasource.flink.mysql.demo1.main;

import java.util.Properties;

import org.apache.flink.api.common.functions.MapFunction;

import org.apache.flink.api.common.serialization.SimpleStringSchema;

import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;

import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;

import org.apache.flink.streaming.connectors.kafka.FlinkKafkaConsumer;

import

org.apache.flink.streaming.util.serialization.JSONKeyValueDeserializationSchema;

import org.kafkasource.flink.mysql.demo1.bean.User;

import org.kafkasource.flink.mysql.demo1.sink.FlinkUserSinkMySQL;

import org.kafkasource.flink.mysql.demo1.source.KafkaProducerUser;

import org.springframework.util.StopWatch;

import com.alibaba.fastjson.JSON;

/**

* alanchan

public class App {

 private static final String topic = "t_kafka_flink_user";

 private static final String broker_list =

"server1:9092,server2:9092,server3:9092";

 public static void main(String[] args) throws Exception {

   StopWatch clock = new StopWatch();

   clock.start(App.class.getSimpleName());

   

   kafkaSinkMysql();

   

   clock.stop();

3）、验证

通过查看kafka消息队列是否在未消费或者消费数量是否与生产的数量一致。

通过插入mysql的数据总条数与kafka中生产的数量是否一致。

   System.out.println(clock.prettyPrint());

 }

 private static void kafkaSinkMysql() throws Exception {

   final StreamExecutionEnvironment env =

StreamExecutionEnvironment.getExecutionEnvironment();

   Properties props = new Properties();

   props.put("bootstrap.servers", broker_list);

   props.setProperty("enable.auto.commit", "true");

   props.put("group.id", topic);

   props.put("key.deserializer",

"org.apache.kafka.common.serialization.StringDeserializer");

   props.put("value.deserializer",

"org.apache.kafka.common.serialization.StringDeserializer");

   props.setProperty("auto.offset.reset", "latest");

   FlinkKafkaConsumer<String> fkc = new FlinkKafkaConsumer<>(topic, new

SimpleStringSchema(), props);

   // MapFunction<T, O>

   SingleOutputStreamOperator<User> user =

env.addSource(fkc).setParallelism(3).map(new MapFunction<String, User>() {

     @Override

     public User map(String value) throws Exception {

       User u = JSON.parseObject(value, User.class);

       u.setName(u.getName() + "_t");

       return u;

     }

   });

//    SingleOutputStreamOperator<User> user = env.addSource(new

FlinkKafkaConsumer<>(topic, new SimpleStringSchema(), props)).setParallelism(5)

//        .map(string -> JSON.parseObject(string, User.class));

   user.addSink(new FlinkUserSinkMySQL()); // 数据 sink 到 mysql

   env.execute("Flink Job User Kafka to MySQL");

 }

}

[alanchan@server1 ~]$ kafka-consumer-groups.sh --bootstrap-server server1:9092 -

-describe --group t_kafka_flink_user

Consumer group 't_kafka_flink_user' has no active members.

GROUP       TOPIC       PARTITION CURRENT-OFFSET LOG-END-OFFSET

LAG       CONSUMER-ID   HOST      CLIENT-ID

t_kafka_flink_user t_kafka_flink_user 0     100000000    100000000   

0        -        -        -

剩余37页未读，继续阅读

一瓢一瓢的饮alanchanchn

粉丝: 7350
资源: 69

亿级数据下Hive和Impala中text、orc、parquet性能对比(一)

1、通过亿级数据量在hive和impala中查询比较text、orc和parquet性能表现（二）

亿级数据量下hive与impala的text、orc、parquet查询性能对比分析（二）

datax支持读取parquet格式文件，支持写入parquet格式文件，修复读取orc读取数据丢失问题

hive性能调优

Impala

7-3Impala在网易大数据中的使用和优化实践.pdf

Impala与Hive实时查询性能对比

Cloudera数据分析师培训：Pig, Hive, Impala与Hadoop

文件格式基准测试：Avro, JSON, ORC, Parquet 比较分析

网易高级专家解析：Impala在大数据优化中的实战与管理

最新资源