请使用java编写flink消费kafka写入hive集群的demo

时间: 2024-05-14 08:11:59 浏览: 121

kafka集群搭建和使用Java写kafka生产者消费者

在本文中，我们将深入探讨如何搭建Kafka集群以及如何使用Java编写Kafka的生产者和消费者。Kafka是由LinkedIn开发并贡献给Apache软件基金会的消息队列系统，它被广泛用于实时数据流处理和大数据分析。 ### Kafka集群搭建 1. **安装依赖**: 你需要在服务器上安装Java运行环境（JRE）和ZooKeeper，因为Kafka依赖ZooKeeper进行集群管理。 2. **下载Kafka**: 从Apache Kafka官方网站下载最新稳定版本的Kafka，解压到指定目录。 3. **配置Kafka**: 修改`config/server.properties`文件，配置以下关键参数： - `broker.id`: 每个节点的唯一标识，通常从0开始。 - `zookeeper.connect`: ZooKeeper服务器的连接字符串，如`localhost:2181`。 - `log.dirs`: 日志数据存储路径。 - `listeners`: Kafka监听的网络接口和端口，例如`PLAINTEXT://your_host:9092`。 4. **配置ZooKeeper**: 修改`conf/zoo.cfg`，配置`dataDir`为ZooKeeper的数据存储目录。 5. **启动服务**: 先启动ZooKeeper，然后启动Kafka的每个节点。 6. **创建主题**：使用Kafka命令行工具`bin/kafka-topics.sh`创建主题，例如`kafka-create-topic.sh --topic my-topic --partitions 3 --replication-factor 2 --if-not-exists --zookeeper localhost:2181`。 ### Java编写Kafka生产者 1. **添加依赖**: 在你的项目中添加Kafka的Java客户端库，如Maven或Gradle中的`org.apache.kafka:kafka-clients`。 2. **创建生产者**: 创建一个`KafkaProducer`实例，传入配置，如`bootstrap.servers`（Kafka集群地址），`key.serializer`和`value.serializer`（序列化类）。 3. **发送消息**: 使用`producer.send()`方法将消息发送到特定主题。例如： ```java ProducerRecord<String, String> record = new ProducerRecord<>("my-topic", "key", "value"); producer.send(record); ``` 4. **关闭生产者**: 在完成消息发送后，记得调用`producer.close()`关闭生产者。 ### Java编写Kafka消费者 1. **添加依赖**: 和生产者一样，确保引入Kafka的Java客户端库。 2. **创建消费者**: 创建`KafkaConsumer`实例，配置包括`bootstrap.servers`，`group.id`（消费者组ID），`key.deserializer`和`value.deserializer`。 3. **订阅主题**: 使用`consumer.subscribe()`订阅一个或多个主题。 4. **消费消息**: 通过`consumer.poll(Duration)`方法获取消息，然后处理每条记录。例如： ```java ConsumerRecords<String, String> records = consumer.poll(Duration.ofMillis(100)); for (ConsumerRecord<String, String> record : records) System.out.printf("offset = %d, key = %s, value = %s%n", record.offset(), record.key(), record.value()); ``` 5. **提交偏移量**: 调用`consumer.commitSync()`手动提交消费的偏移量，或者设置自动提交。 6. **关闭消费者**: 当不再需要消费时，调用`consumer.close()`。 ### 总结 Kafka集群的搭建和Java客户端的使用是大数据处理和实时流处理的关键步骤。理解并熟练掌握这些操作将有助于构建高效、可扩展的消息传递系统。通过Java API，开发者可以轻松地实现消息的生产和消费，为各种业务场景提供实时数据支持。记得在实际操作中根据具体需求调整配置，以确保系统的稳定性和性能。

以下是一个简单的Java实现，使用Flink消费Kafka并将数据写入Hive集群。请根据实际情况进行修改并适当添加错误处理。 ```java import org.apache.flink.api.common.functions.MapFunction; import org.apache.flink.api.common.serialization.SimpleStringSchema; import org.apache.flink.streaming.api.datastream.DataStream; import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment; import org.apache.flink.streaming.connectors.kafka.FlinkKafkaConsumer; import org.apache.flink.streaming.connectors.kafka.FlinkKafkaProducer; import org.apache.flink.streaming.util.serialization.KeyedSerializationSchema; import org.apache.flink.streaming.util.serialization.KeyedSerializationSchemaWrapper; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; import org.apache.hadoop.hive.conf.HiveConf; import org.apache.hadoop.hive.metastore.api.FieldSchema; import org.apache.hadoop.hive.metastore.api.Table; import org.apache.hadoop.hive.ql.metadata.Hive; import org.apache.hadoop.hive.ql.metadata.HiveException; import org.apache.hadoop.hive.serde2.typeinfo.TypeInfoFactory; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapred.TextInputFormat; import org.apache.hadoop.mapred.lib.NullOutputFormat; import org.apache.kafka.clients.consumer.ConsumerConfig; import org.apache.kafka.clients.producer.ProducerConfig; import org.apache.kafka.common.serialization.StringSerializer; import java.io.IOException; import java.util.List; import java.util.Properties; public class FlinkKafkaHiveDemo { private static final String KAFKA_BOOTSTRAP_SERVERS = "localhost:9092"; private static final String KAFKA_TOPIC = "test"; private static final String HIVE_METASTORE_URI = "thrift://localhost:9083"; private static final String HIVE_DATABASE = "default"; private static final String HIVE_TABLE = "test"; public static void main(String[] args) throws Exception { StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); env.disableOperatorChaining(); Properties kafkaProps = new Properties(); kafkaProps.setProperty(ConsumerConfig.BOOTSTRAP_SERVERS_CONFIG, KAFKA_BOOTSTRAP_SERVERS); kafkaProps.setProperty(ConsumerConfig.GROUP_ID_CONFIG, "flink_consumer"); FlinkKafkaConsumer<String> kafkaConsumer = new FlinkKafkaConsumer<>(KAFKA_TOPIC, new SimpleStringSchema(), kafkaProps); kafkaConsumer.setStartFromEarliest(); DataStream<String> input = env.addSource(kafkaConsumer); DataStream<String> transformed = input.map(new MapFunction<String, String>() { @Override public String map(String value) throws Exception { // 进行数据转换 return value; } }); Properties hiveProps = new Properties(); hiveProps.setProperty("hive.metastore.uris", HIVE_METASTORE_URI); HiveConf hiveConf = new HiveConf(); hiveConf.addResource(hiveProps); Hive hive = Hive.get(hiveConf); try { Table table = new Table(); table.setDbName(HIVE_DATABASE); table.setTableName(HIVE_TABLE); table.setTableType("EXTERNAL_TABLE"); List<FieldSchema> columns = List.of(new FieldSchema("col1", TypeInfoFactory.stringTypeInfo.getTypeName(), "")); table.setFields(columns); table.getParameters().put("EXTERNAL", "TRUE"); table.getParameters().put("LOCATION", "/user/hive/warehouse/" + HIVE_DATABASE + ".db/" + HIVE_TABLE); hive.createTable(table); } catch (HiveException e) { e.printStackTrace(); } Configuration hadoopConf = new Configuration(); hadoopConf.set("fs.defaultFS", "hdfs://localhost:9000"); Path outputPath = new Path("/user/hive/warehouse/" + HIVE_DATABASE + ".db/" + HIVE_TABLE); FileSystem fs = FileSystem.get(hadoopConf); if (fs.exists(outputPath)) { fs.delete(outputPath, true); } Properties kafkaProducerProps = new Properties(); kafkaProducerProps.setProperty(ProducerConfig.BOOTSTRAP_SERVERS_CONFIG, KAFKA_BOOTSTRAP_SERVERS); FlinkKafkaProducer<String> kafkaProducer = new FlinkKafkaProducer<>(KAFKA_TOPIC, new KeyedSerializationSchemaWrapper<>(new SimpleStringSchema()), kafkaProducerProps, FlinkKafkaProducer.Semantic.AT_LEAST_ONCE); transformed.writeAsText("/tmp/flink-hive-output", org.apache.flink.core.fs.FileSystem.WriteMode.OVERWRITE).setParallelism(1); transformed.writeUsingOutputFormat(new HiveOutputFormat(hiveConf, HIVE_DATABASE, HIVE_TABLE)).setParallelism(1); env.execute("Flink Kafka Hive Demo"); } private static class HiveOutputFormat extends org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat<String> { private final HiveConf hiveConf; private final String database; private final String table; public HiveOutputFormat(HiveConf hiveConf, String database, String table) { super(); this.hiveConf = hiveConf; this.database = database; this.table = table; } @Override public org.apache.hadoop.mapred.RecordWriter getRecordWriter(FileSystem ignored, org.apache.hadoop.mapred.JobConf jobConf, String name, org.apache.hadoop.util.Progressable progressable) throws IOException { try { return new HiveRecordWriter(hiveConf, database, table); } catch (HiveException e) { throw new IOException(e); } } } private static class HiveRecordWriter implements org.apache.hadoop.mapred.RecordWriter<LongWritable, Text> { private final HiveConf hiveConf; private final String database; private final String table; private final org.apache.hadoop.hive.ql.metadata.Table hiveTable; private final TextInputFormat inputFormat; private final NullOutputFormat<Text, Text> outputFormat; public HiveRecordWriter(HiveConf hiveConf, String database, String table) throws HiveException { this.hiveConf = hiveConf; this.database = database; this.table = table; this.hiveTable = Hive.get(hiveConf).getTable(database, table); this.inputFormat = new TextInputFormat(); this.outputFormat = new NullOutputFormat<>(); } @Override public void write(LongWritable key, Text value) throws IOException { try { inputFormat.addInputPath(new org.apache.hadoop.mapred.FileSplit(new Path(value.toString()), 0, Long.MAX_VALUE, new String[0])); org.apache.hadoop.mapred.RecordReader<LongWritable, Text> reader = inputFormat.getRecordReader(new org.apache.hadoop.mapred.FileSplit(new Path(value.toString()), 0, Long.MAX_VALUE, new String[0]), new org.apache.hadoop.mapred.JobConf(hiveConf), null); org.apache.hadoop.mapred.OutputCollector<Text, Text> collector = outputFormat.getRecordWriter(new org.apache.hadoop.mapred.JobConf(hiveConf), null, null, null); LongWritable keyWritable = reader.createKey(); Text valueWritable = reader.createValue(); while (reader.next(keyWritable, valueWritable)) { collector.collect(null, valueWritable); } reader.close(); } catch (Exception e) { throw new IOException(e); } } @Override public void close(org.apache.hadoop.mapred.Reporter reporter) throws IOException { } } } ```

阅读全文

请使用java编写flink消费kafka写入hive集群的demo

相关推荐

Flink+Kafka的JavaAPI应用

kafka生产消费demo

请写一个flink消费kafka写入hive的demo

flink读取kafka写入到hive

flink消费kafka写入hbase

flink读取kafka写入到hive，用Java代码写一个案例

flink消费kafka数据后 再写入hive

scala写flink消费kafka后数据写入hive和doris

flink采集文本数据写入ES，flink消费kafka数据写入ES,以及一些flink相关的demo

使用java语言flink实时读取kafka写入hbase数据库

请写一个flink消费kafka的demo

flink获取kafka写入hbase

flink读取kafka写入hbase

demo flink写入kafka_flink实现将kafka数据写入kafka（java）--入门级

flink读取kafka写入到hbase

flink读kafka写入hbase的代码

flink1.16 数据写入hive样例代码

flink消费kafka数据并批量写入mysql

flink消费kafka

最新推荐

Windows平台下的Fastboot工具使用指南

管理建模和仿真的文件

DLMS规约深度剖析：从基础到电力通信标准的全面掌握

修改代码，使其正确运行

Python机器学习基础入门与项目实践

"互动学习：行动中的多样性与论文攻读经历"

【Shell脚本进阶】：wc命令行数统计的高级用法及解决方案

python编写一个程序，使得根据输入的起点和终点坐标值计算出坐标方位角

Achilles-2 原始压缩包内容解密

关系数据表示学习

flink消费kafka数据后再写入hive