hive和doris的区别

时间: 2023-11-23 10:36:44 浏览: 305

x2doris.pdf

X2Doris 是 SelectDB 开发的专门用于将各种离线数据迁移到 Apache Doris 中的核心工具，该工具集自动建表和数据迁移为一体，目前支持了 Hive, Doris (及 Doris 系) 数据库往 Doris (SelectDB Cloud) 迁移的工作，整个过程可视化的平台操作，非常简单易用，减轻数据同步到 Doris (SelectDB Cloud) 中的门槛。一、简介 X2Doris 是 SelectDB 开发的专门用于将各种离线数据迁移到 Apache Doris 中的核心工具，该工具集自动建表和数据迁移为一体，目前支持了 Hive, Doris (及 Doris 系) 数据库往 Doris (SelectDB Cloud) 迁移的工作，整个过程可视化的平台操作，非常简单易用，减轻数据同步到 Doris (SelectDB Cloud) 中的门槛。二、安装步骤 2.0 安装要求：准备部署 X2Doris 的机器必须确保可以连接要迁移的源和目标写出的 Doris/SelectDB Cloud，保证网络可以连接。 2.1 选择安装包：X2Doris 底层采用 Spark 实现，推荐部署到有 Hadoop,Yarn 的大数据环境中，这样可以充分利用大数据的集群能力，能大大提高数据迁移的效率和速度。如果没有大数据环境也可以的，单机部署即可。 2.1.1 如果有 Spark 环境：去你的 Spark 安装目录，进入到 spark/jars 下查看依赖包对应的 Scala 版本，如下：可以看到 spark-yarn_2.12-3.2.4.jar, 这里的 2.12 即为 Scala 的版本。然后下载与 Scala 版本对应的 X2Doris 安装包即可，X2Doris 安装包的文件名有 Scala 的版本，如：selectdb-x2doris_2.12-1.0.0-bin.tar.gz 就是 Scala 2.12 对应的版本。 2.1.2 没有 Spark 环境直接选择安装 Scala 2.12 的 X2Doris 版本即可。 2.2 解包安装包 tar -xzvf selectdb-x2doris_2.12-1.0.0-bin.tar.gz。三、初始化元数据： 3.1 将系统的数据库类型改成 MySQL 进入到 conf 下，修改 application.yml 将 spring.profiles.active 改成 mysql，注意默认的 H2, 是内存数据库，系统重启会导致数据丢失。 3.2 修改 conf/application-mysql.yml 文件，指定 MySQL 的连接信息。 3.3 执行脚本进入到 script 下：有两个目录，分别是 schema 和 data，先执行 schema 下的 mysql-schema.sql 完成表结构的初始化，然后执行 data 下的 mysql-data.sql 完成元数据导入。四、认证相关配置 4.1 Kerberos 如果你的 Hadoop 集群开启了 Kerberos 认证（未开启 Kerberos 认证则可以跳过此步骤），则需要配置下 Kerberos 的信息，编辑 conf/kerberos.yml :enable: true principal 和 krb5, keytab 填写实际的路径即可。 4.2 TBDS TBDS 是腾讯云大数据集群，非 TBDS 则跳过即可，编辑 conf/application-env.yml 填写如下信息即可。五、启动项目 5.1 进入到 bin 目录下，执行 startup.sh。六、登录平台 6.1 访问地址：http://$host:9090 用户名密码：admin / selectdb。七、系统设置 7.1 进入平台之后，第一步就是要进入设置中心设置系统参数，该部分参数都为必须要设置的参数，具体如下： 1. Hadoop user：指定提交作业到 Yarn 上的用户（无 Hadoop 环境跳过）。 2. Spark Home：如果你有大数据集群，且安装了 Spark，则指定下你集群的 Spark Home。 3. Hive metastore uris：如果 Hive 数据迁移到 Doris，需要知道 Hive 的 metastore uri（非 Hive 数据源跳过）。 4. 目标 Doris（SelectDB Cloud）：迁移数据的目标 Doris，或者 SelectDB Cloud 连接信息设置。其中目标 Doris（SelectDB Cloud）点击按钮，会有弹窗，直接输入相关信息即可，如下： HTTP Nodes：HTTP 连接的 host 和 port，多个用","连接，如：192.168.0.1:8030,192.168.0.1:8030。 MySQL Nodes：MySQL JDBC 连接的 host 和 port, 多个用","连接，如：192.168.0.1:9030,192.168.0.1:9030。注意：如果目标是 SelectDB Cloud 则去 SelectDB Cloud 连接信息里检查连结。

Hive和Doris都是大数据存储和分析框架，但是它们有一些不同之处： 1. 数据模型：Hive是基于Hadoop的分布式数据仓库，数据模型是表格，支持结构化和半结构化数据。而Doris则是基于列存储的分布式数据库，数据模型是行和列。 2. 查询引擎：Hive使用HiveQL查询语言，并通过MapReduce执行查询。而Doris使用Palo查询引擎，支持SQL查询语言，并使用MPP架构来加速查询。 3. 数据存储：Hive数据存储在HDFS中，而Doris则使用自己的存储引擎。 4. 数据更新：Hive不支持实时数据更新，只能支持批量导入。Doris则支持实时数据更新，并且性能更高。 5. 数据安全：Hive支持Kerberos身份验证和Apache Ranger访问控制，Doris则支持MySQL身份验证和内置访问控制。综上所述，Hive适合用于离线批量数据分析，而Doris则适合用于实时数据分析和查询。

阅读全文

hive和doris的区别

相关推荐

自动化数据库数据比对工具：实现Hive、MySQL与Doris比对

Ambari-Doris服务安装及启动顺序优化指南

scala写flink消费kafka后数据写入hive和doris

doris和hive的区别

hive导入到doris

如何把hive导入到doris

doris对比hive

hive数据导出到doris

Doris介绍、原理、安装、集成hive

doris.zip.doris.doris

doris 连接ambari hive 表

doris 创建hive 外部表 connect hive metastore failed :java lang null

doris 创建hive 外部表报错 connect hive metastore failed :java lang null

doris创建 Catalog 访问Hive得数据, Hive On Cos 配置方式, Hive使用了两个Cos桶,

Starrocks和Doris的区别

doris连接数据库

Apache Doris：大数据时代的高速OLAP分析系统

Ambari环境下Doris配置文件的客户端下载指南

YOLO算法-城市电杆数据集-496张图像带标签-电杆.zip

最新推荐

YOLO算法-城市电杆数据集-496张图像带标签-电杆.zip

(177406840)JAVA图书管理系统毕业设计(源代码+论文).rar

Java毕业设计项目：校园二手交易网站开发指南

管理建模和仿真的文件

【MVC标准化：肌电信号处理的终极指南】：提升数据质量的10大关键步骤与工具

能否提供一个在R语言中执行Framingham数据集判别分析的详细和完整的代码示例？

Blaseball Plus插件开发与构建教程

"互动学习：行动中的多样性与论文攻读经历"

【天线性能提升密籍】：深入探究均匀线阵方向图设计原则及案例分析

C#怎么把图片存入名为当前日期的文件夹里