掌握Hive与Scala:编程工具读书笔记大全

版权申诉
0 下载量 14 浏览量 更新于2024-10-29 收藏 19KB ZIP 举报
资源摘要信息:"本书主要介绍了Hive与Scala编程的相关知识以及相关工具。首先,对于Hive的介绍,涵盖了其基本概念、架构、安装和使用。Hive是一种建立在Hadoop之上的数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供SQL查询功能。这对于处理大数据非常有用,尤其是那些使用MapReduce编程模型难以处理的任务。Hive可以处理的数据格式包括文本文件、SequenceFile、RCFile、ORC等。其次,本书对于Scala编程的介绍,包括其基础语法、高级特性、面向对象编程和函数式编程的概念,以及如何在大数据环境中利用Scala进行编程。Scala是一种多范式编程语言,融合了面向对象编程和函数式编程的特点,尤其适合于处理大规模数据。本书还介绍了一些实用的工具,如Hive命令行工具、Hive Web界面、Scala IDE和SBT等,这些工具可以极大提高开发效率。最后,本书强调了实践的重要性,鼓励读者通过实际项目来加深对Hive和Scala的理解。" 知识点: 1. Hive的基本概念和架构: - Hive是基于Hadoop的一个数据仓库工具,可以用来进行数据摘要、查询和分析。 - Hive允许用户使用类SQL语言(HiveQL)执行查询,把结构化的数据文件映射为数据库表。 - Hive通过元数据存储,如Metastore来管理表的结构信息和数据位置。 - Hive的架构包括驱动器(Driver)、编译器(Compiler)、优化器(Optimizer)、执行器(Executor)等组件。 2. Hive的安装和使用: - 安装Hive需要先配置好Hadoop环境。 - Hive的配置文件包括hive-site.xml、hive-env.sh等,用于配置Hive的运行环境、JDBC连接等。 - 使用Hive时,通常需要通过Hive命令行接口(CLI)、HiveServer2、WebHCat或者Beeline等进行交互。 3. Hive支持的数据格式: - Hive可以处理多种数据格式,如文本文件、SequenceFile、RCFile、ORC等。 - ORC(Optimized Row Columnar)格式是Hive推荐的存储格式,具有较好的压缩率和读写效率。 4. Scala编程基础: - Scala是一种多范式编程语言,支持面向对象和函数式编程。 - Scala的语法简洁,具有强大的类型推断能力。 - Scala与Java兼容,可以在Java平台上运行。 5. Scala的高级特性: - Scala拥有丰富的集合库,支持高阶函数和模式匹配。 - 它支持隐式转换和类型参数,提供了强大的泛型支持。 - Scala利用actor模型提供了并发编程的能力。 6. Scala在大数据环境中的应用: - Scala常用于Apache Spark等大数据处理框架。 - Scala与Spark的集成使得编程模型简洁,能高效处理大规模数据集。 - Spark SQL提供了处理结构化数据的能力,兼容HiveQL。 7. 实用工具介绍: - Hive命令行工具:用于执行HQL命令,进行数据的查询和管理。 - Hive Web界面:提供了一个可视化的界面来操作Hive,进行数据交互。 - Scala IDE:如IntelliJ IDEA配合Scala插件,是Scala开发的常用集成开发环境。 - SBT(Simple Build Tool):是一个Scala项目构建工具,用于项目的编译、测试和打包。 8. 实践的重要性: - 通过实际项目进行学习是理解Hive和Scala的有效方式。 - 实际应用中可以遇到各种复杂情况,通过实践可以更好地掌握理论知识。 - 实践可以帮助加深对大数据处理的理解,以及如何在实际业务中应用这些技术。

[root@zhaosai ~]# hive Logging initialized using configuration in jar:file:/opt/programs/apache-hive-1.2.2-bin/lib/hive-common-1.2.2.jar!/hive-log4j.properties Exception in thread "main" java.lang.RuntimeException: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient at org.apache.hadoop.hive.ql.session.SessionState.start(SessionState.java:522) at org.apache.hadoop.hive.cli.CliDriver.run(CliDriver.java:677) at org.apache.hadoop.hive.cli.CliDriver.main(CliDriver.java:621) at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62) at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43) at java.lang.reflect.Method.invoke(Method.java:498) at org.apache.hadoop.util.RunJar.run(RunJar.java:221) at org.apache.hadoop.util.RunJar.main(RunJar.java:136) Caused by: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient at org.apache.hadoop.hive.metastore.MetaStoreUtils.newInstance(MetaStoreUtils.java:1523) at org.apache.hadoop.hive.metastore.RetryingMetaStoreClient.<init>(RetryingMetaStoreClient.java:86) at org.apache.hadoop.hive.metastore.RetryingMetaStoreClient.getProxy(RetryingMetaStoreClient.java:132) at org.apache.hadoop.hive.metastore.RetryingMetaStoreClient.getProxy(RetryingMetaStoreClient.java:104) at org.apache.hadoop.hive.ql.metadata.Hive.createMetaStoreClient(Hive.java:3005) at org.apache.hadoop.hive.ql.metadata.Hive.getMSC(Hive.java:3024) at org.apache.hadoop.hive.ql.session.SessionState.start(SessionState.java:503) ... 8 more Caused by: java.lang.reflect.InvocationTargetException at sun.reflect.NativeConstructorAccessorImpl.newInstance0(Native Method) at sun.reflect.NativeConstructorAccessorImpl.newInstance(NativeConstructorAccessorImpl.java:62) at sun.reflect.DelegatingConstructorAccessorImpl.newInstance(DelegatingConstructorAccessorImpl.java:45) at java.lang.reflect.Constructor.newInstance(Constructor.java:423) at org.apache.hadoop.hive.metastore.MetaStoreUtils.newInstance(MetaStoreUtils.java:1521) ... 14 more Caused by: javax.jdo.JDOFatalInternalException: Error creating transactional connection factory NestedThrowables:

2023-06-09 上传