"Hive数据仓库：语法和常用函数.doc详解"

版权申诉

115 浏览量更新于2024-02-21 收藏 1.23MB DOC 举报

Hive是一个基于Hadoop分布式系统上的数据仓库，最早由Facebook公司开发。它极大地推进了Hadoop生态系统在数据仓库领域的发展。Hive的出现是为了解决Facebook分析人员中许多工程师擅长SQL而不擅长开发MapReduce程序的问题。因此，Hive为他们提供了一套新的SQL-like方言——Hive QL。Hive QL通过Hive的编程接口与Hive解析器引擎相结合，最终被解析为MapReduce程序，并作为job提交给Job Tracker运行。这对MapReduce框架是一种有力的支持。作为一个数据仓库，Hive提供了数据ETL（抽取、转换、加载）工具，数据存储管理以及大数据集的查询和分析能力。Hive极大地简化了在Hadoop上的数据分析过程，使得用户能够利用熟悉的SQL方式来处理分布式存储的大数据。Hive SQL方言与MySQL方言相似，符合SQL标准，让熟悉SQL的工程师能够更快地适应Hive的使用。 Hive提供了丰富的内置函数和UDF（User Defined Function），用于数据的提取、转换和加载。除此之外，Hive还支持自定义函数，使用户能够根据自己的需求来扩展Hive的功能。 Hive在数据仓库中起着重要的作用，其语法和常用函数对于数据分析和数据处理具有重要的指导意义。由于Hive的出现，大大简化了Hadoop上数据仓库的搭建和管理，为用户提供了更便捷、更高效的数据处理方式。同时，它也为Hadoop生态系统的发展做出了巨大的贡献。总的来说，Hive语法和常用函数对于数据仓库的搭建和管理有着重要的意义，它的出现大大推进了Hadoop的应用范围，使得更多的企业和个人能够从大数据分析中受益。Hive的发展成果为大数据领域的发展带来了新的机遇和挑战。希望随着Hive的不断完善和发展，在数据仓库方面能够为用户提供更加便捷、高效的数据处理平台。

- -.

nonstrict可以完全由用户的查询参数来动态创建所有的分区。

在一个HiveQL中创建表和加载数据

 在Hive中，用户可以完全使用一条语句创建表并同时加载数据：

Java代码

1. CREATETABLEca_employees

2. ASSELECTnamesalary,address

3. FROMemployees

4. WHEREstate='CA';

 这种方法特别适用于在一个大表中提取一个子数据集的场景，这种功能不适合外部表，

因外外部表是在定义时直接给其制定一个数据文件的路径。

导出数据

 之前讲的都是如何将数据加载到Hive表中，那么如何将表中数据导出表呢？用户可以使用

INSERT ... DIRECTORY ...语句导出数据，示例如下：

Java代码

1. INSERTOVERWRITELOCALDIRECTORY'tmp/ca_employees'

2. SELECTname,salary,address

3. FROMemployees

4. WHEREstate='CA';

 其中OVERWRITE和LOCAL的意义同上。

 和加载数据一样，用户同样可以在一个语句中将数据导出到多个文件夹：

Java代码

1. FROMstaged_employeesse

2. INSERTOVERWRITEDIRECTORY'/tmp/or_employees'

3. SELECT*FROMse.cnty='US'ANDse.st='OR'

4. INSERTOVERWRITEDIRECTORY'/tmp/CA_employees'

5. SELECT*FROMse.cnty='US'ANDse.st='CA'

6. INSERTOVERWRITEDIRECTORY'/tmp/IL_employees'

7. SELECT*FROMse.cnty='US'ANDse.st='IL'

前几章已经学习过Hive表的定义和数据操纵，本章我们开始学习HiveQL查询。

SELECT ... FROM ...查询

 SELECT在SQL中是一个投影操作。让我们从新来看之前定义过的分区表employees：

- - 总结

- -.

Java代码

1. CREATETABLEemployees(

2. nameSTRING,

3. salaryFLOAT,

4. subordinatesARRAY<STRING>COMMENT'下属',

5. deductionsMAP<STRING,FLOAT>COMMENT'扣费',

6. addressSTRUT<street:STRING,city:STRING,state:STRING,zip:INT>

7. )

8. PARTITIONEDBY(countrySTRING,stateSTRING);

 SELECT查询：

Java代码

1. hive>SELECTname,salaryFROMemployees;

2. JohnDoe100000.0

3. MarySmith80000.0

4. ToddJones70000.0

5. BillKing60000.0

 用户也可以给FROM之后的表，视图或子查询起一个别名，如：

Java代码

1. hive>SELECTe.name,e.salaryFROMemployeese;

 上面两个HiveQL语句是相同的，给表起别名在JOIN操作中特别有用。

 下面我们来看如何查询employees表中的集合类型的数据。我们先看一下如何查询ARRAY

类型的数据，如employees表的下属“subordinates”

Java代码

1. hive>SELECTname,subordinatesFROMemployees;

2. JohnDoe["MarySmith","ToddJones"]

3. MarySmith["BillKing"]

4. ToddJones[]

5. Billking[]

 再看MAP类型的查询，如“deductions”：

Java代码

1. hive>SELECTname,deductionsFROMemployees;

2. JohnDoe{"FederalTaxes":0.2,"StateTaxes":0.05,"Insurance":0.1}

3. MarySmith{"FederalTaxes":0.2,"StateTaxes":0.05,"Insurance":0.1}

4. ToddJones{"FederalTaxes":0.15,"StateTaxes":0.03,"Insurance":0.1}

5. BillKing{"FederalTaxes":0.15,"StateTaxes":0.03,"Insurance":0.1}

 再看STRUCT类型的查询，如“address”：

Java代码

- - 总结

- -.

1. hive>SELECTname,addressFROMemployees;

2. JohnDoe{"Street":"1MichignAve.","city":"Chicago","State":"IL","ZIP":60600}

3. MarySmith{"Street":"100OntarioSt.","city":"Chicago","State":"IL","ZIP":60601}

4. ToddJones{"Street":"200ChicagoAve.","city":"OakPark","State":"IL","ZIP":60700}

5. BillKing{"Street":"300ObscureDr.","city":"Obscuria","State":"IL","ZIP":60100}

 接下来我们再看如何查看集合性属性字段中的数据：

Java代码

1. hive>SELECTname,subordinates[0],deductions["StateTaxes"],address.cityFROMemployees;

2. JohnDoeMarySmith0.05Chicago

3. MarySmithBillKing0.05Chicago

4. ToddJonesNULL0.03OakPark

5. BillKingNULL0.03Obscuria

使用正则表达式查询符合条件的列

 在Hive查询中，用户可以使用正则表达式查询符合条件的列，下面的实例中就是使用正则

表达式的使用用例，可以查询到symbol列和所有以“price”开头的列：

Java代码

1. hive>SELECTsymbol,'price.*'FROMstocks;

2. AAPL195.69197.88194.0194.12194.12

3. AAPL192.63196.0190.85195.46195.46

4. AAPL196.73198.37191.57192.05192.05

5. AAPL195.17200.2194.42199.23199.23

6. AAPL195.91196.32193.38195.86195.86

7. ...

列计算

 在HiveQL中，用户不但可以从表中查询某些列，还可以通过函数或数学表达式来计算列

的值。例如，我们可以在employees表中查询雇员的姓名，薪水，联邦税百分百及其他列的值：

Java代码

1. hive>SELECTupper(name),salary,deductions["FederalTaxes"],

2. >round(salary*(1-deductions["FederalTaxes"]))

3. >FROMemployees;

4. JOHNDOE100000.00.280000

5. MARYSMITH80000.00.264000

6. TODDJONES70000.00.1559500

7. BILLKING60000.00.1551000

 Hive是使用JAVA写的开源软件，在函数或数学表达式来计算列的值时类型转型和JAVA的

转型相同。

- - 总结

剩余58页未读，继续阅读

pyhm63

粉丝: 10
资源: 20万+

"Hive数据仓库：语法和常用函数.doc详解"

hive常用运算和函数.docx

hive函数大全.doc

hive函数.docx

hive函数参考手册，包含常用的hive内置函数.doc

获取主办单位UDF函数.doc

hive函数大全(中文整合).doc

大数据技术之Hive - 副本.doc

基于Hadoop的数据仓库Hive学习指南.doc

Hive用户指南(Hive-user-guide)-中文版.doc

spack.doc

最新资源