使用hive根据数据文件夹ml-1m中三个.dat文件,完成如下功能 (1) 创建相应数据库和数据表,上传数据( (2)求被评分次数最多的10部电影,并给出评分次数(电影名,评分次数) (3)分别求男性,女性当中评分最高(按平均分算)的10部电影(性别,电影名,影评分)评论次数大于等于50次 (4)求movieid = 2116这部电影各年龄段(因为年龄就只有7个,就按这个7个分就好了)的平均影评(年龄段,影评分) (5)求最喜欢看电影(影评次数最多)的那位女性评最高分的10部电影的平均影评分(观影者,电影名,影评分) (6)求好片(平均评分>=4.0)最多的那个年份的最好看的10部电影 (7)求1997年上映的电影中,评分最高的10部Comedy类电影 (8)该影评库中各种类型电影中评价最高的5部电影(类型,电影名,平均影评分) (9)各年评分最高的电影类型(年份,类型,影评分) (10)每个地区最高评分的电影名,把结果存入HDFS(地区,电影名,影评分)

时间: 2023-10-02 17:04:20 浏览: 68
(1)创建相应数据库和数据表,上传数据 首先需要在Hive中创建数据库和数据表,然后将数据上传到对应的数据表中。 ```sql -- 创建数据库 CREATE DATABASE IF NOT EXISTS movie_db; -- 切换到该数据库 USE movie_db; -- 创建数据表 CREATE TABLE IF NOT EXISTS movies ( movieid INT, title STRING, genres STRING ) ROW FORMAT DELIMITED FIELDS TERMINATED BY '::' STORED AS TEXTFILE; CREATE TABLE IF NOT EXISTS ratings ( userid INT, movieid INT, rating FLOAT, timestamp STRING ) ROW FORMAT DELIMITED FIELDS TERMINATED BY '::' STORED AS TEXTFILE; CREATE TABLE IF NOT EXISTS users ( userid INT, gender STRING, age INT, occupation INT, zipcode STRING ) ROW FORMAT DELIMITED FIELDS TERMINATED BY '::' STORED AS TEXTFILE; -- 将数据上传到对应的数据表中 LOAD DATA LOCAL INPATH '/path/to/ml-1m/movies.dat' OVERWRITE INTO TABLE movies; LOAD DATA LOCAL INPATH '/path/to/ml-1m/ratings.dat' OVERWRITE INTO TABLE ratings; LOAD DATA LOCAL INPATH '/path/to/ml-1m/users.dat' OVERWRITE INTO TABLE users; ``` (2)求被评分次数最多的10部电影,并给出评分次数(电影名,评分次数) ```sql SELECT m.title, COUNT(r.movieid) AS rating_count FROM movies m JOIN ratings r ON m.movieid = r.movieid GROUP BY m.title ORDER BY rating_count DESC LIMIT 10; ``` (3)分别求男性,女性当中评分最高(按平均分算)的10部电影(性别,电影名,影评分)评论次数大于等于50次 ```sql SELECT u.gender, m.title, AVG(r.rating) AS avg_rating FROM movies m JOIN ratings r ON m.movieid = r.movieid JOIN users u ON r.userid = u.userid WHERE u.gender = 'F' AND r.userid IN ( SELECT userid FROM ratings GROUP BY userid HAVING COUNT(movieid) >= 50 ) OR u.gender = 'M' AND r.userid IN ( SELECT userid FROM ratings GROUP BY userid HAVING COUNT(movieid) >= 50 ) GROUP BY u.gender, m.title HAVING COUNT(r.movieid) >= 50 ORDER BY u.gender, avg_rating DESC LIMIT 10; ``` (4)求movieid = 2116这部电影各年龄段(因为年龄就只有7个,就按这个7个分就好了)的平均影评(年龄段,影评分) ```sql SELECT CASE WHEN age BETWEEN 1 AND 18 THEN '1-18' WHEN age BETWEEN 18 AND 24 THEN '18-24' WHEN age BETWEEN 25 AND 34 THEN '25-34' WHEN age BETWEEN 35 AND 44 THEN '35-44' WHEN age BETWEEN 45 AND 49 THEN '45-49' WHEN age BETWEEN 50 AND 55 THEN '50-55' ELSE '56+' END AS age_group, AVG(r.rating) AS avg_rating FROM ratings r JOIN users u ON r.userid = u.userid WHERE r.movieid = 2116 GROUP BY age_group; ``` (5)求最喜欢看电影(影评次数最多)的那位女性评最高分的10部电影的平均影评分(观影者,电影名,影评分) ```sql SELECT u.userid, m.title, AVG(r.rating) AS avg_rating FROM movies m JOIN ratings r ON m.movieid = r.movieid JOIN users u ON r.userid = u.userid WHERE u.gender = 'F' AND r.userid IN ( SELECT userid FROM ratings GROUP BY userid ORDER BY COUNT(movieid) DESC LIMIT 1 ) GROUP BY u.userid, m.title HAVING COUNT(r.movieid) >= 50 ORDER BY avg_rating DESC LIMIT 10; ``` (6)求好片(平均评分>=4.0)最多的那个年份的最好看的10部电影 ```sql SELECT m.title, AVG(r.rating) AS avg_rating, COUNT(r.movieid) AS rating_count, SUBSTR(r.timestamp, 1, 4) AS year FROM movies m JOIN ratings r ON m.movieid = r.movieid WHERE AVG(r.rating) >= 4.0 GROUP BY m.title, year ORDER BY rating_count DESC, avg_rating DESC LIMIT 10; ``` (7)求1997年上映的电影中,评分最高的10部Comedy类电影 ```sql SELECT m.title, AVG(r.rating) AS avg_rating FROM movies m JOIN ratings r ON m.movieid = r.movieid WHERE m.genres LIKE '%Comedy%' AND SUBSTR(r.timestamp, 1, 4) = '1997' GROUP BY m.title ORDER BY avg_rating DESC LIMIT 10; ``` (8)该影评库中各种类型电影中评价最高的5部电影(类型,电影名,平均影评分) ```sql SELECT m.genres, m.title, AVG(r.rating) AS avg_rating FROM movies m JOIN ratings r ON m.movieid = r.movieid GROUP BY m.genres, m.title HAVING COUNT(r.movieid) >= 100 ORDER BY m.genres, avg_rating DESC LIMIT 5; ``` (9)各年评分最高的电影类型(年份,类型,影评分) ```sql SELECT SUBSTR(r.timestamp, 1, 4) AS year, m.genres, MAX(avg_rating) AS max_rating FROM ( SELECT movieid, AVG(rating) AS avg_rating FROM ratings GROUP BY movieid ) r JOIN movies m ON r.movieid = m.movieid GROUP BY year, m.genres; ``` (10)每个地区最高评分的电影名,把结果存入HDFS(地区,电影名,影评分) ```sql INSERT OVERWRITE DIRECTORY '/path/to/output' SELECT u.zipcode, m.title, AVG(r.rating) AS avg_rating FROM movies m JOIN ratings r ON m.movieid = r.movieid JOIN users u ON r.userid = u.userid GROUP BY u.zipcode, m.title HAVING COUNT(r.movieid) >= 50 ORDER BY u.zipcode, avg_rating DESC; ```

相关推荐

最新推荐

recommend-type

Java使用JDBC向MySQL数据库批次插入10W条数据(测试效率)

使用JDBC连接MySQL数据库进行数据插入的时候,特别是大批量数据连续插入(100000),如何提高效率呢?今天小编通过本教程给大家介绍下
recommend-type

基于Hadoop的数据仓库Hive学习指南.doc

该文档目录如下: 1.1 基于Hadoop的数据仓库Hive学习指南 1.2实验环境 1.3实验原理 1.3.1 Hive简介 1.3.2 Hive安装 1.3.3安装并配置mysql 1.3.5 Hive简单编程实践 1.3.4 Hive的常用HiveQL操作
recommend-type

Mysql元数据如何生成Hive建表语句注释脚本详解

主要给大家介绍了关于Mysql元数据如何生成Hive建表语句注释脚本的相关资料,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面跟着小编来一起学习学习吧。
recommend-type

详解hbase与hive数据同步

主要介绍了详解hbase与hive数据同步的相关资料,需要的朋友可以参考下
recommend-type

kafka+flume 实时采集oracle数据到hive中.docx

讲述如何采用最简单的kafka+flume的方式,实时的去读取oracle中的重做日志+归档日志的信息,从而达到日志文件数据实时写入到hdfs中,然后将hdfs中的数据结构化到hive中。
recommend-type

zigbee-cluster-library-specification

最新的zigbee-cluster-library-specification说明文档。
recommend-type

管理建模和仿真的文件

管理Boualem Benatallah引用此版本:布阿利姆·贝纳塔拉。管理建模和仿真。约瑟夫-傅立叶大学-格勒诺布尔第一大学,1996年。法语。NNT:电话:00345357HAL ID:电话:00345357https://theses.hal.science/tel-003453572008年12月9日提交HAL是一个多学科的开放存取档案馆,用于存放和传播科学研究论文,无论它们是否被公开。论文可以来自法国或国外的教学和研究机构,也可以来自公共或私人研究中心。L’archive ouverte pluridisciplinaire
recommend-type

实现实时数据湖架构:Kafka与Hive集成

![实现实时数据湖架构:Kafka与Hive集成](https://img-blog.csdnimg.cn/img_convert/10eb2e6972b3b6086286fc64c0b3ee41.jpeg) # 1. 实时数据湖架构概述** 实时数据湖是一种现代数据管理架构,它允许企业以低延迟的方式收集、存储和处理大量数据。与传统数据仓库不同,实时数据湖不依赖于预先定义的模式,而是采用灵活的架构,可以处理各种数据类型和格式。这种架构为企业提供了以下优势: - **实时洞察:**实时数据湖允许企业访问最新的数据,从而做出更明智的决策。 - **数据民主化:**实时数据湖使各种利益相关者都可
recommend-type

SQL怎么实现 数据透视表

SQL可以通过使用聚合函数和GROUP BY子句来实现数据透视表。 例如,假设有一个销售记录表,其中包含产品名称、销售日期、销售数量和销售额等信息。要创建一个按照产品名称、销售日期和销售额进行汇总的数据透视表,可以使用以下SQL语句: ``` SELECT ProductName, SaleDate, SUM(SaleQuantity) AS TotalQuantity, SUM(SaleAmount) AS TotalAmount FROM Sales GROUP BY ProductName, SaleDate; ``` 该语句将Sales表按照ProductName和SaleDat
recommend-type

JSBSim Reference Manual

JSBSim参考手册,其中包含JSBSim简介,JSBSim配置文件xml的编写语法,编程手册以及一些应用实例等。其中有部分内容还没有写完,估计有生之年很难看到完整版了,但是内容还是很有参考价值的。