Hive+Hadoop数据分析模拟案例练习
创作时间:
作者:
@小白创作中心
Hive+Hadoop数据分析模拟案例练习
引用
CSDN
1.
https://m.blog.csdn.net/qq_65960840/article/details/137645993
本文将通过一个具体的案例,演示如何使用Hive和Hadoop对电影评分数据进行统计分析,并最终以可视化形式展示结果。我们将从数据获取、ETL处理、统计分析到数据展示的全过程进行详细讲解。
需求分析
对电影评分数据进行统计分析,最后以可视化的形式展示出来
数据获取与上传
数据地址https://files.grouplens.org/datasets/movielens/
选择100w条评分的数据
解压后选择movies、ratings两个文件即可,在上传前需要用记事本打开这两个文件,将分隔符替换为逗号。将文件上传到Linux本地中。
在hive中创建两个表
create table movies(
movie_id int comment "电影ID",
movie_name string comment "电影名称",
movie_type string comment "电影类别")
row format delimited fields terminated by ',';
create table ratings(
user_id int comment "用户ID",
movie_id string comment "电影ID",
movie_rank int comment "电影评分",
rank_timestamp int comment "评分时间戳"
)row format delimited fields terminated bys ',';
给表加载数据
load data local inpath '/data/root/env/movies.dat' into table movies;
load data local inpath '/data/root/env/ratings.dat' into table ratings;
查看结果
数据转换(ETL)
进行简单的ETL,将数据取出后进行简单的转换然后存入新的表中
将ratings表中的时间戳转换成年月日。因为hive不支持直接对表进行update和delete操作,所以需要创建新的表来完成。
创建ratings2表
create table ratings2(
user_id int comment "用户ID",
movie_id string comment "电影ID",
movie_rank int comment "电影评分",
rank_day string comment "评分日期",
rank_hour string comment "评分时间"
)row format delimited fields terminated by ',';
对ratings表计算,使用from_unixtime()函数将时间戳转换成日期,用data函数取日期的年月日,用hour函数取日期的小时,并将结果插入到2表
insert overwrite table myhive.ratings2
select
user_id,
movie_id,
movie_rank,
DATE(from_unixtime(rank_timestamp)) as rank_day,
hour(from_unixtime(rank_timestamp)) as rank_hour
from ratings;
转换结果
统计
要求:
- 统计每日评分总量
- 统计每小时评分的数量和用户量
- 统计各用户评分次数总量
- 统计评分次数TOP10的用户
- 统计各电影被评分次数和平均分
- 统计平均分TOP10的电影
- 统计观影次数TOP10的电影
统计每日评分总量
创建查询语句,创建count_everyday_rank表,它的内容为查询到的结果
create table count_everyday_rank
comment "每日评分总量" as
select
rank_day,
count(*) as total_rank_count
from ratings2 group by rank_day;
统计每小时评分的数量和用户量
create table count_hour_rank
comment "每小时评分量" as
select
rank_hour,
count(*) as total_rank_count,
count(distinct user_id) as total_user
from ratings2 group by rank_hour;
统计各用户评分次数总量
create table count_everyone_rank
comment "每人的总评分次数" as
select
user_id,
count(*) as all_count
from ratings2 group by user_id;
统计评分次数TOP10的用户
create table count_everyone_rank_top10
comment "评分次数top10用户" as
select
user_id,
count(*) as all_count
from ratings2 group by user_id
order by all_count desc
limit 10;
统计各电影被评分次数和平均分
create table movie_info
comment "电影评分次数和平均分" as
select
movie_id,
count(*) as all_count,
avg(movie_rank) as avg_rank
from ratings2 group by movie_id;
统计平均分TOP10的电影
对于只有一个评价的电影且它的评分就是5,那么计算得到的平均分也是5,这样的数据是没有说服力的,所以需要至少拥有500个评分的电影来计算平均值。
create table movie_avg_rank_top10
comment "movie_avg_rank_top10" as
select a.movie_id,m.movie_name,a.all_count,a.avg_rank
from (
select
r.movie_id,
count(*) as all_count,
avg(movie_rank) as avg_rank
from ratings2 r
group by movie_id
having all_count > 500
order by avg_rank desc limit 10
) as a
join movies m
on a.movie_id=m.movie_id;
统计观影次数TOP10的电影
create table movie_count_top10
comment "movie_count_top10" as
select a.movie_id,m.movie_name,a.all_count
from (
select
r.movie_id,
count(*) as all_count
from ratings2 r
group by r.movie_id
order by all_count desc limit 10
) as a
join movies m
on m.movie_id=a.movie_id;
数据展示
使用FineBI连接hive数据库并展示数据
热门推荐
俄罗斯土地、森林、水资源概况
《秘境武当》:一部让你足不出户就能领略武当山魅力的纪录片
武当山金顶初雪,仙境打卡攻略!
古武当山的冬日童话:云海、日出与冰雪的完美邂逅
秋游武当山:红叶、日出与道教文化的完美融合
初中生情绪管理课,如何应对青春期挑战?
中医教你如何通过情志调节养生?
从心理学角度看有效情绪调节策略
《蛟龙行动》背后的中东局势:如何影响中国股市?
营养师进校园:守护学生健康成长的“营养卫士”
秦皇岛2025年公共营养师报考条件大揭秘!
公共营养师:未来的健康守护者
完璧归赵:蔺相如教你如何职场逆袭
从《芈月传》看危机处理的艺术
和氏璧背后的智慧与勇气:完璧归赵新解读
马克思主义视角:人与动物的本质区别
巴黎奥运会|法国阿尔卑斯山地区、美国盐湖城分获2030、2034年冬奥会举办权
文化中国行丨以文化赋能 展冰雪魅力——中国多地冰雪资源释放新活力
中国经济信心说丨万众奔赴体育盛宴 见证冰雪经济“燃”起来
拟制血亲关系能解除吗
哪些人群可用阿司匹林?
乐山钵钵鸡:舌尖上的非遗传奇
职场人饮食调整指南:如何有效降低碱性磷酸酶?
喝牛奶能降碱性磷酸酶?一文读懂饮食调节方法
碱性磷酸酶偏高:原因、危害与应对指南
石楼县交警大队教你加油站安全行车
成都必打卡:四妹钵钵鸡&乐山鲜知味,谁才是你的菜?
乐山钵钵鸡:从街头小吃到全国网红
乐山钵钵鸡的正宗做法大揭秘
从原理到实践:GIF表情包制作全攻略