【版本】
当前版本号v20240226
| 版本 | 修改说明 | 
|---|---|
| v20240226 | 初始化版本 | 
【任务名称】任务4 - 使用数据可视化技术展示我的演员电影产量和质量按年份的变化。
【任务目的】
- 掌握使用 Hive 进行数据分析
 - 了解数据可视化工具的使用
 
【任务环境】
- Windows 7+
 - VirtualBox
 - CentOS 7
 - Hadoop 3
 - JDK 版本:1.8 或以上版本。
 - Hive 2.3.8
 
【任务说明】
Film.json是豆瓣电影的真实电影数据。里面包含了41960部电影数据。其中各个字段解释如下表
| 字段名 | 注释 | 
|---|---|
| title | 电影名 | 
| year | 上映年份 | 
| type | 电影类型 | 
| star | 电影评分2-10分 | 
| director | 导演 | 
| actor | 演员 | 
| time | 电影时长 | 
| film_page | 电影信息链接 | 
【任务要求】
(1)在表格
学生演员分配.xlsx里找到分配给你的演员。(2)结合本门课程学过的知识,编写程序(Java程序/MapReduce)对’Film.json’内容进行筛选,筛选出只包含你的演员演过的电影,并转换为 csv 格式。
(3)把转换后csv文件导入 Hive,使用 SQL 分析我的演员每年上映的电影的数量和平均分。
(4)使用可视化工具(例如 Excel 等)把数据转换为可视化的图表,需要包含该演员每年电影上映数量和上映所有电影的平均分。图表形式可以使用折线图,柱状图等。
如:下图是使用 Excel 制作的“王菲的电影信息可视化图表”

