【版本】
当前版本号v20240226
| 版本 | 修改说明 | 
|---|---|
| v20240226 | 初始化版本 | 
任务1.1 - 导入虚拟机节点
【任务目的】
- 掌握搭建 CentOS 模板镜像
 - 熟练掌握 Linux命令(vi、tar、mv等等)的使用
 - 掌握 VirtualBox、FinalShell 等客户端的使用
 
【任务环境】
- 内存:至少4G
 - 硬盘:至少空余40G
 - 操作系统: 64位 Windows系统。
 - 虚拟机操作系统:CentOS 7.9
 
【任务资源】
- FinalShell
 - NodeA、NodeB、NodeC模板机
 - VirtualBox
 
【任务要求】
- 完成 Virtualbox 的安装
 - 完成 FinalShell 的安装
 - 完成虚拟机的注册和配置
 - 完成 Hadoop 的启动和测试
 
【任务步骤】
安装 VirtualBox 和 FinalShell
安装 VirtualBox,过程略。如果之前有安装旧版本的 VirtualBox,请先卸载。
安装 FinalShell,过程略。
VirtualBox 新建虚拟机
下载
NodeA.zip、NodeB.zip、NodeC.zip`三个压缩的虚拟机文件,并解压到同一个目录。启动 VirtualBox,点击“注册”。分别选中
NodeA.vbox、NodeB.vbox、NodeC.vbox这三个文件,导入虚拟机到 VirtualBox。三台虚拟机的网络设置都是
Host-Only模式,并且绑定到你的 VirtualBox 虚拟网卡(网络适配器)。
进入
控制面板\网络和 Internet\网络连接,对VirtualBox 虚拟网卡(网络适配器)进行设置。

VirtualBox 启动
NodeA、NodeB、NodeC三个节点。以下为三个节点的信息。
| 节点 | IP | 主机名 | Hadoop节点 | root账号 | 
|---|---|---|---|---|
| NodeA | 10.0.0.71 | nodea999 | NameNode | root/123456 | 
| NodeB | 10.0.0.72 | nodeb999 | DataNode | root/123456 | 
| NodeC | 10.0.0.73 | nodec999 | DataNode | root/123456 | 
- 使用 FinalShell 连接 NodeA 节点,使用 hadoop 用户登录。
 
用户名:hadoop
密码:123456
- 在NodeA 节点启动 Hadoop 。
 
[hadoop@nodea999 ~]$ start-hdp.sh
- 在
NodeA输入以下命令查看机架拓扑是否有NodeB和NodeC的信息 
[hadoop@nodea999 ~]$ hdfs dfsadmin -printTopology
- 正常应该有类似以下信息返回:
 
Rack: /default-rack
   10.0.0.72:9866 (nodeb999)
   10.0.0.73:9866 (nodec999)
验证 MapReduce 是否正常工作
上传
countryroad.txt到NodeA的/home/hadoop把
countryroad.txt从文件系统上传到 HDFS 文件系统。
hdfs dfs -mkdir /part2
hdfs dfs -put /home/hadoop/countryroad.txt /part2
hdfs dfs -ls /part2
- 运行 Hadoop 自带的 Wordcount 程序,观察输出的内容。
 
cd $HADOOP_HOME/share/hadoop/mapreduce
hadoop jar hadoop-mapreduce-examples-3.3.1.jar wordcount /part2/countryroad.txt /output
- 如果输出的日志内容包含类似以下信息,则表示执行成功
 
2022-01-24 15:48:51,712 INFO mapreduce.Job: Job job_xxxxxxx completed successfully
- 程序执行过程中,可以访问 Yarn Web 界面查看任务进展。http://10.0.0.71:8088/cluster/apps
 

- 等待程序运行完毕,观察输出的内容
 
hdfs dfs -cat /output/part-r-00000
【任务名称】
任务1.2 - 搭建 Hadoop 编程开发环境
【任务目的】
- 掌握 JDK 的安装和环境变量的设置
 - 掌握 IDEA 的安装和使用
 - 掌握 Maven 的安装、配置和使用命令
 
【任务环境】
- Windows 7 以上64位操作系统
 
【任务资源】
- FinalShell
 - CentOS 7
 - Hadoop 3
 - IntelliJ IDEA Community Edition 资源下载
 
【任务步骤】
- 在 Windows 安装 JDK 。安装完结束以后目录架构如下:目录架构如下:
 
d:\jdk8
  |-bin/
  |-lib/
  |-include/
  |-jre/            
  |-legal/
  |-javafx-src.zip  
  |-jmc.txt
  |-src.zip
  |-COPYRIGHT
  |-release
  |-LICENSE
  |-README.html
- 进入Windows的环境变量配置界面,配置以下环境变量。如果系统C盘会还原,每次重启电脑都需要配置此环境变量。注意修改 JDK 的安装目录为你实际安装目录。

 
#新增
JAVA_HOME=D:\jdk8
CLASSPATH=%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar
#修改PATH,在PATH环境变量原有值后面追加
;%JAVA_HOME%\bin;
- 打开Windows 的命令行终端,运行以下命令,测试是否有
JDK的版本输出。 
java -version
- 运行
intellij-idea-community-portable-win64-2020.3.2-46-setup.exe,指定目录安装 IDEA,这里以d:\idea为例。安装完成以后目录架构如下: 
d:\idea
  |-app/
  |-CHANGELOG.md
  |-data/
  |-intellij-idea-community-portable.exe
  |-intellij-idea-community-portable.sample.yml
  |-log/
  |-portapp.json
  |-portapp.json.bak
  |-portapp-prev.json
  |-README.md
- 编辑
d:\idea\app\bin目录下的idea.exe.vmoptions和idea64.exe.vmoptions,在文件末尾加上以下代码,让 IDEA 默认使用UTF8编码。 
-Dfile.encoding=UTF-8
- 解压
apache-maven-3.6.3-bin.zip,这里以解压到d:\maven363为例。 
d:\maven363
  |-bin/      
  |-boot/     
  |-conf/     
  |-lib/      
  |-LICENSE   
  |-NOTICE    
  |-README.txt    
- 在 Maven 的目录下新建一个
repos文件夹,把repos-hadoop.zip解压到repos目录下。 
d:\maven363
  |-repos
      |-解压位置
- 编辑
d:\maven363\conf\settings.xml文件。在<settings>标签内新增本地仓库路径设置。<localRepository>标签内内容注意修改为你的 Maven 的实际安装路径。 
<localRepository>D:/maven363/repos</localRepository>

注意 XML 的配置文件
- 编辑
d:\maven363\conf\settings.xml文件。在约148行<mirrors>标签内增加远程仓库镜像地址。开发过程中依赖的 Jar 包可以通过配置从此地址下载。 
- 如果电脑可以联网,可以修改指向阿里云的仓库镜像。
 
<mirror>
  <id>nexus-aliyun</id>
  <mirrorOf>*</mirrorOf>
  <name>Nexus aliyun</name>
  <url>http://maven.aliyun.com/nexus/content/groups/public</url>
</mirror>
- 进入Windows的环境变量配置界面,配置以下环境变量。
 
#新增
MAVEN_HOME=D:\maven363
#修改PATH,在PATH环境变量原有值后面追加
;%MAVEN_HOME%\bin;
- 打开Windows 的命令行终端,运行以下命令,测试是否有
Maven的版本输出。 
mvn -version
