Ubuntu Hadoop安装步骤全解析
导读:Ubuntu Hadoop 安装步骤全解析 一 环境准备与版本选择 操作系统建议:Ubuntu 20.04/22.04 LTS(桌面或服务器版均可)。 Java 版本:Hadoop 3.x 常用 OpenJDK 8 或 OpenJDK 1...
Ubuntu Hadoop 安装步骤全解析
一 环境准备与版本选择
- 操作系统建议:Ubuntu 20.04/22.04 LTS(桌面或服务器版均可)。
- Java 版本:Hadoop 3.x 常用 OpenJDK 8 或 OpenJDK 11。两者均可,建议与你的生态保持一致。
- Hadoop 版本:示例选用 3.3.6(稳定、社区资料丰富)。
- 资源建议:至少 4GB 内存(推荐 8GB)、双核 CPU、50GB+ 磁盘,便于本地伪分布式运行与示例测试。
二 单机伪分布式安装步骤
-
1 安装 Java
- 安装 OpenJDK 8(或 11):sudo apt update & & sudo apt install -y openjdk-8-jdk
- 验证:java -version;如需设置 JAVA_HOME,常见路径为:/usr/lib/jvm/java-8-openjdk-amd64(可用 which java 与 ls -l 链路确认)。
-
2 安装与配置 SSH 免密登录(本地伪分布式必需)
- 安装 SSH:sudo apt install -y openssh-server
- 启动与开机自启:sudo systemctl start ssh & & sudo systemctl enable ssh
- 生成密钥并免密:ssh-keygen -t rsa -P “” -f ~/.ssh/id_rsa
- 授权:cat ~/.ssh/id_rsa.pub > > ~/.ssh/authorized_keys & & chmod 600 ~/.ssh/authorized_keys
- 本机测试:ssh localhost(首次需输入 yes)。
-
3 下载并解压 Hadoop
- 下载:wget https://dlcdn.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz
- 解压:sudo tar -xzvf hadoop-3.3.6.tar.gz -C /usr/local
- 建议软链便于升级:sudo ln -sfn /usr/local/hadoop-3.3.6 /usr/local/hadoop。
-
4 配置环境变量
- 全局(/etc/profile)或用户级(~/.bashrc)二选一,示例为 ~/.bashrc:
- export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
- export HADOOP_HOME=/usr/local/hadoop
- export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
- 使生效:source ~/.bashrc
- 在 $HADOOP_HOME/etc/hadoop/hadoop-env.sh 中同样显式设置:export JAVA_HOME=…(避免脚本内找不到 Java)。
- 全局(/etc/profile)或用户级(~/.bashrc)二选一,示例为 ~/.bashrc:
-
5 配置核心 XML(均为 $HADOOP_HOME/etc/hadoop/ 下)
- core-site.xml
- fs.defaultFShdfs://localhost:9000
- hdfs-site.xml
- dfs.replication1
- mapred-site.xml(如文件不存在,先 cp mapred-site.xml.template mapred-site.xml)
- mapreduce.framework.nameyarn
- yarn-site.xml
- yarn.nodemanager.aux-servicesmapreduce_shuffle yarn.resourcemanager.hostnamelocalhost
- core-site.xml
-
6 初始化与启动
- 格式化 NameNode(仅首次):hdfs namenode -format
- 启动 HDFS:start-dfs.sh
- 启动 YARN:start-yarn.sh
- 一键脚本(可选):start-all.sh(不建议生产使用)。
-
7 验证与常用 Web UI
- 进程检查:jps(应看到 NameNode、DataNode、ResourceManager、NodeManager 等)
- HDFS Web UI:http://localhost:9870
- YARN Web UI:http://localhost:8088
- 命令行验证:hdfs dfs -ls /;如需创建目录:hdfs dfs -mkdir -p /user/$USER。
-
8 运行示例作业
- 计算 π:hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.6.jar pi 16 1000
- 看到 π 的近似值即表示环境可用。
三 常见问题与排查要点
- SSH 免密失败:检查 ~/.ssh 目录权限(700)、authorized_keys(600),以及 /etc/ssh/sshd_config 中 PubkeyAuthentication 为 yes;必要时重启 SSH 服务。
- JAVA_HOME 未生效:同时在 hadoop-env.sh 与 shell 配置中设置,并确认路径与 java -version 输出一致。
- 端口占用:9870/8088 若被占用,先排查并释放端口,或调整相关服务端口后再启动。
- 权限问题:若以 root 运行,HDFS 相关目录与进程属主需一致;伪分布式练习可用简化配置,生产环境建议使用专用用户与权限隔离。
- 格式化多次风险:重复格式化会导致 ClusterID 不一致,DataNode 无法注册;如需重置,清理数据目录后再格式化,或手动对齐 ClusterID。
四 扩展与多机部署提示
- 多机部署要点:准备多台 Ubuntu 主机,统一 SSH 免密、NTP 时间同步、/etc/hosts 解析;规划 主从角色(NameNode/ResourceManager 与 DataNode/NodeManager);在 core-site.xml、hdfs-site.xml、yarn-site.xml 中设置正确的 fs.defaultFS、dfs.replication、yarn.resourcemanager.hostname 等;首次同样需要 namenode -format,随后按角色分发配置并启动服务。
- 目录规划:将 NameNode/DataNode 数据目录配置到独立磁盘或大容量分区,避免与系统盘争用。
- 安全建议:生产环境启用 Kerberos、TLS/HTTPS、防火墙 与 审计;谨慎使用 root 运行 Hadoop 进程。
声明:本文内容由网友自发贡献,本站不承担相应法律责任。对本内容有异议或投诉,请联系2913721942#qq.com核实处理,我们将尽快回复您,谢谢合作!
若转载请注明出处: Ubuntu Hadoop安装步骤全解析
本文地址: https://pptw.com/jishu/764756.html
