Ubuntu Hadoop安装步骤全解析

时间2025-12-05 14:55:04发布访客分类主机资讯浏览1201

导读：Ubuntu Hadoop 安装步骤全解析一环境准备与版本选择操作系统建议：Ubuntu 20.04/22.04 LTS（桌面或服务器版均可）。 Java 版本：Hadoop 3.x 常用 OpenJDK 8 或 OpenJDK 1...

Ubuntu Hadoop 安装步骤全解析

一环境准备与版本选择

操作系统建议：Ubuntu 20.04/22.04 LTS（桌面或服务器版均可）。
Java 版本：Hadoop 3.x 常用 OpenJDK 8 或 OpenJDK 11。两者均可，建议与你的生态保持一致。
Hadoop 版本：示例选用 3.3.6（稳定、社区资料丰富）。
资源建议：至少 4GB 内存（推荐 8GB）、双核 CPU、50GB+ 磁盘，便于本地伪分布式运行与示例测试。

二单机伪分布式安装步骤

1 安装 Java
- 安装 OpenJDK 8（或 11）：sudo apt update & & sudo apt install -y openjdk-8-jdk
- 验证：java -version；如需设置 JAVA_HOME，常见路径为：/usr/lib/jvm/java-8-openjdk-amd64（可用 which java 与 ls -l 链路确认）。
2 安装与配置 SSH 免密登录（本地伪分布式必需）
- 安装 SSH：sudo apt install -y openssh-server
- 启动与开机自启：sudo systemctl start ssh & & sudo systemctl enable ssh
- 生成密钥并免密：ssh-keygen -t rsa -P “” -f ~/.ssh/id_rsa
- 授权：cat ~/.ssh/id_rsa.pub > > ~/.ssh/authorized_keys & & chmod 600 ~/.ssh/authorized_keys
- 本机测试：ssh localhost（首次需输入 yes）。
3 下载并解压 Hadoop
- 下载：wget https://dlcdn.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz
- 解压：sudo tar -xzvf hadoop-3.3.6.tar.gz -C /usr/local
- 建议软链便于升级：sudo ln -sfn /usr/local/hadoop-3.3.6 /usr/local/hadoop。
4 配置环境变量
- 全局（/etc/profile）或用户级（~/.bashrc）二选一，示例为 ~/.bashrc：
  - export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
  - export HADOOP_HOME=/usr/local/hadoop
  - export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
  - 使生效：source ~/.bashrc
- 在 $HADOOP_HOME/etc/hadoop/hadoop-env.sh 中同样显式设置：export JAVA_HOME=…（避免脚本内找不到 Java）。
5 配置核心 XML（均为 $HADOOP_HOME/etc/hadoop/ 下）
- core-site.xml
  - fs.defaultFShdfs://localhost:9000
- hdfs-site.xml
  - dfs.replication1
- mapred-site.xml（如文件不存在，先 cp mapred-site.xml.template mapred-site.xml）
  - mapreduce.framework.nameyarn
- yarn-site.xml
  - yarn.nodemanager.aux-servicesmapreduce_shuffle yarn.resourcemanager.hostnamelocalhost
6 初始化与启动
- 格式化 NameNode（仅首次）：hdfs namenode -format
- 启动 HDFS：start-dfs.sh
- 启动 YARN：start-yarn.sh
- 一键脚本（可选）：start-all.sh（不建议生产使用）。
7 验证与常用 Web UI
- 进程检查：jps（应看到 NameNode、DataNode、ResourceManager、NodeManager 等）
- HDFS Web UI：http://localhost:9870
- YARN Web UI：http://localhost:8088
- 命令行验证：hdfs dfs -ls /；如需创建目录：hdfs dfs -mkdir -p /user/$USER。
8 运行示例作业
- 计算 π：hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.6.jar pi 16 1000
- 看到 π 的近似值即表示环境可用。

三常见问题与排查要点

SSH 免密失败：检查 ~/.ssh 目录权限（700）、authorized_keys（600），以及 /etc/ssh/sshd_config 中 PubkeyAuthentication 为 yes；必要时重启 SSH 服务。
JAVA_HOME 未生效：同时在 hadoop-env.sh 与 shell 配置中设置，并确认路径与 java -version 输出一致。
端口占用：9870/8088 若被占用，先排查并释放端口，或调整相关服务端口后再启动。
权限问题：若以 root 运行，HDFS 相关目录与进程属主需一致；伪分布式练习可用简化配置，生产环境建议使用专用用户与权限隔离。
格式化多次风险：重复格式化会导致 ClusterID 不一致，DataNode 无法注册；如需重置，清理数据目录后再格式化，或手动对齐 ClusterID。

四扩展与多机部署提示

多机部署要点：准备多台 Ubuntu 主机，统一 SSH 免密、NTP 时间同步、/etc/hosts 解析；规划 主从角色（NameNode/ResourceManager 与 DataNode/NodeManager）；在 core-site.xml、hdfs-site.xml、yarn-site.xml 中设置正确的 fs.defaultFS、dfs.replication、yarn.resourcemanager.hostname 等；首次同样需要 namenode -format，随后按角色分发配置并启动服务。
目录规划：将 NameNode/DataNode 数据目录配置到独立磁盘或大容量分区，避免与系统盘争用。
安全建议：生产环境启用 Kerberos、TLS/HTTPS、防火墙 与审计；谨慎使用 root 运行 Hadoop 进程。

声明：本文内容由网友自发贡献，本站不承担相应法律责任。对本内容有异议或投诉，请联系2913721942#qq.com核实处理，我们将尽快回复您，谢谢合作！

若转载请注明出处： Ubuntu Hadoop安装步骤全解析
本文地址： https://pptw.com/jishu/764756.html

如何在Ubuntu上高效运行Hadoop Ubuntu与MinIO集成应用案例