首页主机资讯Ubuntu Hadoop安装步骤全解析

Ubuntu Hadoop安装步骤全解析

时间2025-12-05 14:55:04发布访客分类主机资讯浏览1201
导读:Ubuntu Hadoop 安装步骤全解析 一 环境准备与版本选择 操作系统建议:Ubuntu 20.04/22.04 LTS(桌面或服务器版均可)。 Java 版本:Hadoop 3.x 常用 OpenJDK 8 或 OpenJDK 1...

Ubuntu Hadoop 安装步骤全解析

一 环境准备与版本选择

  • 操作系统建议:Ubuntu 20.04/22.04 LTS(桌面或服务器版均可)。
  • Java 版本:Hadoop 3.x 常用 OpenJDK 8OpenJDK 11。两者均可,建议与你的生态保持一致。
  • Hadoop 版本:示例选用 3.3.6(稳定、社区资料丰富)。
  • 资源建议:至少 4GB 内存(推荐 8GB)、双核 CPU50GB+ 磁盘,便于本地伪分布式运行与示例测试。

二 单机伪分布式安装步骤

  • 1 安装 Java

    • 安装 OpenJDK 8(或 11):sudo apt update & & sudo apt install -y openjdk-8-jdk
    • 验证:java -version;如需设置 JAVA_HOME,常见路径为:/usr/lib/jvm/java-8-openjdk-amd64(可用 which java 与 ls -l 链路确认)。
  • 2 安装与配置 SSH 免密登录(本地伪分布式必需)

    • 安装 SSH:sudo apt install -y openssh-server
    • 启动与开机自启:sudo systemctl start ssh & & sudo systemctl enable ssh
    • 生成密钥并免密:ssh-keygen -t rsa -P “” -f ~/.ssh/id_rsa
    • 授权:cat ~/.ssh/id_rsa.pub > > ~/.ssh/authorized_keys & & chmod 600 ~/.ssh/authorized_keys
    • 本机测试:ssh localhost(首次需输入 yes)。
  • 3 下载并解压 Hadoop

    • 下载:wget https://dlcdn.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz
    • 解压:sudo tar -xzvf hadoop-3.3.6.tar.gz -C /usr/local
    • 建议软链便于升级:sudo ln -sfn /usr/local/hadoop-3.3.6 /usr/local/hadoop。
  • 4 配置环境变量

    • 全局(/etc/profile)或用户级(~/.bashrc)二选一,示例为 ~/.bashrc:
      • export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
      • export HADOOP_HOME=/usr/local/hadoop
      • export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
      • 使生效:source ~/.bashrc
    • 在 $HADOOP_HOME/etc/hadoop/hadoop-env.sh 中同样显式设置:export JAVA_HOME=…(避免脚本内找不到 Java)。
  • 5 配置核心 XML(均为 $HADOOP_HOME/etc/hadoop/ 下)

    • core-site.xml
      • fs.defaultFShdfs://localhost:9000
    • hdfs-site.xml
      • dfs.replication1
    • mapred-site.xml(如文件不存在,先 cp mapred-site.xml.template mapred-site.xml)
      • mapreduce.framework.nameyarn
    • yarn-site.xml
      • yarn.nodemanager.aux-servicesmapreduce_shuffle yarn.resourcemanager.hostnamelocalhost
  • 6 初始化与启动

    • 格式化 NameNode(仅首次):hdfs namenode -format
    • 启动 HDFS:start-dfs.sh
    • 启动 YARN:start-yarn.sh
    • 一键脚本(可选):start-all.sh(不建议生产使用)。
  • 7 验证与常用 Web UI

    • 进程检查:jps(应看到 NameNode、DataNode、ResourceManager、NodeManager 等)
    • HDFS Web UI:http://localhost:9870
    • YARN Web UI:http://localhost:8088
    • 命令行验证:hdfs dfs -ls /;如需创建目录:hdfs dfs -mkdir -p /user/$USER。
  • 8 运行示例作业

    • 计算 π:hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.6.jar pi 16 1000
    • 看到 π 的近似值即表示环境可用。

三 常见问题与排查要点

  • SSH 免密失败:检查 ~/.ssh 目录权限(700)、authorized_keys(600),以及 /etc/ssh/sshd_config 中 PubkeyAuthentication 为 yes;必要时重启 SSH 服务。
  • JAVA_HOME 未生效:同时在 hadoop-env.sh 与 shell 配置中设置,并确认路径与 java -version 输出一致。
  • 端口占用:9870/8088 若被占用,先排查并释放端口,或调整相关服务端口后再启动。
  • 权限问题:若以 root 运行,HDFS 相关目录与进程属主需一致;伪分布式练习可用简化配置,生产环境建议使用专用用户与权限隔离。
  • 格式化多次风险:重复格式化会导致 ClusterID 不一致,DataNode 无法注册;如需重置,清理数据目录后再格式化,或手动对齐 ClusterID。

四 扩展与多机部署提示

  • 多机部署要点:准备多台 Ubuntu 主机,统一 SSH 免密NTP 时间同步/etc/hosts 解析;规划 主从角色(NameNode/ResourceManager 与 DataNode/NodeManager);在 core-site.xml、hdfs-site.xml、yarn-site.xml 中设置正确的 fs.defaultFSdfs.replicationyarn.resourcemanager.hostname 等;首次同样需要 namenode -format,随后按角色分发配置并启动服务。
  • 目录规划:将 NameNode/DataNode 数据目录配置到独立磁盘或大容量分区,避免与系统盘争用。
  • 安全建议:生产环境启用 KerberosTLS/HTTPS防火墙审计;谨慎使用 root 运行 Hadoop 进程。

声明:本文内容由网友自发贡献,本站不承担相应法律责任。对本内容有异议或投诉,请联系2913721942#qq.com核实处理,我们将尽快回复您,谢谢合作!


若转载请注明出处: Ubuntu Hadoop安装步骤全解析
本文地址: https://pptw.com/jishu/764756.html
如何在Ubuntu上高效运行Hadoop Ubuntu与MinIO集成应用案例

游客 回复需填写必要信息