首页主机资讯Ubuntu下HDFS集群搭建步骤是什么

Ubuntu下HDFS集群搭建步骤是什么

时间2025-11-25 12:09:03发布访客分类主机资讯浏览717
导读:Ubuntu下HDFS集群搭建步骤 一 环境准备与规划 准备至少2台运行Ubuntu 16.04+的机器,建议同一内网,配置静态IP与主机名解析(/etc/hosts 或 DNS),确保各节点可互相 SSH 登录。 安装 Java 8(H...

Ubuntu下HDFS集群搭建步骤

一 环境准备与规划

  • 准备至少2台运行Ubuntu 16.04+的机器,建议同一内网,配置静态IP主机名解析(/etc/hosts 或 DNS),确保各节点可互相 SSH 登录。
  • 安装 Java 8(Hadoop 3.x 常用):sudo apt update & & sudo apt install -y openjdk-8-jdk;验证:java -version。
  • 创建专用用户(如 hadoop)并配置 sudo 权限,便于统一运维。
  • 建议同步系统时间(如 ntpdate),避免分布式组件时钟漂移。
  • 规划角色:至少 1 个 NameNode1 个 SecondaryNameNode(可选)、≥1 个 DataNode;如需资源调度可同时部署 YARN(ResourceManager + NodeManager)。

二 安装与基础配置

  • 在所有节点下载并解压 Hadoop(示例版本 3.3.6):
    wget https://downloads.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz
    sudo tar -xzvf hadoop-3.3.6.tar.gz -C /usr/local/
  • 配置环境变量(~/.bashrc 或 /etc/profile):
    export HADOOP_HOME=/usr/local/hadoop-3.3.6
    export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
    export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
    source ~/.bashrc
  • 配置 SSH 免密登录
    ssh-keygen -t rsa
    ssh-copy-id user@namenode
    ssh-copy-id user@datanode1
    ssh-copy-id user@datanode2
  • NameNode 创建本地数据目录(示例):
    sudo mkdir -p /opt/hadoop/hdfs/{ namenode,datanode}
    sudo chown -R $USER:$USER /opt/hadoop

三 核心配置

  • 配置目录:$HADOOP_HOME/etc/hadoop
  • core-site.xml(指定默认文件系统与临时目录):
    fs.defaultFShdfs://namenode:9000 hadoop.tmp.dir/opt/hadoop/tmp
  • hdfs-site.xml(副本数与本地存储目录):
    dfs.replication2 dfs.namenode.name.dir/opt/hadoop/hdfs/namenode dfs.datanode.data.dir/opt/hadoop/hdfs/datanode
  • 如需 YARN(可选,便于后续 MapReduce/Spark 使用):
    mapred-site.xml:
    mapreduce.framework.nameyarn
    yarn-site.xml:
    yarn.resourcemanager.hostnamenamenode yarn.nodemanager.aux-servicesmapreduce_shuffle
  • 将配置分发到所有 DataNode 节点,保持目录与权限一致。

四 启动与验证

  • NameNode 初始化 HDFS:
    hdfs namenode -format
  • 启动服务:
    start-dfs.sh
    start-yarn.sh(如部署了 YARN)
  • 验证进程:
    jps(应见到 NameNode/DataNode/SecondaryNameNode,以及 YARN 的 ResourceManager/NodeManager
    hdfs dfsadmin -report(查看 Live datanodes 数量与容量)
    yarn node -list(查看 NodeManager 注册情况)
  • 访问 Web 界面:
    HDFS NameNode:http://namenode:9870(Hadoop 3.x 默认)
    YARN ResourceManager:http://namenode:8088
  • 简单功能测试:
    hdfs dfs -mkdir -p /user/$USER
    hdfs dfs -put $HADOOP_HOME/README.txt /user/$USER/
    hdfs dfs -ls /user/$USER

五 常见问题与运维要点

  • 配置与权限:确保各节点 core-site.xml/hdfs-site.xml 一致;目录存在且属主正确(如 hadoop:hadoop)。
  • SSH 免密:NameNode 能免密登录所有 DataNode;必要时检查 authorized_keys 与权限 600。
  • 防火墙/安全组:放行 9000(HDFS RPC)、9870(NN Web)、9868(2NN Web)、8088(YARN Web)等端口。
  • 时间与时钟:建议启用 NTP 同步,避免元数据与任务异常。
  • 扩展节点:在新 DataNode 同步配置与目录后,启动 DataNode:
    hdfs --daemon start datanode
    然后在 NameNode 执行 hdfs dfsadmin -report 确认新节点加入。
  • 版本差异提示:Hadoop 2.x 的 NameNode Web 端口常为 50070,Hadoop 3.x9870;如访问不通,请先确认版本与端口。

声明:本文内容由网友自发贡献,本站不承担相应法律责任。对本内容有异议或投诉,请联系2913721942#qq.com核实处理,我们将尽快回复您,谢谢合作!


若转载请注明出处: Ubuntu下HDFS集群搭建步骤是什么
本文地址: https://pptw.com/jishu/755423.html
Ubuntu如何管理HDFS用户权限 HDFS在Ubuntu上的故障排查方法

游客 回复需填写必要信息