首页主机资讯HDFS集群如何在Ubuntu上搭建

HDFS集群如何在Ubuntu上搭建

时间2026-01-20 13:07:04发布访客分类主机资讯浏览733
导读:在 Ubuntu 上搭建 HDFS 集群 一 环境准备与规划 准备至少2 台 Ubuntu(建议 18.04/20.04/22.04),选择OpenJDK 8(Hadoop 3.x 常用且稳定),在所有节点安装:sudo apt upda...

在 Ubuntu 上搭建 HDFS 集群

一 环境准备与规划

  • 准备至少2 台 Ubuntu(建议 18.04/20.04/22.04),选择OpenJDK 8(Hadoop 3.x 常用且稳定),在所有节点安装:sudo apt update & & sudo apt install -y openjdk-8-jdk;验证:java -version。为便于维护,建议创建 hadoop 用户并配置 sudo 权限。同步系统时间(如:sudo ntpdate cn.pool.ntp.org),避免分布式时钟漂移。规划角色:至少 1 个 NameNode1 个 ResourceManager(可与 NameNode 同机)、多个 DataNode/NodeManager。完成 /etc/hosts 或 DNS 主机名解析,确保节点间可互通;配置 SSH 免密登录(主节点能免密登录所有工作节点)。

二 安装与基础配置

  • 下载并解压 Hadoop(示例版本 3.3.6):wget https://downloads.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz & & tar -xzvf hadoop-3.3.6.tar.gz -C /usr/local/;建议软链:sudo ln -s /usr/local/hadoop-3.3.6 /usr/local/hadoop。配置环境变量(~/.bashrc 或 /etc/profile):export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64;export HADOOP_HOME=/usr/local/hadoop;export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin;source 使其生效。配置 SSH 免密:ssh-keygen -t rsa -P “” -f ~/.ssh/id_rsa;ssh-copy-id user@worker-ip。按需创建数据目录(示例:/data/hdfs/{ nn,dn} ),并确保运行 Hadoop 的用户对该目录有读写权限。

三 核心配置

  • 配置目录为 $HADOOP_HOME/etc/hadoop。关键文件示例:core-site.xml 指定默认文件系统为 hdfs://:9000;hdfs-site.xml 设置副本数(如 dfs.replication=2/3)、NameNode 与 DataNode 数据目录(如 dfs.namenode.name.dirdfs.datanode.data.dir);workers(或旧版 slaves)列出所有 DataNode 主机名/IP;如需 YARN,可补充 mapred-site.xml(mapreduce.framework.name=yarn)与 yarn-site.xml(yarn.resourcemanager.hostname、yarn.nodemanager.aux-services=mapreduce_shuffle)。注意:Hadoop 3.x 默认 NameNode Web UI 端口为 9870(2.x 为 50070),避免端口混淆。

四 启动与验证

  • 首次启动前在 NameNode 上格式化文件系统:hdfs namenode -format。启动 HDFS:start-dfs.sh;如使用 YARN:start-yarn.sh。验证进程:jps 应能看到 NameNode/DataNode/SecondaryNameNode(以及 ResourceManager/NodeManager 若启用 YARN)。运行 hdfs dfsadmin -report 查看 DataNode 数量与容量;访问 http://:9870 查看 HDFS 状态。常用运维:hdfs dfs -mkdir -p /test & & hdfs dfs -put /etc/hosts /test 测试写入;停止集群用 stop-dfs.sh(与 stop-yarn.sh)。

五 常见问题与优化

  • 配置与连通性:确保各节点 core-site.xml/hdfs-site.xml 一致;/etc/hosts 或 DNS 正确;SSH 免密 正常;云环境需放通 9000/9870 等端口(UFW:sudo ufw allow 9000,9870)。权限与目录:数据目录属主/权限正确,避免因权限导致 DataNode 无法启动。日志排查:tail -f $HADOOP_HOME/logs/hadoop--namenode-.log 与 datanode 日志。扩展节点:将配置同步到新 DataNode,在新节点执行 hdfs --daemon start datanode 即可加入集群。性能与安全:根据磁盘与业务调整 dfs.replication、块大小与 Handler 数量;生产环境建议启用 Kerberos、启用 HTTPS 与防火墙白名单,并考虑高可用(HA)部署。

声明:本文内容由网友自发贡献,本站不承担相应法律责任。对本内容有异议或投诉,请联系2913721942#qq.com核实处理,我们将尽快回复您,谢谢合作!


若转载请注明出处: HDFS集群如何在Ubuntu上搭建
本文地址: https://pptw.com/jishu/787177.html
Ubuntu中HDFS的权限管理怎样实现 Ubuntu如何解决HDFS数据丢失问题

游客 回复需填写必要信息