首页主机资讯怎样配置Ubuntu上的HDFS

怎样配置Ubuntu上的HDFS

时间2025-11-27 11:25:03发布访客分类主机资讯浏览382
导读:在Ubuntu上配置HDFS的完整步骤 一 环境准备与安装 更新系统并安装基础工具与 Java(Hadoop 3.x 常用 OpenJDK 8 或 OpenJDK 11): sudo apt update && sudo...

在Ubuntu上配置HDFS的完整步骤

一 环境准备与安装

  • 更新系统并安装基础工具与 Java(Hadoop 3.x 常用 OpenJDK 8OpenJDK 11):
    • sudo apt update & & sudo apt install -y build-essential openssh-server
    • 选择其一安装 JDK:sudo apt install -y openjdk-8-jdk 或 sudo apt install -y openjdk-11-jdk
    • 验证:java -version
  • 下载并解压 Hadoop(示例版本 3.3.6)到 /usr/local/
    • wget https://downloads.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz
    • sudo tar -xzvf hadoop-3.3.6.tar.gz -C /usr/local/
  • 配置环境变量(写入 ~/.bashrc/etc/profile,二选一):
    • export HADOOP_HOME=/usr/local/hadoop-3.3.6
    • export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64 # 若用 JDK 11,请改为相应路径
    • export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
    • 使生效:source ~/.bashrc 或 source /etc/profile
  • 验证 Hadoop:hadoop version

二 配置HDFS核心文件

  • 配置文件路径:$HADOOP_HOME/etc/hadoop/
  • core-site.xml(设置默认文件系统与临时目录):
    • fs.defaultFShdfs://localhost:9000 hadoop.tmp.dir/usr/local/hadoop-3.3.6/tmp
  • hdfs-site.xml(单机伪分布式常用配置,副本数设为 1):
    • dfs.replication1 dfs.namenode.name.dir/usr/local/hadoop-3.3.6/data/namenode dfs.datanode.data.dir/usr/local/hadoop-3.3.6/data/datanode
  • 创建数据与临时目录并赋权(如使用 hdfs 用户运行,请先创建该用户):
    • sudo mkdir -p /usr/local/hadoop-3.3.6/data/namenode /usr/local/hadoop-3.3.6/data/datanode
    • sudo mkdir -p /usr/local/hadoop-3.3.6/tmp
    • 若以 hdfs 用户运行:sudo chown -R hdfs:hdfs /usr/local/hadoop-3.3.6/data /usr/local/hadoop-3.3.6/tmp

三 启动与验证

  • 首次启动前格式化 NameNode:hdfs namenode -format
  • 启动 HDFS:start-dfs.sh(如需 YARN:再执行 start-yarn.sh)
  • 检查进程:jps(应看到 NameNodeDataNode,若启用 YARN 还能看到 ResourceManagerNodeManager
  • Web 界面:
    • HDFS NameNode:http://localhost:50070
    • YARN ResourceManager:http://localhost:8088
  • 基本 HDFS 操作验证:
    • hdfs dfs -mkdir -p /user/test
    • hdfs dfs -put /etc/hosts /user/test/hosts
    • hdfs dfs -ls /user/test
    • hdfs dfs -get /user/test/hosts ./hosts.hdfs

四 常见问题与防火墙

  • 端口与防火墙(若启用 ufw):
    • sudo ufw allow 9000
    • sudo ufw allow 50070
    • sudo ufw allow 8088
  • SSH 免密登录(Hadoop 脚本需要):
    • ssh-keygen -t rsa -P ‘’
    • ssh-copy-id localhost # 单机伪分布式;集群需对其他节点执行
  • 日志排查:
    • 查看 NameNode/DataNode 日志:tail -f $HADOOP_HOME/logs/hadoop--namenode-.log 和 tail -f $HADOOP_HOME/logs/hadoop--datanode-.log
  • 常见问题速查:
    • 无法访问 50070/8088:确认防火墙放行、服务已启动、浏览器访问地址与主机名一致
    • DataNode 未启动或反复退出:检查 dfs.datanode.data.dir 目录权限与磁盘空间,清理旧数据目录后重新格式化 NameNode
    • 环境变量无效:确认 HADOOP_HOMEJAVA_HOME 路径正确,并执行 source 使配置生效

五 扩展为小型集群的关键要点

  • 规划与网络:确定 NameNodeResourceManager、多个 DataNode 的主机名与 静态 IP,并在所有节点配置 /etc/hosts 或内网 DNS 解析
  • 全节点安装与统一环境:各节点安装相同版本的 JavaHadoop,统一 HADOOP_HOME/JAVA_HOME/PATH
  • SSH 免密互通:从 NameNode 到所有 DataNode/ResourceManager 节点配置免密登录
  • 配置文件调整:
    • core-site.xml:将 fs.defaultFS 设为 hdfs://namenode:9000
    • hdfs-site.xml:将 dfs.replication 设为 3(或按节点数调整),并分别设置各节点的 dfs.namenode.name.dirdfs.datanode.data.dir
    • yarn-site.xml:设置 yarn.resourcemanager.hostnameResourceManager 主机名
  • 启动与验证:
    • NameNode 执行:start-dfs.sh
    • ResourceManager 执行:start-yarn.sh
    • 查看集群状态:hdfs dfsadmin -report、yarn node -list

声明:本文内容由网友自发贡献,本站不承担相应法律责任。对本内容有异议或投诉,请联系2913721942#qq.com核实处理,我们将尽快回复您,谢谢合作!


若转载请注明出处: 怎样配置Ubuntu上的HDFS
本文地址: https://pptw.com/jishu/757707.html
HDFS配置Ubuntu报错怎么解决 Ubuntu MinIO如何备份配置文件

游客 回复需填写必要信息