怎样配置Ubuntu上的HDFS

时间2025-11-27 11:25:03发布访客分类主机资讯浏览382

导读：在Ubuntu上配置HDFS的完整步骤一环境准备与安装更新系统并安装基础工具与 Java（Hadoop 3.x 常用 OpenJDK 8 或 OpenJDK 11）： sudo apt update && sudo...

在Ubuntu上配置HDFS的完整步骤

一环境准备与安装

更新系统并安装基础工具与 Java（Hadoop 3.x 常用 OpenJDK 8 或 OpenJDK 11）：
- sudo apt update & & sudo apt install -y build-essential openssh-server
- 选择其一安装 JDK：sudo apt install -y openjdk-8-jdk 或 sudo apt install -y openjdk-11-jdk
- 验证：java -version
下载并解压 Hadoop（示例版本 3.3.6）到 /usr/local/：
- wget https://downloads.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz
- sudo tar -xzvf hadoop-3.3.6.tar.gz -C /usr/local/
配置环境变量（写入 ~/.bashrc 或 /etc/profile，二选一）：
- export HADOOP_HOME=/usr/local/hadoop-3.3.6
- export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64 # 若用 JDK 11，请改为相应路径
- export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
- 使生效：source ~/.bashrc 或 source /etc/profile
验证 Hadoop：hadoop version

二配置HDFS核心文件

配置文件路径：$HADOOP_HOME/etc/hadoop/
core-site.xml（设置默认文件系统与临时目录）：
- fs.defaultFShdfs://localhost:9000 hadoop.tmp.dir/usr/local/hadoop-3.3.6/tmp
hdfs-site.xml（单机伪分布式常用配置，副本数设为 1）：
- dfs.replication1 dfs.namenode.name.dir/usr/local/hadoop-3.3.6/data/namenode dfs.datanode.data.dir/usr/local/hadoop-3.3.6/data/datanode
创建数据与临时目录并赋权（如使用 hdfs 用户运行，请先创建该用户）：
- sudo mkdir -p /usr/local/hadoop-3.3.6/data/namenode /usr/local/hadoop-3.3.6/data/datanode
- sudo mkdir -p /usr/local/hadoop-3.3.6/tmp
- 若以 hdfs 用户运行：sudo chown -R hdfs:hdfs /usr/local/hadoop-3.3.6/data /usr/local/hadoop-3.3.6/tmp

三启动与验证

首次启动前格式化 NameNode：hdfs namenode -format
启动 HDFS：start-dfs.sh（如需 YARN：再执行 start-yarn.sh）
检查进程：jps（应看到 NameNode、DataNode，若启用 YARN 还能看到 ResourceManager、NodeManager）
Web 界面：
- HDFS NameNode：http://localhost:50070
- YARN ResourceManager：http://localhost:8088
基本 HDFS 操作验证：
- hdfs dfs -mkdir -p /user/test
- hdfs dfs -put /etc/hosts /user/test/hosts
- hdfs dfs -ls /user/test
- hdfs dfs -get /user/test/hosts ./hosts.hdfs

四常见问题与防火墙

端口与防火墙（若启用 ufw）：
- sudo ufw allow 9000
- sudo ufw allow 50070
- sudo ufw allow 8088
SSH 免密登录（Hadoop 脚本需要）：
- ssh-keygen -t rsa -P ‘’
- ssh-copy-id localhost # 单机伪分布式；集群需对其他节点执行
日志排查：
- 查看 NameNode/DataNode 日志：tail -f $HADOOP_HOME/logs/hadoop--namenode-.log 和 tail -f $HADOOP_HOME/logs/hadoop--datanode-.log
常见问题速查：
- 无法访问 50070/8088：确认防火墙放行、服务已启动、浏览器访问地址与主机名一致
- DataNode 未启动或反复退出：检查 dfs.datanode.data.dir 目录权限与磁盘空间，清理旧数据目录后重新格式化 NameNode
- 环境变量无效：确认 HADOOP_HOME 与 JAVA_HOME 路径正确，并执行 source 使配置生效

五扩展为小型集群的关键要点

规划与网络：确定 NameNode、ResourceManager、多个 DataNode 的主机名与 静态 IP，并在所有节点配置 /etc/hosts 或内网 DNS 解析
全节点安装与统一环境：各节点安装相同版本的 Java 与 Hadoop，统一 HADOOP_HOME/JAVA_HOME/PATH
SSH 免密互通：从 NameNode 到所有 DataNode/ResourceManager 节点配置免密登录
配置文件调整：
- core-site.xml：将 fs.defaultFS 设为 hdfs://namenode:9000
- hdfs-site.xml：将 dfs.replication 设为 3（或按节点数调整），并分别设置各节点的 dfs.namenode.name.dir 与 dfs.datanode.data.dir
- yarn-site.xml：设置 yarn.resourcemanager.hostname 为 ResourceManager 主机名
启动与验证：
- 在 NameNode 执行：start-dfs.sh
- 在 ResourceManager 执行：start-yarn.sh
- 查看集群状态：hdfs dfsadmin -report、yarn node -list

声明：本文内容由网友自发贡献，本站不承担相应法律责任。对本内容有异议或投诉，请联系2913721942#qq.com核实处理，我们将尽快回复您，谢谢合作！