怎样配置Ubuntu上的HDFS
导读:在Ubuntu上配置HDFS的完整步骤 一 环境准备与安装 更新系统并安装基础工具与 Java(Hadoop 3.x 常用 OpenJDK 8 或 OpenJDK 11): sudo apt update && sudo...
在Ubuntu上配置HDFS的完整步骤
一 环境准备与安装
- 更新系统并安装基础工具与 Java(Hadoop 3.x 常用 OpenJDK 8 或 OpenJDK 11):
- sudo apt update & & sudo apt install -y build-essential openssh-server
- 选择其一安装 JDK:sudo apt install -y openjdk-8-jdk 或 sudo apt install -y openjdk-11-jdk
- 验证:java -version
- 下载并解压 Hadoop(示例版本 3.3.6)到 /usr/local/:
- wget https://downloads.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz
- sudo tar -xzvf hadoop-3.3.6.tar.gz -C /usr/local/
- 配置环境变量(写入 ~/.bashrc 或 /etc/profile,二选一):
- export HADOOP_HOME=/usr/local/hadoop-3.3.6
- export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64 # 若用 JDK 11,请改为相应路径
- export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
- 使生效:source ~/.bashrc 或 source /etc/profile
- 验证 Hadoop:hadoop version
二 配置HDFS核心文件
- 配置文件路径:$HADOOP_HOME/etc/hadoop/
- core-site.xml(设置默认文件系统与临时目录):
- fs.defaultFShdfs://localhost:9000 hadoop.tmp.dir/usr/local/hadoop-3.3.6/tmp
- hdfs-site.xml(单机伪分布式常用配置,副本数设为 1):
- dfs.replication1 dfs.namenode.name.dir/usr/local/hadoop-3.3.6/data/namenode dfs.datanode.data.dir/usr/local/hadoop-3.3.6/data/datanode
- 创建数据与临时目录并赋权(如使用 hdfs 用户运行,请先创建该用户):
- sudo mkdir -p /usr/local/hadoop-3.3.6/data/namenode /usr/local/hadoop-3.3.6/data/datanode
- sudo mkdir -p /usr/local/hadoop-3.3.6/tmp
- 若以 hdfs 用户运行:sudo chown -R hdfs:hdfs /usr/local/hadoop-3.3.6/data /usr/local/hadoop-3.3.6/tmp
三 启动与验证
- 首次启动前格式化 NameNode:hdfs namenode -format
- 启动 HDFS:start-dfs.sh(如需 YARN:再执行 start-yarn.sh)
- 检查进程:jps(应看到 NameNode、DataNode,若启用 YARN 还能看到 ResourceManager、NodeManager)
- Web 界面:
- HDFS NameNode:http://localhost:50070
- YARN ResourceManager:http://localhost:8088
- 基本 HDFS 操作验证:
- hdfs dfs -mkdir -p /user/test
- hdfs dfs -put /etc/hosts /user/test/hosts
- hdfs dfs -ls /user/test
- hdfs dfs -get /user/test/hosts ./hosts.hdfs
四 常见问题与防火墙
- 端口与防火墙(若启用 ufw):
- sudo ufw allow 9000
- sudo ufw allow 50070
- sudo ufw allow 8088
- SSH 免密登录(Hadoop 脚本需要):
- ssh-keygen -t rsa -P ‘’
- ssh-copy-id localhost # 单机伪分布式;集群需对其他节点执行
- 日志排查:
- 查看 NameNode/DataNode 日志:tail -f $HADOOP_HOME/logs/hadoop--namenode-.log 和 tail -f $HADOOP_HOME/logs/hadoop--datanode-.log
- 常见问题速查:
- 无法访问 50070/8088:确认防火墙放行、服务已启动、浏览器访问地址与主机名一致
- DataNode 未启动或反复退出:检查 dfs.datanode.data.dir 目录权限与磁盘空间,清理旧数据目录后重新格式化 NameNode
- 环境变量无效:确认 HADOOP_HOME 与 JAVA_HOME 路径正确,并执行 source 使配置生效
五 扩展为小型集群的关键要点
- 规划与网络:确定 NameNode、ResourceManager、多个 DataNode 的主机名与 静态 IP,并在所有节点配置 /etc/hosts 或内网 DNS 解析
- 全节点安装与统一环境:各节点安装相同版本的 Java 与 Hadoop,统一 HADOOP_HOME/JAVA_HOME/PATH
- SSH 免密互通:从 NameNode 到所有 DataNode/ResourceManager 节点配置免密登录
- 配置文件调整:
- core-site.xml:将 fs.defaultFS 设为 hdfs://namenode:9000
- hdfs-site.xml:将 dfs.replication 设为 3(或按节点数调整),并分别设置各节点的 dfs.namenode.name.dir 与 dfs.datanode.data.dir
- yarn-site.xml:设置 yarn.resourcemanager.hostname 为 ResourceManager 主机名
- 启动与验证:
- 在 NameNode 执行:start-dfs.sh
- 在 ResourceManager 执行:start-yarn.sh
- 查看集群状态:hdfs dfsadmin -report、yarn node -list
声明:本文内容由网友自发贡献,本站不承担相应法律责任。对本内容有异议或投诉,请联系2913721942#qq.com核实处理,我们将尽快回复您,谢谢合作!
若转载请注明出处: 怎样配置Ubuntu上的HDFS
本文地址: https://pptw.com/jishu/757707.html
