Ubuntu上HDFS安装步骤是什么
导读:Ubuntu 上安装与配置 HDFS 步骤 一 环境准备 准备至少一台 Ubuntu 18.04+ 主机,建议使用 OpenJDK 8(Hadoop 3.x 常用版本),创建专用用户(如 hadoop)并配置 sudo 权限。 安装基础工...
Ubuntu 上安装与配置 HDFS 步骤
一 环境准备
- 准备至少一台 Ubuntu 18.04+ 主机,建议使用 OpenJDK 8(Hadoop 3.x 常用版本),创建专用用户(如 hadoop)并配置 sudo 权限。
- 安装基础工具与 Java:
sudo apt update
sudo apt install -y openjdk-8-jdk vim ntpdate
java -version - 配置 SSH 免密登录(单机也建议配置到 localhost,便于启动脚本):
ssh-keygen -t rsa -b 4096
ssh-copy-id localhost - 可选:同步系统时间,避免节点间时间漂移影响集群稳定性:
sudo ntpdate cn.pool.ntp.org
以上为后续安装 Hadoop/HDFS 的必要前置条件。
二 安装 Hadoop 与环境变量
- 下载并解压 Hadoop(示例以 3.3.x 为例,放到 /usr/local):
wget https://downloads.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz
sudo tar -xzvf hadoop-3.3.6.tar.gz -C /usr/local/
sudo ln -s /usr/local/hadoop-3.3.6 /usr/local/hadoop - 配置环境变量(写入 ~/.bashrc 或 /etc/profile):
echo ‘export HADOOP_HOME=/usr/local/hadoop’ > > ~/.bashrc
echo ‘export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin’ > > ~/.bashrc
echo ‘export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64’ > > ~/.bashrc
source ~/.bashrc - 在 $HADOOP_HOME/etc/hadoop/hadoop-env.sh 中显式设置 JAVA_HOME(与上一致),避免脚本找不到 Java。
上述步骤完成后,Hadoop 命令可在任意路径使用。
三 配置 HDFS(单机与伪分布式)
- 进入配置目录:cd $HADOOP_HOME/etc/hadoop
- 编辑 core-site.xml(指定默认文件系统与临时目录):
fs.defaultFS hdfs://localhost:9000 hadoop.tmp.dir /home/hadoop/hdata - 编辑 hdfs-site.xml(单机副本数设为 1,并指定 NameNode/DataNode 数据目录):
dfs.replication 1 dfs.namenode.name.dir file:///home/hadoop/hdata/dfs/name dfs.datanode.data.dir file:///home/hadoop/hdata/dfs/data - 创建数据目录并赋权(以 hadoop 用户为例):
sudo mkdir -p /home/hadoop/hdata/dfs/{ name,data}
sudo chown -R hadoop:hadoop /home/hadoop/hdata - 格式化 NameNode(首次启动前执行一次即可):
hdfs namenode -format
以上配置即可在本机完成 HDFS 的伪分布式运行。
四 启动与验证
- 启动 HDFS:
start-dfs.sh - 检查进程:
jps
应看到 NameNode、DataNode、SecondaryNameNode(若配置了 YARN,还会有 ResourceManager、NodeManager)。 - 查看 HDFS 状态与 Web UI:
hdfs dfsadmin -report
NameNode Web UI:http://localhost:9870(Hadoop 3.x 默认端口;2.x 为 50070) - 简单文件测试:
hdfs dfs -mkdir /test
hdfs dfs -put $HADOOP_HOME/README.txt /test
hdfs dfs -cat /test/README.txt
若端口无法访问,请确认本机防火墙已放行对应端口(如 9870/50070、9000)。
五 常见问题与扩展
- 配置文件错误:核对 core-site.xml、hdfs-site.xml 中路径、端口与副本数;修改后需重启相应进程。
- SSH 免密问题:确保主节点能无密码登录自身及所有工作节点(或本机 localhost)。
- 防火墙/安全组:放行 9000(RPC)、9870/50070(NameNode Web)、以及 YARN 相关端口(如 8088)。
- 扩展到多节点集群:
- 规划 NameNode/DataNode 角色,统一 /etc/hosts 或 DNS 解析;
- 所有节点安装相同版本 Java/Hadoop 并同步配置;
- 主节点配置 workers(列出所有 DataNode 主机名);
- 主节点到各节点配置 SSH 免密;
- 仅在 NameNode 上执行 hdfs namenode -format;
- 启动:主节点 start-dfs.sh,在 ResourceManager 节点执行 start-yarn.sh;
- 验证:hdfs dfsadmin -report、yarn node -list,并访问 http://namenode:9870 与 http://resourcemanager:8088。
- 日志排查:
tail -f $HADOOP_HOME/logs/hadoop--namenode-.log
tail -f $HADOOP_HOME/logs/hadoop--datanode-.log
以上做法可快速定位常见故障并完成从单机到多节点的平滑扩展。
声明:本文内容由网友自发贡献,本站不承担相应法律责任。对本内容有异议或投诉,请联系2913721942#qq.com核实处理,我们将尽快回复您,谢谢合作!
若转载请注明出处: Ubuntu上HDFS安装步骤是什么
本文地址: https://pptw.com/jishu/787179.html
