Debian如何管理HDFS文件系统
导读:在 Debian 上管理 HDFS 的完整实践 一 环境准备与安装 安装基础依赖:更新系统并安装 OpenJDK 11 与 SSH,创建专用用户(如 hadoop),并配置本机 SSH 免密登录 以便脚本启动集群。 下载并解压 Hadoo...
在 Debian 上管理 HDFS 的完整实践
一 环境准备与安装
- 安装基础依赖:更新系统并安装 OpenJDK 11 与 SSH,创建专用用户(如 hadoop),并配置本机 SSH 免密登录 以便脚本启动集群。
- 下载并解压 Hadoop:从 Apache 获取稳定版本(如 3.3.6),解压至用户目录(如 ~/hadoop)。
- 配置环境变量:在 ~/.bashrc 中设置 HADOOP_HOME、PATH、JAVA_HOME,执行
source ~/.bashrc生效。 - 说明:Hadoop 3.x 在 Debian 上的管理与 2.x 基本一致,主要差异体现在 Web UI 端口与部分默认配置。
二 核心配置与初始化
- 配置目录:$HADOOP_HOME/etc/hadoop/,重点文件为 core-site.xml、hdfs-site.xml、hadoop-env.sh。
- 关键配置示例:
- core-site.xml:设置默认文件系统为 hdfs://0.0.0.0:9000(或 hdfs://namenode:9000)。
- hdfs-site.xml:设置副本数 dfs.replication(单节点用 1)、NameNode 与 DataNode 数据目录(如 file:///home/hadoop/hadoopdata/hdfs/{ namenode,datanode} ),以及 dfs.namenode.http-address=0.0.0.0:9870。
- hadoop-env.sh:设置 JAVA_HOME。
- 初始化与目录准备:创建数据目录后执行
hdfs namenode -format完成文件系统初始化。
三 启动与验证
- 启动服务:在 NameNode 上执行
start-dfs.sh启动 HDFS。 - 进程检查:运行
jps,应看到 NameNode 与 DataNode 进程。 - Web 界面:访问 http://< 服务器IP> :9870(NameNode UI),确认 Live Nodes 与存储信息。
- 连通性:确保防火墙放行 9000/tcp(RPC)、9870/tcp(NameNode UI)、9864/tcp(DataNode)。
四 常用 HDFS 文件与目录管理命令
- 目录与权限:
hdfs dfs -mkdir /data、hdfs dfs -chmod 755 /data、hdfs dfs -chown hadoop:hadoop /data - 文件传输:
hdfs dfs -put localfile /data/、hdfs dfs -get /data/remotefile ./ - 查看与删除:
hdfs dfs -ls /data、hdfs dfs -cat /data/file.txt、hdfs dfs -rm /data/file.txt、hdfs dfs -rm -r /data/dir - 配额与统计:
hdfs dfs -count -q /data、hdfs dfsadmin -report(集群节点与容量概况) - 安全删除(回收站):启用后可用
hdfs dfs -rm -skipTrash绕过回收站。
五 多节点与运维要点
- 规划与网络:为 NameNode、DataNode 规划固定 IP/主机名,在 /etc/hosts 或 DNS 中完成解析;保证节点间 SSH 免密 与 时间同步。
- 配置要点:
- core-site.xml:
fs.defaultFS=hdfs://namenode:9000 - hdfs-site.xml:设置 dfs.replication=3(生产建议)、以及 dfs.namenode.name.dir、dfs.datanode.data.dir 到各节点本地磁盘。
- core-site.xml:
- 启动与扩容:在 NameNode 执行
start-dfs.sh启动集群;扩容时新增 DataNode,分发配置并启动即可。 - 监控与可视化:使用 jps 与 NameNode UI(9870) 做日常巡检;大规模集群建议引入 Ambari 或 Cloudera Manager 做监控与配置管理。
声明:本文内容由网友自发贡献,本站不承担相应法律责任。对本内容有异议或投诉,请联系2913721942#qq.com核实处理,我们将尽快回复您,谢谢合作!
若转载请注明出处: Debian如何管理HDFS文件系统
本文地址: https://pptw.com/jishu/753939.html
