Ubuntu Hadoop 数据存储如何管理
导读:Ubuntu Hadoop 数据存储管理指南 一 架构与关键配置 存储核心为 HDFS,采用主从架构:NameNode 管理元数据,DataNode 存储实际数据块;适合一次写入、多次读取的大数据场景,具备高容错与高吞吐特性。 关键配置建...
Ubuntu Hadoop 数据存储管理指南
一 架构与关键配置
- 存储核心为 HDFS,采用主从架构:NameNode 管理元数据,DataNode 存储实际数据块;适合一次写入、多次读取的大数据场景,具备高容错与高吞吐特性。
- 关键配置建议:
- 在 core-site.xml 设置默认文件系统地址,例如:
fs.defaultFShdfs://namenode:9000 - 在 hdfs-site.xml 设置副本数与本地存储目录,例如:
dfs.replication3
dfs.namenode.name.dirfile:///data/hdfs/namenode
dfs.datanode.data.dirfile:///data/hdfs/datanode
- 首次启动前执行 hdfs namenode -format 初始化元数据目录。
- 启动/停止:sbin/start-dfs.sh、sbin/stop-dfs.sh;用 jps 检查进程(应见到 NameNode、DataNode、SecondaryNameNode)。
- 在 core-site.xml 设置默认文件系统地址,例如:
二 日常运维与监控
- 集群健康与容量:使用 hdfs dfsadmin -report 查看 DataNode 数量、容量、使用率 等;必要时通过 hdfs dfsadmin -safemode get/enter/leave 管理安全模式(维护前进入、完成后退出)。
- 权限与配额:
- 权限模型与 Linux 类似,支持 chmod/chown;更细粒度可用 ACL:hdfs dfs -setfacl / -getfacl。
- 配额管理:hdfs dfsadmin -setQuota(限制目录下的文件/目录数量)、-setSpaceQuota(限制占用空间)。
- 数据生命周期与清理:定期清理过期/不再需要的数据;对冷数据进行归档以释放在线空间并降低管理开销。
三 性能与成本优化
- 存储布局与硬件:将数据分布在多磁盘/多节点,必要时使用 SSD 承载热点数据或关键路径,提高读写吞吐。
- 数据布局与处理策略:
- 合理设置 块大小(如 128MB/256MB) 以匹配作业访问模式;
- 适度提高 副本数 增强可靠性(代价是存储成本上升);
- 避免小文件泛滥(会加剧 NameNode 内存与 RPC 压力),通过合并小文件、使用**容器格式(如 Parquet/ORC)**降低元数据与扫描成本;
- 启用压缩(如 Snappy/ZSTD/GZIP)减少存储占用与网络传输量;
- 对不常访问的数据做归档/分层存储,将热数据保留在高性能介质。
四 备份恢复与高可用
- 备份与快照:利用 HDFS 快照对关键目录进行时间点备份;对核心数据可跨集群/跨机房复制增强可用性。
- 恢复手段:依据快照、编辑日志(EditLog)与备份数据执行恢复;在异常或误删场景下,优先从快照回滚。
- 高可用与安全:生产环境建议部署 HA(NameNode HA) 消除单点;启用 Kerberos 认证、RBAC/ACL、传输/存储加密,并配置 NTP 保证集群时间同步。
五 常用命令速查
- 目录与文件:
- 创建目录:hdfs dfs -mkdir -p /path/to/dir
- 上传/下载:hdfs dfs -put localfile /hdfs/path,hdfs dfs -get /hdfs/file localfile
- 查看内容:hdfs dfs -cat /hdfs/file
- 删除:hdfs dfs -rm -r /hdfs/path
- 管理与运维:
- 集群报告:hdfs dfsadmin -report
- 安全模式:hdfs dfsadmin -safemode get/enter/leave
- 配额:hdfs dfsadmin -setQuota 100 /path,-setSpaceQuota 10G /path
- 权限/ACL:hdfs dfs -chmod/chown,-setfacl/-getfacl
- 作业与示例:运行示例任务(如 grep)并查看输出:hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.4.0.jar grep input output ‘dfs[a-z.]+’,hdfs dfs -cat output/*。
声明:本文内容由网友自发贡献,本站不承担相应法律责任。对本内容有异议或投诉,请联系2913721942#qq.com核实处理,我们将尽快回复您,谢谢合作!
若转载请注明出处: Ubuntu Hadoop 数据存储如何管理
本文地址: https://pptw.com/jishu/753095.html
