ubuntu hdfs数据备份方法

时间2026-01-22 04:12:03发布访客分类主机资讯浏览911

导读：Ubuntu 环境下 HDFS 数据备份与恢复实用指南一备份总览与选择 HDFS 快照 Snapshot：对目录创建只读时间点副本，创建快、成本低，适合频繁快速回滚。副本与纠删码：通过 dfs.replication 调整副本数提升...

Ubuntu 环境下 HDFS 数据备份与恢复实用指南

一备份总览与选择

二快速上手常用方法

快照（适合目录级快速回滚）
1. 开启快照：hdfs dfs -allowSnapshot /data
2. 创建快照：hdfs dfs -createSnapshot /data snap_20260107
3. 查看快照：hdfs dfs -lsSnapshottableDir；hdfs dfs -ls /data/.snapshot
4. 从快照恢复：hdfs dfs -cp /data/.snapshot/snap_20260107/file /data/file
5. 删除快照：hdfs dfs -deleteSnapshot /data snap_20260107
回收站（误删短时挽回）
- 启用回收站（core-site.xml）：
  fs.trash.interval120
  fs.trash.checkpoint.interval120
- 恢复：hdfs dfs -mv /user/hive/.Trash/Current/path /path
跨集群备份（DistCp，适合异地/云端）
- 全量：hadoop distcp hdfs://src-nn:8020/data hdfs://backup-nn:8020/backup/data_20260107
- 增量（基于上次时间戳）：hadoop distcp -update -diff < prev_snapshot> src backup
- 带宽限速与并发：hadoop distcp -bandwidth 100 -m 50 src backup
冷数据降成本（纠删码）
- 查看/启用策略：hdfs ec -listPolicies；hdfs ec -enablePolicy -policy RS-6-3-1024k
- 应用策略：hdfs dfsadmin -setErasureCodingPolicy /data/cold RS-6-3-1024k
副本数调整（权衡可靠性与容量）
- 查看：hdfs dfs -ls /data/file
- 调整：hdfs dfs -setrep -w 5 /data/file（注意：实际副本数≤DataNode 数）

三元数据与关键配置备份

四异地与云端备份方案

跨地域备份：使用 DistCp 将生产集群数据复制到异地机房/对象存储（如 S3/HDFS 兼容网关），结合全量+增量策略与带宽限速，在窗口期执行。
云上落地：通过 S3A/ABFS/GCS 等连接器将备份写入云存储；或采用 HDFS 兼容网关 + DistCp 的方式实现低成本落地。
管理与编排：借助 Cloudera Manager / Ambari 配置跨集群复制与备份策略，统一监控与告警。

五恢复与演练建议

声明：本文内容由网友自发贡献，本站不承担相应法律责任。对本内容有异议或投诉，请联系2913721942#qq.com核实处理，我们将尽快回复您，谢谢合作！