CentOS Hadoop 配置方法有哪些
导读:CentOS 上 Hadoop 的常见配置方式 单机伪分布式:在一台 CentOS 上同时运行 NameNode/DataNode/ResourceManager/NodeManager,便于学习与功能验证。 多节点 HDFS 集群:至少...
CentOS 上 Hadoop 的常见配置方式
- 单机伪分布式:在一台 CentOS 上同时运行 NameNode/DataNode/ResourceManager/NodeManager,便于学习与功能验证。
- 多节点 HDFS 集群:至少 3 台机器,部署 NameNode + 多个 DataNode,可选 SecondaryNameNode,用于生产或准生产。
- HDFS 客户端集成:在业务 CentOS 节点仅放置客户端配置,访问远端 HDFS(只读/读写),不部署 DataNode。
- 基于脚本或自动化工具部署:使用 SSH 免密 + 配置分发脚本 快速初始化多机环境,或引入 Ambari 做图形化安装与监控(适合规模化管理)。
通用前置准备
- Java:安装 OpenJDK 8(或 JDK 11),建议设置 JAVA_HOME 并加入 PATH。
- Hadoop 安装:下载并解压至如 /usr/local/hadoop 或 /opt/hadoop,建议统一版本与目录结构。
- 环境变量:在 /etc/profile.d/hadoop.sh 或 ~/.bashrc 中设置 HADOOP_HOME、HADOOP_CONF_DIR、PATH。
- SSH 免密:在集群主节点生成密钥,将公钥分发到各节点,便于脚本化启停与分发配置。
- 防火墙与网络:开放 HDFS/YARN 相关端口(如 8020、50070、50075、50010、50020、8088 等),或在内网环境临时关闭防火墙以便联调。
关键配置文件与最小示例
- 配置文件目录:$HADOOP_HOME/etc/hadoop/,核心为 core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml。
- 单机伪分布式最小示例(本地开发/验证常用):
- core-site.xml
- 设置默认文件系统为本地 HDFS:fs.defaultFS=hdfs://localhost:9000
- hdfs-site.xml
- 副本数:dfs.replication=1
- 元数据与数据目录:dfs.namenode.name.dir 与 dfs.datanode.data.dir(示例:file:///usr/local/hadoop/dfs/name 与 file:///usr/local/hadoop/dfs/data)
- mapred-site.xml
- 计算框架:mapreduce.framework.name=yarn
- yarn-site.xml
- 启用 Shuffle:yarn.nodemanager.aux-services=mapreduce_shuffle
- Shuffle 类:yarn.nodemanager.aux-services.mapreduce.shuffle.class=org.apache.hadoop.mapred.ShuffleHandler
- core-site.xml
- 多节点 HDFS 常用调整
- core-site.xml:fs.defaultFS=hdfs://:9000(或 8020 端口约定)
- hdfs-site.xml:dfs.replication=3(生产建议 3 副本),并分别配置各节点的 name/datanode 数据目录
- yarn-site.xml:指定 yarn.resourcemanager.hostname=,其余同上启用 Shuffle
启动与验证
- 首次初始化:在 NameNode 执行 hdfs namenode -format(仅首次)。
- 启动服务:
- 仅 HDFS:start-dfs.sh
- 含 YARN:start-yarn.sh(或分别启动 start-dfs.sh 与 start-yarn.sh)
- 进程检查:执行 jps,常见进程包括 NameNode、DataNode、SecondaryNameNode、ResourceManager、NodeManager。
- HDFS 状态与 Web:
- 集群报告:hdfs dfsadmin -report
- Web UI:http://:50070(HDFS NameNode)、http://:8088(YARN ResourceManager)
常见问题与优化建议
- 权限问题:测试环境可临时关闭权限校验(dfs.permissions.enabled=false),生产环境应启用并规范 HDFS ACL/用户。
- 目录权限与归属:确保 dfs.namenode.name.dir/dfs.datanode.data.dir 目录存在且 Hadoop 运行用户具备读写权限。
- 端口与防火墙:若启用防火墙,放行 HDFS/YARN 端口(如 8020、50070、50075、50010、50020、8088 等),或统一放通内网网段。
- SSH 免密:集群脚本启停、分发配置均依赖 SSH 免密,务必在主节点可无密登录各节点。
- 版本与兼容性:Hadoop 3.x 与 JDK 8/11 均可用,建议固定版本并在所有节点保持一致;配置文件路径与目录结构保持统一,减少运维复杂度。
声明:本文内容由网友自发贡献,本站不承担相应法律责任。对本内容有异议或投诉,请联系2913721942#qq.com核实处理,我们将尽快回复您,谢谢合作!
若转载请注明出处: CentOS Hadoop 配置方法有哪些
本文地址: https://pptw.com/jishu/749896.html
