首页主机资讯CentOS Hadoop 配置方法有哪些

CentOS Hadoop 配置方法有哪些

时间2025-11-18 10:39:03发布访客分类主机资讯浏览844
导读:CentOS 上 Hadoop 的常见配置方式 单机伪分布式:在一台 CentOS 上同时运行 NameNode/DataNode/ResourceManager/NodeManager,便于学习与功能验证。 多节点 HDFS 集群:至少...

CentOS 上 Hadoop 的常见配置方式

  • 单机伪分布式:在一台 CentOS 上同时运行 NameNode/DataNode/ResourceManager/NodeManager,便于学习与功能验证。
  • 多节点 HDFS 集群:至少 3 台机器,部署 NameNode + 多个 DataNode,可选 SecondaryNameNode,用于生产或准生产。
  • HDFS 客户端集成:在业务 CentOS 节点仅放置客户端配置,访问远端 HDFS(只读/读写),不部署 DataNode。
  • 基于脚本或自动化工具部署:使用 SSH 免密 + 配置分发脚本 快速初始化多机环境,或引入 Ambari 做图形化安装与监控(适合规模化管理)。

通用前置准备

  • Java:安装 OpenJDK 8(或 JDK 11),建议设置 JAVA_HOME 并加入 PATH
  • Hadoop 安装:下载并解压至如 /usr/local/hadoop/opt/hadoop,建议统一版本与目录结构。
  • 环境变量:在 /etc/profile.d/hadoop.sh~/.bashrc 中设置 HADOOP_HOME、HADOOP_CONF_DIR、PATH
  • SSH 免密:在集群主节点生成密钥,将公钥分发到各节点,便于脚本化启停与分发配置。
  • 防火墙与网络:开放 HDFS/YARN 相关端口(如 8020、50070、50075、50010、50020、8088 等),或在内网环境临时关闭防火墙以便联调。

关键配置文件与最小示例

  • 配置文件目录:$HADOOP_HOME/etc/hadoop/,核心为 core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml
  • 单机伪分布式最小示例(本地开发/验证常用):
    • core-site.xml
      • 设置默认文件系统为本地 HDFSfs.defaultFS=hdfs://localhost:9000
    • hdfs-site.xml
      • 副本数:dfs.replication=1
      • 元数据与数据目录:dfs.namenode.name.dirdfs.datanode.data.dir(示例:file:///usr/local/hadoop/dfs/namefile:///usr/local/hadoop/dfs/data
    • mapred-site.xml
      • 计算框架:mapreduce.framework.name=yarn
    • yarn-site.xml
      • 启用 Shuffle:yarn.nodemanager.aux-services=mapreduce_shuffle
      • Shuffle 类:yarn.nodemanager.aux-services.mapreduce.shuffle.class=org.apache.hadoop.mapred.ShuffleHandler
  • 多节点 HDFS 常用调整
    • core-site.xml:fs.defaultFS=hdfs://:9000(或 8020 端口约定)
    • hdfs-site.xml:dfs.replication=3(生产建议 3 副本),并分别配置各节点的 name/datanode 数据目录
    • yarn-site.xml:指定 yarn.resourcemanager.hostname=,其余同上启用 Shuffle

启动与验证

  • 首次初始化:在 NameNode 执行 hdfs namenode -format(仅首次)。
  • 启动服务
    • 仅 HDFS:start-dfs.sh
    • 含 YARN:start-yarn.sh(或分别启动 start-dfs.shstart-yarn.sh
  • 进程检查:执行 jps,常见进程包括 NameNode、DataNode、SecondaryNameNode、ResourceManager、NodeManager
  • HDFS 状态与 Web
    • 集群报告:hdfs dfsadmin -report
    • Web UI:http://:50070(HDFS NameNode)、http://:8088(YARN ResourceManager)

常见问题与优化建议

  • 权限问题:测试环境可临时关闭权限校验(dfs.permissions.enabled=false),生产环境应启用并规范 HDFS ACL/用户
  • 目录权限与归属:确保 dfs.namenode.name.dir/dfs.datanode.data.dir 目录存在且 Hadoop 运行用户具备读写权限。
  • 端口与防火墙:若启用防火墙,放行 HDFS/YARN 端口(如 8020、50070、50075、50010、50020、8088 等),或统一放通内网网段。
  • SSH 免密:集群脚本启停、分发配置均依赖 SSH 免密,务必在主节点可无密登录各节点。
  • 版本与兼容性:Hadoop 3.xJDK 8/11 均可用,建议固定版本并在所有节点保持一致;配置文件路径与目录结构保持统一,减少运维复杂度。

声明:本文内容由网友自发贡献,本站不承担相应法律责任。对本内容有异议或投诉,请联系2913721942#qq.com核实处理,我们将尽快回复您,谢谢合作!


若转载请注明出处: CentOS Hadoop 配置方法有哪些
本文地址: https://pptw.com/jishu/749896.html
怎样在CentOS上配置FetchLinux CentOS FetchLinux使用教程是什么

游客 回复需填写必要信息