如何在 Debian 上使用 Hadoop 工具

时间2025-11-27 22:46:04发布访客分类主机资讯浏览1231

导读：在 Debian 上使用 Hadoop 工具一环境准备安装 Java（Hadoop 3.x 建议使用 OpenJDK 8 或 11）：安装 OpenJDK 11：sudo apt update && sudo a...

在 Debian 上使用 Hadoop 工具

一环境准备

安装 Java（Hadoop 3.x 建议使用 OpenJDK 8 或 11）：
- 安装 OpenJDK 11：sudo apt update & & sudo apt install -y openjdk-11-jdk
- 验证：java -version
安装与配置 SSH（用于节点间通信与启动脚本）：
- 安装：sudo apt install -y openssh-server
- 生成密钥：ssh-keygen -t rsa -P “”
- 免密登录本机：cat ~/.ssh/id_rsa.pub > > ~/.ssh/authorized_keys & & ssh localhost
创建专用用户（可选但推荐）：sudo adduser hadoop & & sudo usermod -aG sudo hadoop
规划主机名与网络（多机集群时）：
- 在 /etc/hosts 中写入各节点 IP 与主机名（如 master、worker1…）
- 确保各节点之间可通过主机名互相 SSH 登录

二安装与配置 Hadoop

下载并解压（示例为 3.3.1，可按需替换为更新稳定版）：
- wget https://downloads.apache.org/hadoop/common/hadoop-3.3.1/hadoop-3.3.1.tar.gz
- sudo tar -xzvf hadoop-3.3.1.tar.gz -C /usr/local/
- sudo mv /usr/local/hadoop-3.3.1 /usr/local/hadoop
设置环境变量（对所有节点配置，建议写入 /etc/profile.d/hadoop.sh）：
- export HADOOP_HOME=/usr/local/hadoop
- export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
- 使生效：source /etc/profile 或 source ~/.bashrc
配置 Hadoop 环境脚本（$HADOOP_HOME/etc/hadoop/hadoop-env.sh）：
- 设置 JAVA_HOME（按实际路径）：export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64
核心配置文件（$HADOOP_HOME/etc/hadoop/）：
- core-site.xml
  - - fs.defaultFShdfs://master:9000 -
- hdfs-site.xml
  - - dfs.replication1 - dfs.namenode.name.dir/usr/local/hadoop/hdfs/name - dfs.datanode.data.dir/usr/local/hadoop/hdfs/data -
- mapred-site.xml
  - - mapreduce.framework.nameyarn -
- yarn-site.xml
  - - yarn.nodemanager.aux-servicesmapreduce_shuffle - yarn.nodemanager.aux-services.mapreduce.shuffle.classorg.apache.hadoop.mapred.ShuffleHandler - yarn.resourcemanager.hostnamemaster -
创建数据目录并授权（示例）：
- sudo mkdir -p /usr/local/hadoop/hdfs/{ name,data}
- sudo chown -R hadoop:hadoop /usr/local/hadoop

三启动与验证

四运行示例作业

准备输入数据到 HDFS：
- hdfs dfs -mkdir -p /input
- hdfs dfs -put $HADOOP_HOME/etc/hadoop/*.xml /input
提交 WordCount（示例 JAR 路径随版本变化，请按实际调整）：
- hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.1.jar wordcount /input /output
查看结果：
- hdfs dfs -cat /output/part-r-00000
注意：输出目录 /output 必须不存在，否则作业会报错

五常见问题与优化

目录权限与路径：确保 HADOOP_HOME、HDFS 数据目录 所属用户为运行 Hadoop 的用户（如 hadoop），否则可能启动失败或无法写入
SSH 免密：多机部署时，主节点需对 所有工作节点 执行 ssh-copy-id，保证 start-dfs.sh/start-yarn.sh 能无密登录
Java 版本匹配：Hadoop 3.3.x 与 OpenJDK 8/11 均可用，避免混用不同厂商 JDK；hadoop-env.sh 中的 JAVA_HOME 必须与实际安装路径一致
防火墙与端口：开放 9870（NameNode UI）、8088（YARN UI）、9000（HDFS RPC） 等端口，或在内网环境关闭防火墙
资源与性能：
- 合理设置 dfs.replication（单机测试用 1，生产建议 ≥ 3）
- 根据内存与 CPU 为 YARN 配置容器资源（如 yarn.nodemanager.resource.memory-mb、yarn.scheduler.maximum-allocation-mb）
- 作业优化：使用高效数据格式（如 Parquet/ORC）、合理设置 Map/Reduce 数量、分区与分桶等以加速处理

声明：本文内容由网友自发贡献，本站不承担相应法律责任。对本内容有异议或投诉，请联系2913721942#qq.com核实处理，我们将尽快回复您，谢谢合作！