Debian上如何安装Hadoop

时间2025-12-15 08:39:03发布访客分类主机资讯浏览251

导读：在 Debian 上安装与配置 Hadoop 的完整步骤一环境准备更新系统并安装依赖：安装 Java 8 或 11（Hadoop 3.x 建议使用 Java 8）、安装 SSH 并配置本机免密登录（单机伪分布式同样建议配置，便于启动...

在 Debian 上安装与配置 Hadoop 的完整步骤

一环境准备

二安装 Hadoop

下载并解压（以 3.3.6 为例，可按需替换为最新稳定版）：
- wget https://downloads.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz
- sudo tar -xzvf hadoop-3.3.6.tar.gz -C /usr/local
- sudo ln -sfn /usr/local/hadoop-3.3.6 /usr/local/hadoop
配置环境变量（写入 ~/.bashrc 或 /etc/profile，二选一）：
- export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
- export HADOOP_HOME=/usr/local/hadoop
- export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
- export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
- 使配置生效：source ~/.bashrc
验证安装：hadoop version 应输出版本信息。

三配置 Hadoop（单机伪分布式）

编辑 Hadoop 环境脚本，显式设置 JAVA_HOME：
- echo “export JAVA_HOME=$JAVA_HOME” > > $HADOOP_HOME/etc/hadoop/hadoop-env.sh
核心配置文件（$HADOOP_HOME/etc/hadoop/）：
- core-site.xml
  fs.defaultFS hdfs://localhost:9000
- hdfs-site.xml（单机将副本设为 1）
  dfs.replication 1 dfs.namenode.name.dir /usr/local/hadoop/dfs/name dfs.datanode.data.dir /usr/local/hadoop/dfs/data
- mapred-site.xml（如文件不存在，先 cp mapred-site.xml.template mapred-site.xml）
  mapreduce.framework.name yarn
- yarn-site.xml
  yarn.nodemanager.aux-services mapreduce_shuffle yarn.nodemanager.aux-services.mapreduce.shuffle.class org.apache.hadoop.mapred.ShuffleHandler
创建数据目录并授权：
- sudo mkdir -p /usr/local/hadoop/dfs/{ name,data}
- sudo chown -R $USER:$USER /usr/local/hadoop/dfs

四启动与验证

首次启动前格式化 NameNode：hdfs namenode -format
启动服务：
- 启动 HDFS：start-dfs.sh
- 启动 YARN：start-yarn.sh
进程检查：jps 应看到 NameNode、DataNode、ResourceManager、NodeManager 等进程
Web UI：
- NameNode：http://localhost:9870
- ResourceManager：http://localhost:8088
运行示例作业（WordCount）：
- 准备输入：echo -e “Hello World\nHello Hadoop” > ~/input.txt
- 上传到 HDFS：hdfs dfs -mkdir -p /user/$USER/input & & hdfs dfs -put ~/input.txt /user/$USER/input
- 提交作业：
  hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.6.jar wordcount
  /user/$USER/input /user/$USER/output
- 查看结果：hdfs dfs -cat /user/$USER/output/part-r-00000

五常见问题与扩展

Java 版本选择：Hadoop 3.3.x 与 Java 8 兼容性最好；如使用 Java 11，请确保版本匹配与依赖一致。
SSH 免密：若 start-dfs.sh/start-yarn.sh 执行卡住，检查本机 ~/.ssh/authorized_keys 与权限（600/700）。
目录权限：Hadoop 数据目录需对运行用户可写（chown/chmod）。
集群扩展：多机部署时，统一 /etc/hosts 或 DNS，配置 SSH 免密到各节点，在 core-site.xml 使用主机名（如 hdfs://namenode:9000），在 workers（旧版为 slaves）中列出所有 DataNode 主机名，然后按角色在对应节点启动服务。
日志排错：查看 $HADOOP_HOME/logs/ 下对应进程的 .log 与 .out 文件。

声明：本文内容由网友自发贡献，本站不承担相应法律责任。对本内容有异议或投诉，请联系2913721942#qq.com核实处理，我们将尽快回复您，谢谢合作！