Debian上如何安装Hadoop
导读:在 Debian 上安装与配置 Hadoop 的完整步骤 一 环境准备 更新系统并安装依赖:安装 Java 8 或 11(Hadoop 3.x 建议使用 Java 8)、安装 SSH 并配置本机免密登录(单机伪分布式同样建议配置,便于启动...
在 Debian 上安装与配置 Hadoop 的完整步骤
一 环境准备
- 更新系统并安装依赖:安装 Java 8 或 11(Hadoop 3.x 建议使用 Java 8)、安装 SSH 并配置本机免密登录(单机伪分布式同样建议配置,便于启动脚本无交互执行)。
- 安装 OpenJDK 8:sudo apt update & & sudo apt install -y openjdk-8-jdk
- 安装 SSH 服务与客户端:sudo apt install -y openssh-server openssh-client
- 生成密钥并配置免密:
ssh-keygen -t rsa -b 2048 -N ‘’ -f ~/.ssh/id_rsa
cat ~/.ssh/id_rsa.pub > > ~/.ssh/authorized_keys
chmod 600 ~/.ssh/authorized_keys
ssh localhost 测试免密是否成功
- 创建专用用户(可选但推荐):adduser hadoop & & usermod -aG sudo hadoop,后续操作在该用户下进行。
二 安装 Hadoop
- 下载并解压(以 3.3.6 为例,可按需替换为最新稳定版):
- wget https://downloads.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz
- sudo tar -xzvf hadoop-3.3.6.tar.gz -C /usr/local
- sudo ln -sfn /usr/local/hadoop-3.3.6 /usr/local/hadoop
- 配置环境变量(写入 ~/.bashrc 或 /etc/profile,二选一):
- export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
- export HADOOP_HOME=/usr/local/hadoop
- export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
- export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
- 使配置生效:source ~/.bashrc
- 验证安装:hadoop version 应输出版本信息。
三 配置 Hadoop(单机伪分布式)
- 编辑 Hadoop 环境脚本,显式设置 JAVA_HOME:
- echo “export JAVA_HOME=$JAVA_HOME” > > $HADOOP_HOME/etc/hadoop/hadoop-env.sh
- 核心配置文件($HADOOP_HOME/etc/hadoop/):
- core-site.xml
fs.defaultFS hdfs://localhost:9000 - hdfs-site.xml(单机将副本设为 1)
dfs.replication 1 dfs.namenode.name.dir /usr/local/hadoop/dfs/name dfs.datanode.data.dir /usr/local/hadoop/dfs/data - mapred-site.xml(如文件不存在,先 cp mapred-site.xml.template mapred-site.xml)
mapreduce.framework.name yarn - yarn-site.xml
yarn.nodemanager.aux-services mapreduce_shuffle yarn.nodemanager.aux-services.mapreduce.shuffle.class org.apache.hadoop.mapred.ShuffleHandler
- core-site.xml
- 创建数据目录并授权:
- sudo mkdir -p /usr/local/hadoop/dfs/{ name,data}
- sudo chown -R $USER:$USER /usr/local/hadoop/dfs
四 启动与验证
- 首次启动前格式化 NameNode:hdfs namenode -format
- 启动服务:
- 启动 HDFS:start-dfs.sh
- 启动 YARN:start-yarn.sh
- 进程检查:jps 应看到 NameNode、DataNode、ResourceManager、NodeManager 等进程
- Web UI:
- NameNode:http://localhost:9870
- ResourceManager:http://localhost:8088
- 运行示例作业(WordCount):
- 准备输入:echo -e “Hello World\nHello Hadoop” > ~/input.txt
- 上传到 HDFS:hdfs dfs -mkdir -p /user/$USER/input & & hdfs dfs -put ~/input.txt /user/$USER/input
- 提交作业:
hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.6.jar wordcount
/user/$USER/input /user/$USER/output - 查看结果:hdfs dfs -cat /user/$USER/output/part-r-00000
五 常见问题与扩展
- Java 版本选择:Hadoop 3.3.x 与 Java 8 兼容性最好;如使用 Java 11,请确保版本匹配与依赖一致。
- SSH 免密:若 start-dfs.sh/start-yarn.sh 执行卡住,检查本机 ~/.ssh/authorized_keys 与权限(600/700)。
- 目录权限:Hadoop 数据目录需对运行用户可写(chown/chmod)。
- 集群扩展:多机部署时,统一 /etc/hosts 或 DNS,配置 SSH 免密到各节点,在 core-site.xml 使用主机名(如 hdfs://namenode:9000),在 workers(旧版为 slaves)中列出所有 DataNode 主机名,然后按角色在对应节点启动服务。
- 日志排错:查看 $HADOOP_HOME/logs/ 下对应进程的 .log 与 .out 文件。
声明:本文内容由网友自发贡献,本站不承担相应法律责任。对本内容有异议或投诉,请联系2913721942#qq.com核实处理,我们将尽快回复您,谢谢合作!
若转载请注明出处: Debian上如何安装Hadoop
本文地址: https://pptw.com/jishu/771312.html
