Ubuntu Hadoop 虚拟机怎么配置

时间2025-10-14 21:52:03发布访客分类主机资讯浏览1074

导读：Ubuntu虚拟机配置Hadoop（伪分布式/单节点模式） 1. 前置准备环境要求：Ubuntu 22.04/20.04/18.04虚拟机（建议内存≥4GB，磁盘≥20GB）；虚拟机软件（如VMware Workstation/Play...

Ubuntu虚拟机配置Hadoop（伪分布式/单节点模式）

1. 前置准备

环境要求：Ubuntu 22.04/20.04/18.04虚拟机（建议内存≥4GB，磁盘≥20GB）；虚拟机软件（如VMware Workstation/Player）。
基础工具：终端（Terminal）、文本编辑器（vim/nano）、网络工具（Xshell/Xftp，可选）。

2. 安装与配置Java（Hadoop依赖）

Hadoop是用Java开发的，需先安装JDK（推荐OpenJDK 8/11/17）：

# 更新软件包列表
sudo apt update
# 安装OpenJDK 11（可根据需求替换为8/17）
sudo apt install -y openjdk-11-jdk
# 验证安装
java -version  # 应输出JDK版本信息

配置Java环境变量（编辑~/.bashrc）：

vim ~/.bashrc

在文件末尾添加：

export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64  # 根据实际JDK路径调整
export PATH=$PATH:$JAVA_HOME/bin

使配置生效：

source ~/.bashrc

3. 下载与安装Hadoop

从Apache官网下载稳定版Hadoop（如3.3.4），解压至/usr/local/：

# 下载Hadoop（以3.3.4为例）
wget https://dlcdn.apache.org/hadoop/common/hadoop-3.3.4/hadoop-3.3.4.tar.gz
# 解压
tar -xzvf hadoop-3.3.4.tar.gz
# 移动至/usr/local/并重命名
sudo mv hadoop-3.3.4 /usr/local/hadoop
# 修改目录权限（避免后续操作权限问题）
sudo chown -R $USER:$USER /usr/local/hadoop

4. 配置Hadoop环境变量

编辑~/.bashrc，添加Hadoop相关变量：

vim ~/.bashrc

在文件末尾添加：

export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"

使配置生效：

source ~/.bashrc

5. 配置Hadoop核心文件

进入Hadoop配置目录（$HADOOP_HOME/etc/hadoop），修改以下文件：

(1) core-site.xml（HDFS默认文件系统）

<
    configuration>
    
    <
    property>
    
        <
    name>
    fs.defaultFS<
    /name>
    
        <
    value>
    hdfs://localhost:9000<
    /value>
      <
    !-- HDFS NameNode地址 -->
    
    <
    /property>
    
    <
    property>
    
        <
    name>
    hadoop.tmp.dir<
    /name>
    
        <
    value>
    /usr/local/hadoop/tmp<
    /value>
      <
    !-- 临时目录 -->
    
    <
    /property>
    
<
    /configuration>

(2) hdfs-site.xml（HDFS存储配置）

<
    configuration>
    
    <
    property>
    
        <
    name>
    dfs.replication<
    /name>
    
        <
    value>
    1<
    /value>
      <
    !-- 副本数（伪分布式模式设为1） -->
    
    <
    /property>
    
    <
    property>
    
        <
    name>
    dfs.namenode.name.dir<
    /name>
    
        <
    value>
    file:///usr/local/hadoop/dfs/name<
    /value>
      <
    !-- NameNode数据目录 -->
    
    <
    /property>
    
    <
    property>
    
        <
    name>
    dfs.datanode.data.dir<
    /name>
    
        <
    value>
    file:///usr/local/hadoop/dfs/data<
    /value>
      <
    !-- DataNode数据目录 -->
    
    <
    /property>
    
<
    /configuration>

(3) mapred-site.xml（MapReduce框架配置）

若文件不存在，可复制模板生成：

cp mapred-site.xml.template mapred-site.xml

修改内容：

<
    configuration>
    
    <
    property>
    
        <
    name>
    mapreduce.framework.name<
    /name>
    
        <
    value>
    yarn<
    /value>
      <
    !-- 使用YARN作为资源管理器 -->
    
    <
    /property>
    
<
    /configuration>

(4) yarn-site.xml（YARN配置）

<
    configuration>
    
    <
    property>
    
        <
    name>
    yarn.nodemanager.aux-services<
    /name>
    
        <
    value>
    mapreduce_shuffle<
    /value>
      <
    !-- Shuffle服务 -->
    
    <
    /property>
    
    <
    property>
    
        <
    name>
    yarn.nodemanager.aux-services.mapreduce.shuffle.class<
    /name>
    
        <
    value>
    org.apache.hadoop.mapred.ShuffleHandler<
    /value>
    
    <
    /property>
    
<
    /configuration>

6. 创建HDFS数据目录

# 创建NameNode数据目录
mkdir -p /usr/local/hadoop/dfs/name
# 创建DataNode数据目录
mkdir -p /usr/local/hadoop/dfs/data

7. 格式化HDFS（首次启动前必须执行）

格式化会清除HDFS中的所有数据，仅首次启动时执行：

hdfs namenode -format

8. 启动Hadoop集群

启动HDFS和YARN服务：

# 启动HDFS
start-dfs.sh
# 启动YARN
start-yarn.sh

查看服务状态：

# 查看Hadoop进程
jps  # 应显示NameNode、DataNode、ResourceManager、NodeManager等进程
# 查看HDFS健康状态
hdfs dfsadmin -report

9. 验证Hadoop功能

运行Hadoop自带的WordCount示例，验证集群是否正常工作：

# 创建输入目录
hdfs dfs -mkdir -p /input
# 将Hadoop配置文件复制到输入目录（作为测试数据）
hdfs dfs -put $HADOOP_HOME/etc/hadoop/*.xml /input
# 运行WordCount程序
hdfs dfs -cat /output/*

常见问题解决

权限问题：若启动时报权限错误，执行chmod -R 755 /usr/local/hadoop调整目录权限。
端口冲突：若HDFS端口（9000）被占用，修改core-site.xml中的fs.defaultFS端口（如改为9001）。
环境变量未生效：确保~/.bashrc修改后执行了source ~/.bashrc，或重启终端。

通过以上步骤，即可在Ubuntu虚拟机上完成Hadoop的单节点（伪分布式）配置，并验证其基本功能。

声明：本文内容由网友自发贡献，本站不承担相应法律责任。对本内容有异议或投诉，请联系2913721942#qq.com核实处理，我们将尽快回复您，谢谢合作！

若转载请注明出处： Ubuntu Hadoop 虚拟机怎么配置
本文地址： https://pptw.com/jishu/726321.html

Ubuntu Hadoop 任务怎么调度 Ubuntu Hadoop 集群怎么扩展