首页主机资讯Ubuntu Hadoop 虚拟机怎么配置

Ubuntu Hadoop 虚拟机怎么配置

时间2025-10-14 21:52:03发布访客分类主机资讯浏览1074
导读:Ubuntu虚拟机配置Hadoop(伪分布式/单节点模式) 1. 前置准备 环境要求:Ubuntu 22.04/20.04/18.04虚拟机(建议内存≥4GB,磁盘≥20GB);虚拟机软件(如VMware Workstation/Play...

Ubuntu虚拟机配置Hadoop(伪分布式/单节点模式)

1. 前置准备

  • 环境要求:Ubuntu 22.04/20.04/18.04虚拟机(建议内存≥4GB,磁盘≥20GB);虚拟机软件(如VMware Workstation/Player)。
  • 基础工具:终端(Terminal)、文本编辑器(vim/nano)、网络工具(Xshell/Xftp,可选)。

2. 安装与配置Java(Hadoop依赖)

Hadoop是用Java开发的,需先安装JDK(推荐OpenJDK 8/11/17):

# 更新软件包列表
sudo apt update
# 安装OpenJDK 11(可根据需求替换为8/17)
sudo apt install -y openjdk-11-jdk
# 验证安装
java -version  # 应输出JDK版本信息

配置Java环境变量(编辑~/.bashrc):

vim ~/.bashrc

在文件末尾添加:

export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64  # 根据实际JDK路径调整
export PATH=$PATH:$JAVA_HOME/bin

使配置生效:

source ~/.bashrc

3. 下载与安装Hadoop

从Apache官网下载稳定版Hadoop(如3.3.4),解压至/usr/local/

# 下载Hadoop(以3.3.4为例)
wget https://dlcdn.apache.org/hadoop/common/hadoop-3.3.4/hadoop-3.3.4.tar.gz
# 解压
tar -xzvf hadoop-3.3.4.tar.gz
# 移动至/usr/local/并重命名
sudo mv hadoop-3.3.4 /usr/local/hadoop
# 修改目录权限(避免后续操作权限问题)
sudo chown -R $USER:$USER /usr/local/hadoop

4. 配置Hadoop环境变量

编辑~/.bashrc,添加Hadoop相关变量:

vim ~/.bashrc

在文件末尾添加:

export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"

使配置生效:

source ~/.bashrc

5. 配置Hadoop核心文件

进入Hadoop配置目录($HADOOP_HOME/etc/hadoop),修改以下文件:

(1) core-site.xml(HDFS默认文件系统)

<
    configuration>
    
    <
    property>
    
        <
    name>
    fs.defaultFS<
    /name>
    
        <
    value>
    hdfs://localhost:9000<
    /value>
      <
    !-- HDFS NameNode地址 -->
    
    <
    /property>
    
    <
    property>
    
        <
    name>
    hadoop.tmp.dir<
    /name>
    
        <
    value>
    /usr/local/hadoop/tmp<
    /value>
      <
    !-- 临时目录 -->
    
    <
    /property>
    
<
    /configuration>
    

(2) hdfs-site.xml(HDFS存储配置)

<
    configuration>
    
    <
    property>
    
        <
    name>
    dfs.replication<
    /name>
    
        <
    value>
    1<
    /value>
      <
    !-- 副本数(伪分布式模式设为1) -->
    
    <
    /property>
    
    <
    property>
    
        <
    name>
    dfs.namenode.name.dir<
    /name>
    
        <
    value>
    file:///usr/local/hadoop/dfs/name<
    /value>
      <
    !-- NameNode数据目录 -->
    
    <
    /property>
    
    <
    property>
    
        <
    name>
    dfs.datanode.data.dir<
    /name>
    
        <
    value>
    file:///usr/local/hadoop/dfs/data<
    /value>
      <
    !-- DataNode数据目录 -->
    
    <
    /property>
    
<
    /configuration>
    

(3) mapred-site.xml(MapReduce框架配置)

若文件不存在,可复制模板生成:

cp mapred-site.xml.template mapred-site.xml

修改内容:

<
    configuration>
    
    <
    property>
    
        <
    name>
    mapreduce.framework.name<
    /name>
    
        <
    value>
    yarn<
    /value>
      <
    !-- 使用YARN作为资源管理器 -->
    
    <
    /property>
    
<
    /configuration>
    

(4) yarn-site.xml(YARN配置)

<
    configuration>
    
    <
    property>
    
        <
    name>
    yarn.nodemanager.aux-services<
    /name>
    
        <
    value>
    mapreduce_shuffle<
    /value>
      <
    !-- Shuffle服务 -->
    
    <
    /property>
    
    <
    property>
    
        <
    name>
    yarn.nodemanager.aux-services.mapreduce.shuffle.class<
    /name>
    
        <
    value>
    org.apache.hadoop.mapred.ShuffleHandler<
    /value>
    
    <
    /property>
    
<
    /configuration>
    

6. 创建HDFS数据目录

# 创建NameNode数据目录
mkdir -p /usr/local/hadoop/dfs/name
# 创建DataNode数据目录
mkdir -p /usr/local/hadoop/dfs/data

7. 格式化HDFS(首次启动前必须执行)

格式化会清除HDFS中的所有数据,仅首次启动时执行:

hdfs namenode -format

8. 启动Hadoop集群

启动HDFS和YARN服务:

# 启动HDFS
start-dfs.sh
# 启动YARN
start-yarn.sh

查看服务状态:

# 查看Hadoop进程
jps  # 应显示NameNode、DataNode、ResourceManager、NodeManager等进程
# 查看HDFS健康状态
hdfs dfsadmin -report

9. 验证Hadoop功能

运行Hadoop自带的WordCount示例,验证集群是否正常工作:

# 创建输入目录
hdfs dfs -mkdir -p /input
# 将Hadoop配置文件复制到输入目录(作为测试数据)
hdfs dfs -put $HADOOP_HOME/etc/hadoop/*.xml /input
# 运行WordCount程序
hdfs dfs -cat /output/*

常见问题解决

  • 权限问题:若启动时报权限错误,执行chmod -R 755 /usr/local/hadoop调整目录权限。
  • 端口冲突:若HDFS端口(9000)被占用,修改core-site.xml中的fs.defaultFS端口(如改为9001)。
  • 环境变量未生效:确保~/.bashrc修改后执行了source ~/.bashrc,或重启终端。

通过以上步骤,即可在Ubuntu虚拟机上完成Hadoop的单节点(伪分布式)配置,并验证其基本功能。

声明:本文内容由网友自发贡献,本站不承担相应法律责任。对本内容有异议或投诉,请联系2913721942#qq.com核实处理,我们将尽快回复您,谢谢合作!


若转载请注明出处: Ubuntu Hadoop 虚拟机怎么配置
本文地址: https://pptw.com/jishu/726321.html
Ubuntu Hadoop 任务怎么调度 Ubuntu Hadoop 集群怎么扩展

游客 回复需填写必要信息