Ubuntu Hadoop 虚拟机怎么配置
导读:Ubuntu虚拟机配置Hadoop(伪分布式/单节点模式) 1. 前置准备 环境要求:Ubuntu 22.04/20.04/18.04虚拟机(建议内存≥4GB,磁盘≥20GB);虚拟机软件(如VMware Workstation/Play...
Ubuntu虚拟机配置Hadoop(伪分布式/单节点模式)
1. 前置准备
- 环境要求:Ubuntu 22.04/20.04/18.04虚拟机(建议内存≥4GB,磁盘≥20GB);虚拟机软件(如VMware Workstation/Player)。
- 基础工具:终端(Terminal)、文本编辑器(vim/nano)、网络工具(Xshell/Xftp,可选)。
2. 安装与配置Java(Hadoop依赖)
Hadoop是用Java开发的,需先安装JDK(推荐OpenJDK 8/11/17):
# 更新软件包列表
sudo apt update
# 安装OpenJDK 11(可根据需求替换为8/17)
sudo apt install -y openjdk-11-jdk
# 验证安装
java -version # 应输出JDK版本信息
配置Java环境变量(编辑~/.bashrc
):
vim ~/.bashrc
在文件末尾添加:
export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64 # 根据实际JDK路径调整
export PATH=$PATH:$JAVA_HOME/bin
使配置生效:
source ~/.bashrc
3. 下载与安装Hadoop
从Apache官网下载稳定版Hadoop(如3.3.4),解压至/usr/local/
:
# 下载Hadoop(以3.3.4为例)
wget https://dlcdn.apache.org/hadoop/common/hadoop-3.3.4/hadoop-3.3.4.tar.gz
# 解压
tar -xzvf hadoop-3.3.4.tar.gz
# 移动至/usr/local/并重命名
sudo mv hadoop-3.3.4 /usr/local/hadoop
# 修改目录权限(避免后续操作权限问题)
sudo chown -R $USER:$USER /usr/local/hadoop
4. 配置Hadoop环境变量
编辑~/.bashrc
,添加Hadoop相关变量:
vim ~/.bashrc
在文件末尾添加:
export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"
使配置生效:
source ~/.bashrc
5. 配置Hadoop核心文件
进入Hadoop配置目录($HADOOP_HOME/etc/hadoop
),修改以下文件:
(1) core-site.xml(HDFS默认文件系统)
<
configuration>
<
property>
<
name>
fs.defaultFS<
/name>
<
value>
hdfs://localhost:9000<
/value>
<
!-- HDFS NameNode地址 -->
<
/property>
<
property>
<
name>
hadoop.tmp.dir<
/name>
<
value>
/usr/local/hadoop/tmp<
/value>
<
!-- 临时目录 -->
<
/property>
<
/configuration>
(2) hdfs-site.xml(HDFS存储配置)
<
configuration>
<
property>
<
name>
dfs.replication<
/name>
<
value>
1<
/value>
<
!-- 副本数(伪分布式模式设为1) -->
<
/property>
<
property>
<
name>
dfs.namenode.name.dir<
/name>
<
value>
file:///usr/local/hadoop/dfs/name<
/value>
<
!-- NameNode数据目录 -->
<
/property>
<
property>
<
name>
dfs.datanode.data.dir<
/name>
<
value>
file:///usr/local/hadoop/dfs/data<
/value>
<
!-- DataNode数据目录 -->
<
/property>
<
/configuration>
(3) mapred-site.xml(MapReduce框架配置)
若文件不存在,可复制模板生成:
cp mapred-site.xml.template mapred-site.xml
修改内容:
<
configuration>
<
property>
<
name>
mapreduce.framework.name<
/name>
<
value>
yarn<
/value>
<
!-- 使用YARN作为资源管理器 -->
<
/property>
<
/configuration>
(4) yarn-site.xml(YARN配置)
<
configuration>
<
property>
<
name>
yarn.nodemanager.aux-services<
/name>
<
value>
mapreduce_shuffle<
/value>
<
!-- Shuffle服务 -->
<
/property>
<
property>
<
name>
yarn.nodemanager.aux-services.mapreduce.shuffle.class<
/name>
<
value>
org.apache.hadoop.mapred.ShuffleHandler<
/value>
<
/property>
<
/configuration>
6. 创建HDFS数据目录
# 创建NameNode数据目录
mkdir -p /usr/local/hadoop/dfs/name
# 创建DataNode数据目录
mkdir -p /usr/local/hadoop/dfs/data
7. 格式化HDFS(首次启动前必须执行)
格式化会清除HDFS中的所有数据,仅首次启动时执行:
hdfs namenode -format
8. 启动Hadoop集群
启动HDFS和YARN服务:
# 启动HDFS
start-dfs.sh
# 启动YARN
start-yarn.sh
查看服务状态:
# 查看Hadoop进程
jps # 应显示NameNode、DataNode、ResourceManager、NodeManager等进程
# 查看HDFS健康状态
hdfs dfsadmin -report
9. 验证Hadoop功能
运行Hadoop自带的WordCount示例,验证集群是否正常工作:
# 创建输入目录
hdfs dfs -mkdir -p /input
# 将Hadoop配置文件复制到输入目录(作为测试数据)
hdfs dfs -put $HADOOP_HOME/etc/hadoop/*.xml /input
# 运行WordCount程序
hdfs dfs -cat /output/*
常见问题解决
- 权限问题:若启动时报权限错误,执行
chmod -R 755 /usr/local/hadoop
调整目录权限。 - 端口冲突:若HDFS端口(9000)被占用,修改
core-site.xml
中的fs.defaultFS
端口(如改为9001)。 - 环境变量未生效:确保
~/.bashrc
修改后执行了source ~/.bashrc
,或重启终端。
通过以上步骤,即可在Ubuntu虚拟机上完成Hadoop的单节点(伪分布式)配置,并验证其基本功能。
声明:本文内容由网友自发贡献,本站不承担相应法律责任。对本内容有异议或投诉,请联系2913721942#qq.com核实处理,我们将尽快回复您,谢谢合作!
若转载请注明出处: Ubuntu Hadoop 虚拟机怎么配置
本文地址: https://pptw.com/jishu/726321.html