HDFS配置Ubuntu环境怎么设置
导读:HDFS配置Ubuntu环境详细步骤 1. 环境准备 更新系统:运行sudo apt update && sudo apt upgrade -y,确保系统软件包为最新版本。 安装基础工具:执行sudo apt instal...
HDFS配置Ubuntu环境详细步骤
1. 环境准备
- 更新系统:运行
sudo apt update & & sudo apt upgrade -y
,确保系统软件包为最新版本。 - 安装基础工具:执行
sudo apt install -y build-essential openssh-server
,安装编译工具和SSH服务(用于集群节点间通信)。
2. 安装Java环境
HDFS依赖Java运行环境,推荐安装OpenJDK 8(兼容性最佳):
- 运行
sudo apt install -y openjdk-8-jdk
安装JDK。 - 验证安装:
java -version
,输出应包含openjdk version "1.8.x"
。
3. 下载并解压Hadoop
- 从Apache官网下载稳定版Hadoop(如3.3.4):
wget https://downloads.apache.org/hadoop/common/hadoop-3.3.4/hadoop-3.3.4.tar.gz
。 - 解压到
/usr/local/
目录:sudo tar -xzvf hadoop-3.3.4.tar.gz -C /usr/local/
。 - 重命名目录(可选):
sudo mv /usr/local/hadoop-3.3.4 /usr/local/hadoop
,简化后续命令。
4. 配置Hadoop环境变量
- 编辑
~/.bashrc
文件(用户级配置)或/etc/profile
(系统级配置),添加以下内容:export HADOOP_HOME=/usr/local/hadoop export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
- 使配置生效:
source ~/.bashrc
(或source /etc/profile
)。
5. 配置HDFS核心文件
进入Hadoop配置目录$HADOOP_HOME/etc/hadoop
,修改以下文件:
- core-site.xml(定义HDFS默认文件系统):
< configuration> < property> < name> fs.defaultFS< /name> < value> hdfs://localhost:9000< /value> < !-- NameNode地址 --> < /property> < property> < name> hadoop.tmp.dir< /name> < value> /usr/local/hadoop/tmp< /value> < !-- 临时目录 --> < /property> < /configuration>
- hdfs-site.xml(定义HDFS副本数和数据目录):
< configuration> < property> < name> dfs.replication< /name> < value> 1< /value> < !-- 本地测试设为1,集群设为3 --> < /property> < property> < name> dfs.namenode.name.dir< /name> < value> /usr/local/hadoop/data/namenode< /value> < !-- NameNode元数据目录 --> < /property> < property> < name> dfs.datanode.data.dir< /name> < value> /usr/local/hadoop/data/datanode< /value> < !-- DataNode数据目录 --> < /property> < /configuration>
- yarn-site.xml(可选,若启用YARN):
< configuration> < property> < name> yarn.nodemanager.aux-services< /name> < value> mapreduce_shuffle< /value> < /property> < property> < name> yarn.nodemanager.aux-services.mapreduce.shuffle.class< /name> < value> org.apache.hadoop.mapred.ShuffleHandler< /value> < /property> < /configuration>
6. 创建HDFS数据目录
- 创建NameNode和DataNode目录:
sudo mkdir -p /usr/local/hadoop/data/namenode sudo mkdir -p /usr/local/hadoop/data/datanode
- 修改目录权限(避免权限问题):
sudo chown -R $USER:$USER /usr/local/hadoop/data
7. 格式化NameNode
首次启动HDFS前,必须格式化NameNode(初始化元数据):
hdfs namenode -format
注意:格式化会清除所有HDFS数据,仅首次启动时执行一次。
8. 启动HDFS服务
- 启动HDFS:
start-dfs.sh
(自动启动NameNode和DataNode)。 - 验证进程:
jps
,应显示NameNode
、DataNode
、SecondaryNameNode
(若配置了HA则可能不同)。 - 访问Web界面:
http://localhost:50070
(查看HDFS状态,部分版本为9870)。
9. 配置SSH免密码登录(可选,但推荐)
若需远程访问集群,需配置SSH免密登录:
- 生成密钥:
ssh-keygen -t rsa -P ''
(直接回车,默认保存到~/.ssh/id_rsa
)。 - 复制公钥到本地(单节点无需此步,集群需复制到所有节点):
ssh-copy-id localhost
。 - 测试免密登录:
ssh localhost
,无需输入密码即可登录。
10. 验证HDFS功能
- 创建HDFS目录:
hdfs dfs -mkdir -p /user/$USER
。 - 上传本地文件:
hdfs dfs -put ~/test.txt /user/$USER/
。 - 列出HDFS文件:
hdfs dfs -ls /user/$USER
。 - 下载文件:
hdfs dfs -get /user/$USER/test.txt ~/downloaded_test.txt
。 - 删除文件:
hdfs dfs -rm /user/$USER/test.txt
。
11. 防火墙配置(可选)
若系统启用了ufw
防火墙,需允许Hadoop端口:
sudo ufw allow 9000 # NameNode RPC端口
sudo ufw allow 50070 # HDFS Web界面
sudo ufw allow 8088 # YARN Web界面(若启用)
12. 停止HDFS服务(可选)
若需停止HDFS,运行:stop-dfs.sh
。
按照以上步骤操作,即可在Ubuntu环境下完成HDFS的基本配置。如需扩展为集群,需重复配置多个节点并调整core-site.xml
、hdfs-site.xml
中的IP地址和端口。
声明:本文内容由网友自发贡献,本站不承担相应法律责任。对本内容有异议或投诉,请联系2913721942#qq.com核实处理,我们将尽快回复您,谢谢合作!
若转载请注明出处: HDFS配置Ubuntu环境怎么设置
本文地址: https://pptw.com/jishu/728883.html