如何在 Ubuntu 上安装 Hadoop 生态组件
导读:一、准备工作 在Ubuntu上安装Hadoop生态组件前,需完成以下基础准备: 系统更新:运行sudo apt update && sudo apt upgrade -y,确保系统软件包为最新版本。 安装必要依赖:Hado...
一、准备工作
在Ubuntu上安装Hadoop生态组件前,需完成以下基础准备:
- 系统更新:运行
sudo apt update & & sudo apt upgrade -y,确保系统软件包为最新版本。 - 安装必要依赖:Hadoop依赖Java环境和SSH服务,需安装以下组件:
验证Java安装:sudo apt install -y openjdk-8-jdk sshjava -version(需显示Java版本信息);验证SSH服务:ssh localhost(若未配置免密登录,需输入密码)。
二、安装Hadoop核心组件
1. 下载并解压Hadoop
从Apache官网下载稳定版本(如3.3.6),解压至指定目录(如/usr/local):
wget https://downloads.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz
sudo tar -zxvf hadoop-3.3.6.tar.gz -C /usr/local/
sudo chown -R $USER:$USER /usr/local/hadoop # 修改目录所有者为当前用户
2. 配置环境变量
编辑~/.bashrc文件,添加Hadoop和Java环境变量:
nano ~/.bashrc
在文件末尾添加:
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64 # Java安装路径
export HADOOP_HOME=/usr/local/hadoop # Hadoop安装路径
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
使配置生效:source ~/.bashrc。
3. 配置Hadoop核心文件
Hadoop的主要配置文件位于$HADOOP_HOME/etc/hadoop目录下,需修改以下文件:
- core-site.xml(Hadoop核心配置):
< configuration> < property> < name> fs.defaultFS< /name> < value> hdfs://localhost:9000< /value> < !-- HDFS默认文件系统 --> < /property> < /configuration> - hdfs-site.xml(HDFS配置):
< configuration> < property> < name> dfs.replication< /name> < value> 1< /value> < !-- 副本数(单节点设为1) --> < /property> < /configuration> - mapred-site.xml(MapReduce配置):
先复制模板文件:
cp mapred-site.xml.template mapred-site.xml,再修改:< configuration> < property> < name> mapreduce.framework.name< /name> < value> yarn< /value> < !-- 使用YARN作为资源管理器 --> < /property> < /configuration> - yarn-site.xml(YARN配置):
< configuration> < property> < name> yarn.nodemanager.aux-services< /name> < value> mapreduce_shuffle< /value> < !-- MapReduce Shuffle服务 --> < /property> < /configuration>
4. 格式化HDFS并启动服务
首次运行Hadoop前,需格式化HDFS(删除原有数据):
hdfs namenode -format
启动HDFS和YARN服务:
$HADOOP_HOME/sbin/start-dfs.sh # 启动HDFS
$HADOOP_HOME/sbin/start-yarn.sh # 启动YARN
验证服务是否启动:jps(应显示NameNode、DataNode、ResourceManager、NodeManager等进程)。
三、安装Hadoop生态组件(以Spark、Hive为例)
1. 安装Apache Spark
Spark是Hadoop生态中的常用计算引擎,可与Hadoop集成:
wget https://downloads.apache.org/spark/spark-3.2.0/spark-3.2.0-bin-hadoop3.2.tgz
tar -xzvf spark-3.2.0-bin-hadoop3.2.tgz
sudo mv spark-3.2.0-bin-hadoop3.2 /usr/local/spark
配置环境变量(添加至~/.bashrc):
export SPARK_HOME=/usr/local/spark
export PATH=$PATH:$SPARK_HOME/bin
source ~/.bashrc
启动Spark集群:$SPARK_HOME/sbin/start-all.sh。
2. 安装Apache Hive
Hive是Hadoop生态中的数据仓库工具,用于SQL查询:
wget https://downloads.apache.org/hive/hive-3.1.2/apache-hive-3.1.2-bin.tar.gz
tar -xzvf apache-hive-3.1.2-bin.tar.gz
sudo mv apache-hive-3.1.2-bin /usr/local/hive
配置环境变量(添加至~/.bashrc):
export HIVE_HOME=/usr/local/hive
export PATH=$PATH:$HIVE_HOME/bin
export HADOOP_HOME=/usr/local/hadoop # 指向Hadoop安装路径
source ~/.bashrc
配置Hive元数据库(使用MySQL或Derby,此处以Derby为例):
cp $HIVE_HOME/conf/hive-default.xml.template $HIVE_HOME/conf/hive-site.xml
# 编辑hive-site.xml,配置Derby数据库路径
初始化Hive元数据库:schematool -initSchema -dbType derby。
四、验证生态组件
- 验证Hadoop:运行WordCount示例,检查MapReduce功能:
mkdir -p /usr/local/hadoop/input cp $HADOOP_HOME/etc/hadoop/*.xml /usr/local/hadoop/input hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.6.jar wordcount /usr/local/hadoop/input /usr/local/hadoop/output cat /usr/local/hadoop/output/* - 验证Spark:运行SparkPi示例:
$SPARK_HOME/bin/run-example SparkPi 10 - 验证Hive:进入Hive CLI,创建表并查询:
hive CREATE TABLE test (id INT, name STRING); INSERT INTO test VALUES (1, 'Hive'), (2, 'Spark'); SELECT * FROM test;
注意事项
- 版本兼容性:Hadoop、Spark、Hive等组件需选择兼容版本(如Hadoop 3.3.x与Spark 3.2.x、Hive 3.1.x兼容)。
- 单节点与集群:上述步骤为单节点配置,集群需配置各节点的主机名、SSH免密登录及Hadoop集群配置(如
slaves文件)。 - 安全性:生产环境需配置Kerberos认证、防火墙规则等安全措施。
声明:本文内容由网友自发贡献,本站不承担相应法律责任。对本内容有异议或投诉,请联系2913721942#qq.com核实处理,我们将尽快回复您,谢谢合作!
若转载请注明出处: 如何在 Ubuntu 上安装 Hadoop 生态组件
本文地址: https://pptw.com/jishu/740682.html
