首页主机资讯如何在 Ubuntu 上安装 Hadoop 生态组件

如何在 Ubuntu 上安装 Hadoop 生态组件

时间2025-11-03 12:14:04发布访客分类主机资讯浏览707
导读:一、准备工作 在Ubuntu上安装Hadoop生态组件前,需完成以下基础准备: 系统更新:运行sudo apt update && sudo apt upgrade -y,确保系统软件包为最新版本。 安装必要依赖:Hado...

一、准备工作

在Ubuntu上安装Hadoop生态组件前,需完成以下基础准备:

  1. 系统更新:运行sudo apt update & & sudo apt upgrade -y,确保系统软件包为最新版本。
  2. 安装必要依赖:Hadoop依赖Java环境和SSH服务,需安装以下组件:
    sudo apt install -y openjdk-8-jdk ssh
    
    验证Java安装:java -version(需显示Java版本信息);验证SSH服务:ssh localhost(若未配置免密登录,需输入密码)。

二、安装Hadoop核心组件

1. 下载并解压Hadoop

从Apache官网下载稳定版本(如3.3.6),解压至指定目录(如/usr/local):

wget https://downloads.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz
sudo tar -zxvf hadoop-3.3.6.tar.gz -C /usr/local/
sudo chown -R $USER:$USER /usr/local/hadoop  # 修改目录所有者为当前用户

2. 配置环境变量

编辑~/.bashrc文件,添加Hadoop和Java环境变量:

nano ~/.bashrc

在文件末尾添加:

export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64  # Java安装路径
export HADOOP_HOME=/usr/local/hadoop               # Hadoop安装路径
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

使配置生效:source ~/.bashrc

3. 配置Hadoop核心文件

Hadoop的主要配置文件位于$HADOOP_HOME/etc/hadoop目录下,需修改以下文件:

  • core-site.xml(Hadoop核心配置):
    <
        configuration>
        
        <
        property>
        
            <
        name>
        fs.defaultFS<
        /name>
        
            <
        value>
        hdfs://localhost:9000<
        /value>
          <
        !-- HDFS默认文件系统 -->
        
        <
        /property>
        
    <
        /configuration>
        
    
  • hdfs-site.xml(HDFS配置):
    <
        configuration>
        
        <
        property>
        
            <
        name>
        dfs.replication<
        /name>
        
            <
        value>
        1<
        /value>
          <
        !-- 副本数(单节点设为1) -->
        
        <
        /property>
        
    <
        /configuration>
        
    
  • mapred-site.xml(MapReduce配置): 先复制模板文件:cp mapred-site.xml.template mapred-site.xml,再修改:
    <
        configuration>
        
        <
        property>
        
            <
        name>
        mapreduce.framework.name<
        /name>
        
            <
        value>
        yarn<
        /value>
          <
        !-- 使用YARN作为资源管理器 -->
        
        <
        /property>
        
    <
        /configuration>
        
    
  • yarn-site.xml(YARN配置):
    <
        configuration>
        
        <
        property>
        
            <
        name>
        yarn.nodemanager.aux-services<
        /name>
        
            <
        value>
        mapreduce_shuffle<
        /value>
          <
        !-- MapReduce Shuffle服务 -->
        
        <
        /property>
        
    <
        /configuration>
        
    

4. 格式化HDFS并启动服务

首次运行Hadoop前,需格式化HDFS(删除原有数据):

hdfs namenode -format

启动HDFS和YARN服务:

$HADOOP_HOME/sbin/start-dfs.sh  # 启动HDFS
$HADOOP_HOME/sbin/start-yarn.sh # 启动YARN

验证服务是否启动:jps(应显示NameNodeDataNodeResourceManagerNodeManager等进程)。

三、安装Hadoop生态组件(以Spark、Hive为例)

1. 安装Apache Spark

Spark是Hadoop生态中的常用计算引擎,可与Hadoop集成:

wget https://downloads.apache.org/spark/spark-3.2.0/spark-3.2.0-bin-hadoop3.2.tgz
tar -xzvf spark-3.2.0-bin-hadoop3.2.tgz
sudo mv spark-3.2.0-bin-hadoop3.2 /usr/local/spark

配置环境变量(添加至~/.bashrc):

export SPARK_HOME=/usr/local/spark
export PATH=$PATH:$SPARK_HOME/bin
source ~/.bashrc

启动Spark集群:$SPARK_HOME/sbin/start-all.sh

2. 安装Apache Hive

Hive是Hadoop生态中的数据仓库工具,用于SQL查询:

wget https://downloads.apache.org/hive/hive-3.1.2/apache-hive-3.1.2-bin.tar.gz
tar -xzvf apache-hive-3.1.2-bin.tar.gz
sudo mv apache-hive-3.1.2-bin /usr/local/hive

配置环境变量(添加至~/.bashrc):

export HIVE_HOME=/usr/local/hive
export PATH=$PATH:$HIVE_HOME/bin
export HADOOP_HOME=/usr/local/hadoop  # 指向Hadoop安装路径
source ~/.bashrc

配置Hive元数据库(使用MySQL或Derby,此处以Derby为例):

cp $HIVE_HOME/conf/hive-default.xml.template $HIVE_HOME/conf/hive-site.xml
# 编辑hive-site.xml,配置Derby数据库路径

初始化Hive元数据库:schematool -initSchema -dbType derby

四、验证生态组件

  1. 验证Hadoop:运行WordCount示例,检查MapReduce功能:
    mkdir -p /usr/local/hadoop/input
    cp $HADOOP_HOME/etc/hadoop/*.xml /usr/local/hadoop/input
    hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.6.jar wordcount /usr/local/hadoop/input /usr/local/hadoop/output
    cat /usr/local/hadoop/output/*
    
  2. 验证Spark:运行SparkPi示例:
    $SPARK_HOME/bin/run-example SparkPi 10
    
  3. 验证Hive:进入Hive CLI,创建表并查询:
    hive
    CREATE TABLE test (id INT, name STRING);
        
    INSERT INTO test VALUES (1, 'Hive'), (2, 'Spark');
        
    SELECT * FROM test;
        
    

注意事项

  • 版本兼容性:Hadoop、Spark、Hive等组件需选择兼容版本(如Hadoop 3.3.x与Spark 3.2.x、Hive 3.1.x兼容)。
  • 单节点与集群:上述步骤为单节点配置,集群需配置各节点的主机名、SSH免密登录及Hadoop集群配置(如slaves文件)。
  • 安全性:生产环境需配置Kerberos认证、防火墙规则等安全措施。

声明:本文内容由网友自发贡献,本站不承担相应法律责任。对本内容有异议或投诉,请联系2913721942#qq.com核实处理,我们将尽快回复您,谢谢合作!


若转载请注明出处: 如何在 Ubuntu 上安装 Hadoop 生态组件
本文地址: https://pptw.com/jishu/740682.html
Nginx反向代理如何实现负载均衡 Nginx如何限制请求频率防止滥用

游客 回复需填写必要信息