Linux下Hadoop任务怎样调度

时间2025-11-17 15:15:03发布访客分类主机资讯浏览1168

导读：Linux下Hadoop任务调度全指南一核心概念与组件在 Linux 环境中，Hadoop 的任务调度由 YARN（Yet Another Resource Negotiator）负责：由 ResourceManager 全局管理...

Linux下Hadoop任务调度全指南

一核心概念与组件

在 Linux 环境中，Hadoop 的任务调度由 YARN（Yet Another Resource Negotiator） 负责：由 ResourceManager 全局管理资源与调度，NodeManager 管理单节点资源与容器，ApplicationMaster 与 RM 协商资源并监控作业，Container 是资源分配的基本单位（封装内存、CPU 等）。作业通常由 MapReduce 或 Spark on YARN 提交运行，提交后由 YARN 完成资源分配与调度执行。

二调度器选型与对比

YARN 支持多种调度策略，常见为 FIFO、Capacity Scheduler（容量调度器） 与 Fair Scheduler（公平调度器）。下表给出要点与适用场景：

调度器	核心机制	典型场景	关键配置要点
FIFO	按提交顺序执行	单用户/小型集群	简单、无需额外队列配置
Capacity	多队列、按容量百分比分配，支持弹性与上限	多租户、部门配额	配置队列树、capacity、maximum-capacity、ACL 等
Fair	多队列、按权重/DRF 动态公平分配	多用户共享、强调公平	配置队列与权重/DRF、队列放置策略等

说明：部分发行版中 Capacity Scheduler 常为默认；Fair 支持 DRF（主导资源公平） 策略，能按内存/CPU 的主导维度更公平地分配资源。

三配置与使用步骤

1）选择并配置调度器（以 Capacity 为例）
- 在 $HADOOP_HOME/etc/hadoop/yarn-site.xml 指定调度器类：
  - Capacity：org.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity.CapacityScheduler
  - Fair：org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler
- 在 capacity-scheduler.xml 中定义队列与容量（示例）：
  - yarn.scheduler.capacity.root.queues=default,dev
  - yarn.scheduler.capacity.root.default.capacity=60
  - yarn.scheduler.capacity.root.default.maximum-capacity=90
  - yarn.scheduler.capacity.root.dev.capacity=40
  - yarn.scheduler.capacity.root.dev.maximum-capacity=100
2）提交作业并指定队列
- MapReduce 示例：
  - hadoop jar myjob.jar com.example.Main -Dmapreduce.job.queuename=dev input output
- 也可使用 yarn jar 提交（效果等同）。
3）监控与运维
- 查看应用：yarn application -list
- 查看日志：yarn logs -applicationId < app_id>
- ResourceManager Web UI：http://:8088（查看队列、应用与资源使用）

四多租户与队列实践要点

队列层级与容量：在 Capacity Scheduler 中，队列以树形组织，同层级队列 capacity 之和应为 100；可设置 maximum-capacity 限制队列峰值占用，避免互相抢占；支持 ACL 控制提交与管理权限。
队列放置策略：可配置规则将作业自动映射到队列（如按用户名映射），并在提交时显式指定队列以覆盖默认放置。
延迟调度与数据本地性：开启 延迟调度 可优先获得本地数据，减少网络开销。Capacity 通过 yarn.scheduler.capacity.node-locality-delay 配置；Fair 通过 yarn.scheduler.fair.locality.threshold.node/rack 配置（如 0.5 表示允许跳过部分远程机会以等待本地）。

五定时与跨系统编排

使用 Linux Cron 定时提交 Hadoop 作业（适合简单周期任务）：
- 示例：*/5 * * * * /opt/hadoop/bin/hadoop jar /path/job.jar your.MainClass
使用 Apache Oozie 进行工作流编排（适合复杂依赖与定时）。
使用 Apache Airflow 编排数据管道（DAG、依赖、重试、监控完善）。
在 Kubernetes 环境中可用 CronJob 触发批处理任务（适合云原生部署）。

声明：本文内容由网友自发贡献，本站不承担相应法律责任。对本内容有异议或投诉，请联系2913721942#qq.com核实处理，我们将尽快回复您，谢谢合作！