Ubuntu HDFS配置后如何测试
导读:Ubuntu HDFS配置后测试步骤 1. 基础服务进程验证 配置完成后,首先需确认HDFS核心进程是否正常启动。在终端执行jps命令,若输出中包含NameNode(主节点)、DataNode(数据节点)进程(伪分布式模式下无Seconda...
Ubuntu HDFS配置后测试步骤
1. 基础服务进程验证
配置完成后,首先需确认HDFS核心进程是否正常启动。在终端执行jps
命令,若输出中包含NameNode(主节点)、DataNode(数据节点)进程(伪分布式模式下无SecondaryNameNode,集群模式下需包含),则说明HDFS服务启动成功。
2. Web UI界面检查
通过浏览器访问HDFS的Web管理界面,直观查看集群状态:
- HDFS状态页:
http://localhost:9870
(Hadoop 3.x版本)或http://localhost:50070
(Hadoop 2.x版本),确认“Live Nodes”显示当前DataNode节点在线(伪分布式模式为1个)。 - YARN资源页(若配置了YARN):
http://localhost:8088
,检查“Active Nodes”显示NodeManager节点正常。
3. HDFS基本文件操作测试
使用HDFS命令行工具执行常见文件操作,验证文件系统的读写功能:
- 创建目录:
hdfs dfs -mkdir -p /user/test
(-p
参数递归创建父目录)。 - 上传本地文件:将本地文件(如
/etc/hosts
)上传至HDFS:hdfs dfs -put /etc/hosts /user/test/
。 - 列出目录内容:
hdfs dfs -ls /user/test
,确认上传的文件存在。 - 读取文件内容:
hdfs dfs -cat /user/test/hosts
,检查文件内容是否与本地一致。 - 下载文件:
hdfs dfs -get /user/test/hosts ./hosts_copy
,将HDFS文件下载至本地,验证数据完整性。 - 删除文件:
hdfs dfs -rm /user/test/hosts
,清理测试文件。
4. MapReduce示例程序测试
运行Hadoop自带的MapReduce示例程序,验证集群的计算能力:
- WordCount(词频统计):
① 准备测试数据:echo "Hello Hadoop World" > input.txt
、echo "Hadoop is awesome" > > input.txt
。
② 上传数据至HDFS:hdfs dfs -mkdir -p /user/hadoop/wordcount/input
、hdfs dfs -put input.txt /user/hadoop/wordcount/input/
。
③ 执行WordCount任务:yarn jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar wordcount /user/hadoop/wordcount/input /user/hadoop/wordcount/output
。
④ 查看结果:hdfs dfs -cat /user/hadoop/wordcount/output/part-r-00000
,预期输出单词及出现次数(如Hadoop 2
、is 2
、awesome 1
、World 1
)。 - Pi计算(蒙特卡洛算法):
yarn jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar pi 10 100
,验证任务调度功能,预期输出π的近似值(如3.141592653589793
)。
5. 性能基准测试(可选)
使用Hadoop自带的TestDFSIO
工具评估HDFS的读写性能:
- 写入性能测试:
yarn jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-*.jar TestDFSIO -write -nrFiles 10 -size 1GB
(生成10个1GB文件,测量写入吞吐量)。 - 读取性能测试:
yarn jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-*.jar TestDFSIO -read -nrFiles 10 -size 1GB
(读取上述文件,测量读取吞吐量)。 - 结果分析:通过输出的“Throughput”(吞吐量,单位MB/s)评估集群性能,若吞吐量符合预期(如伪分布式模式下写入约50-100MB/s),则说明配置正常。
注意事项
- 测试前需确保Java环境(
java -version
显示Java 8或11)、SSH免密登录(ssh localhost
无需密码)已正确配置。 - 若测试过程中出现权限问题,可执行
hdfs dfs -chmod -R 777 /user/test
临时开放目录权限(生产环境需谨慎使用)。 - 伪分布式模式下,SecondaryNameNode进程不会启动,属于正常现象;集群模式下需确保所有节点进程正常。
声明:本文内容由网友自发贡献,本站不承担相应法律责任。对本内容有异议或投诉,请联系2913721942#qq.com核实处理,我们将尽快回复您,谢谢合作!
若转载请注明出处: Ubuntu HDFS配置后如何测试
本文地址: https://pptw.com/jishu/726310.html