Hadoop Shell 命令详解：HDFS 与 YARN 的日常操作 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

Hadoop Shell 命令详解：HDFS 与 YARN 的日常操作 (进阶版)

各位看官，大家好！今天，咱们要聊聊Hadoop家族里两位重量级选手——HDFS和YARN，以及如何用Hadoop Shell这把瑞士军刀，玩转它们。别担心，咱们不搞枯燥的理论，而是用轻松幽默的方式，带你一步步掌握日常操作，让你在Hadoop的世界里，如鱼得水，游刃有余！

开场白：Hadoop Shell，你的Hadoop世界通行证

想象一下，Hadoop集群就像一座巨大的数据宝藏，而Hadoop Shell，就是你进入宝藏的通行证。通过它，你可以浏览宝藏的结构（HDFS），分配挖掘任务（YARN），甚至直接从宝藏里拿走你想要的东西（数据）。

与其说Hadoop Shell是命令行工具，不如说它是你与Hadoop集群对话的桥梁。它就像一个忠实的翻译，把你的指令翻译成Hadoop能理解的语言，然后把Hadoop的反馈翻译给你。

第一章：HDFS，数据宝藏的秘密花园

HDFS，全称Hadoop Distributed File System，是Hadoop的核心组件之一，负责存储海量数据。它就像一个分布式的硬盘，把数据分散存储在集群中的各个节点上，保证数据的安全性和可靠性。

1.1 浏览花园：常用HDFS命令

首先，咱们先来看看如何用Hadoop Shell浏览HDFS这个数据花园。

命令	功能	示例	解释
`hadoop fs -ls <path>`	列出指定路径下的文件和目录	`hadoop fs -ls /user/hadoop`	就像 `ls` 命令一样，列出 `/user/hadoop` 目录下的内容。
`hadoop fs -mkdir <path>`	创建目录	`hadoop fs -mkdir /user/hadoop/data`	创建一个名为 `data` 的目录，就像在硬盘上新建文件夹一样。
`hadoop fs -put <local_file> <hdfs_path>`	将本地文件上传到HDFS	`hadoop fs -put my_data.txt /user/hadoop/data`	把本地的 `my_data.txt` 文件上传到 HDFS 的 `/user/hadoop/data` 目录下。想象一下，你把自己的宝藏放进了HDFS的保险箱里。
`hadoop fs -get <hdfs_path> <local_path>`	从HDFS下载文件到本地	`hadoop fs -get /user/hadoop/data/my_data.txt my_local_data.txt`	把 HDFS 上的 `my_data.txt` 文件下载到本地，并重命名为 `my_local_data.txt`。把你放在保险箱里的宝藏拿出来，带回家。
`hadoop fs -rm <path>`	删除文件或目录	`hadoop fs -rm /user/hadoop/data/my_data.txt`	删除 HDFS 上的 `my_data.txt` 文件。小心操作，别把重要的东西删掉了！
`hadoop fs -rmdir <path>`	删除空目录	`hadoop fs -rmdir /user/hadoop/data`	删除 HDFS 上的 `data` 目录，但前提是这个目录必须是空的。
`hadoop fs -du <path>`	查看目录或文件的大小	`hadoop fs -du /user/hadoop/data`	显示 `/user/hadoop/data` 目录的大小。
`hadoop fs -cat <path>`	显示文件内容	`hadoop fs -cat /user/hadoop/data/my_data.txt`	把 `my_data.txt` 文件的内容打印到控制台。
`hadoop fs -chmod <mode> <path>`	修改文件或目录的权限	`hadoop fs -chmod 755 /user/hadoop/data`	修改 `/user/hadoop/data` 目录的权限，类似于 Linux 的 `chmod` 命令。
`hadoop fs -chown <user:group> <path>`	修改文件或目录的拥有者和所属组	`hadoop fs -chown hadoop:hadoop /user/hadoop/data`	修改 `/user/hadoop/data` 目录的拥有者和所属组，类似于 Linux 的 `chown` 命令。
`hadoop fs -copyFromLocal <local_file> <hdfs_path>`	从本地复制文件到 HDFS	`hadoop fs -copyFromLocal my_data.txt /user/hadoop/data`	相当于 `hadoop fs -put`，功能一样。
`hadoop fs -copyToLocal <hdfs_path> <local_path>`	从 HDFS 复制文件到本地	`hadoop fs -copyToLocal /user/hadoop/data/my_data.txt my_local_data.txt`	相当于 `hadoop fs -get`，功能一样。

1.2 高级操作：让花园更美丽

除了上面这些基本操作，HDFS 还提供了一些更高级的功能，让你可以更灵活地管理你的数据花园。

副本控制：hadoop fs -setrep <replication> <path>

HDFS 为了保证数据的可靠性，会将数据复制多份，存储在不同的节点上。你可以使用 hadoop fs -setrep 命令来设置文件的副本数。例如，hadoop fs -setrep 3 /user/hadoop/data/my_data.txt 将 my_data.txt 文件的副本数设置为 3。
( 确保数据安全可靠 )
权限管理：ACL (Access Control List)

HDFS 支持 ACL 权限管理，可以更精细地控制用户对文件和目录的访问权限。这部分内容比较复杂，咱们以后有机会再详细讲解。
配额管理：hadoop fs -setQuota <quota> <path> 和 hadoop fs -setSpaceQuota <space_quota> <path>

你可以使用配额管理来限制目录下的文件数量和总大小，防止某个用户或应用占用过多的存储空间。
- hadoop fs -setQuota 10 /user/hadoop/data 将 /user/hadoop/data 目录下的文件数量限制为 10 个。
- hadoop fs -setSpaceQuota 10G /user/hadoop/data 将 /user/hadoop/data 目录的总大小限制为 10GB。

第二章：YARN，任务调度的指挥中心

YARN，全称Yet Another Resource Negotiator，是Hadoop的资源管理系统。它负责集群资源的分配和调度，让不同的应用可以共享集群资源，高效地运行。

2.1 了解YARN：核心概念

在深入YARN命令之前，咱们先来了解几个核心概念：

ResourceManager (RM)： YARN 的大脑，负责整个集群的资源管理和调度。
NodeManager (NM)： YARN 的工人，负责管理单个节点上的资源，并执行 ResourceManager 分配的任务。
ApplicationMaster (AM)： 每个应用的负责人，负责向 ResourceManager 申请资源，并将任务分配给 NodeManager 执行。
Container： YARN 资源分配的基本单位，包含 CPU、内存等资源。

2.2 查看集群状态：yarn application 命令

yarn application 命令可以用来查看集群中正在运行和已经完成的应用。

yarn application -list： 列出所有应用。
yarn application -status <application_id>： 查看指定应用的状态。
yarn application -kill <application_id>： 停止指定应用。

例如：

yarn application -list

会列出如下信息：

Total number of applications (application-types: [] and states: [SUBMITTED, ACCEPTED, RUNNING]):1
                Application-Id      Application-Name        Application-Type          User       Queue    State     StartTime      FinishTime    Progress        Tracking-URL
application_1678886400000_0001              WordCount               MAPREDUCE          hadoop     default   RUNNING   1678886450345              N/A   100%               http://master:8088/proxy/application_1678886400000_0001/

其中，application_1678886400000_0001 是应用的 ID，WordCount 是应用的名称，RUNNING 是应用的状态。

2.3 管理队列：yarn queue 命令

YARN 支持队列管理，可以将集群资源划分成不同的队列，分配给不同的用户或应用。

yarn queue -list： 列出所有队列。
yarn queue -status <queue_name>： 查看指定队列的状态。

例如：

yarn queue -list

会列出如下信息：

Queue Name                       State    Capacity  Maximum Capacity  Current Capacity  Current Running Applications  Current Pending Applications
root                               RUNNING  100.0%    100.0%            0.0%              0                               0
default                            RUNNING  100.0%    100.0%            0.0%              0                               0

2.4 监控资源使用：YARN Web UI

除了命令行，YARN 还提供了 Web UI，可以更直观地监控集群的资源使用情况。通常，YARN Web UI 的地址是 http://<ResourceManager_Host>:8088。

通过 Web UI，你可以查看：

集群的整体资源使用情况。
每个节点的资源使用情况。
每个应用的资源使用情况。
队列的资源分配情况。

第三章：HDFS + YARN，数据处理的黄金搭档

HDFS 负责存储数据，YARN 负责调度任务，它们就像一对黄金搭档，共同完成数据处理的任务。比如，我们可以运行一个 MapReduce 程序，从 HDFS 读取数据，进行处理，然后将结果写回 HDFS。

3.1 运行 MapReduce 程序

要运行 MapReduce 程序，可以使用 hadoop jar 命令。

hadoop jar <jar_file> <main_class> <input_path> <output_path>

<jar_file>：MapReduce 程序的 JAR 文件。
<main_class>：MapReduce 程序的主类。
<input_path>：输入数据的 HDFS 路径。
<output_path>：输出数据的 HDFS 路径。

例如：

hadoop jar wordcount.jar WordCount /user/hadoop/input /user/hadoop/output

这个命令会运行 wordcount.jar 中的 WordCount 程序，从 HDFS 的 /user/hadoop/input 目录读取数据，并将结果写到 HDFS 的 /user/hadoop/output 目录。

3.2 查看 MapReduce 程序日志

MapReduce 程序运行过程中会产生大量的日志，可以用来诊断问题。你可以通过 YARN Web UI 或者命令行来查看日志。

通过 YARN Web UI： 在 YARN Web UI 中找到对应的应用，点击 "Logs" 链接，即可查看日志。
通过命令行： 可以使用 yarn logs 命令来查看日志。

yarn logs -applicationId <application_id>

第四章：Hadoop Shell 技巧：让你的操作更高效

掌握一些 Hadoop Shell 技巧，可以让你事半功倍。

Tab 补全： 善用 Tab 键，可以自动补全命令和路径，避免输入错误。
历史命令： 使用上下箭头可以浏览历史命令，避免重复输入。
管道： 使用管道可以将多个命令连接起来，实现更复杂的操作。例如，hadoop fs -ls /user/hadoop | grep "data" 可以列出 /user/hadoop 目录下包含 "data" 字符串的文件和目录。
通配符： 使用通配符可以匹配多个文件和目录。例如，hadoop fs -rm /user/hadoop/data/*.txt 可以删除 /user/hadoop/data 目录下所有以 .txt 结尾的文件。
脚本： 将常用的命令写成脚本，可以简化操作，提高效率。

第五章：常见问题与解决方案

在使用 Hadoop Shell 的过程中，可能会遇到一些问题。这里列出一些常见问题和解决方案。

权限问题： 确保你有足够的权限访问 HDFS 上的文件和目录。如果没有权限，可以使用 hadoop fs -chmod 和 hadoop fs -chown 命令来修改权限。
路径问题： 确保输入的路径是正确的。 HDFS 路径以 / 开头，表示根目录。
资源不足： 如果 YARN 集群资源不足，可能会导致应用无法运行。可以尝试增加集群资源，或者优化应用，减少资源消耗。
网络问题： 确保你的机器可以访问 Hadoop 集群。可以使用 ping 命令来测试网络连接。

总结：掌握Hadoop Shell，成为Hadoop大师

Hadoop Shell 是你与 Hadoop 集群交互的重要工具。掌握 HDFS 和 YARN 的常用命令，并善用一些技巧，可以让你更高效地管理数据和运行任务。希望这篇文章能帮助你入门 Hadoop Shell，并在 Hadoop 的世界里，不断探索，不断进步，最终成为一名真正的 Hadoop 大师！ 💪

最后，别忘了多练习，多实践，才能真正掌握 Hadoop Shell 的精髓。祝你在 Hadoop 的世界里，玩得开心！🎉

Hadoop Shell 命令详解：HDFS 与 YARN 的日常操作 (进阶版)

发表回复 取消回复

发表回复取消回复