Hadoop 性能调优：Parquet 与 ORC 文件格式的优势 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

好的，各位观众老爷们，大家好！我是你们的老朋友，人称“代码界段子手”的程序猿阿Q。今天咱们不聊风花雪月，也不谈人生理想，就来聊聊Hadoop世界里两位重量级人物——Parquet和ORC。

相信很多朋友在Hadoop的世界里摸爬滚打多年，数据量蹭蹭往上涨，查询速度却像蜗牛爬，让人抓狂。别急，今天阿Q就来给大家支招，让你的Hadoop集群像打了鸡血一样，速度嗖嗖的！秘诀就在于合理选择文件存储格式，而Parquet和ORC，正是这方面的两位大神。

一、开场白：数据存储格式的重要性，堪比选老婆！

各位，选择数据存储格式，就像选老婆一样，选对了，幸福一生；选错了，天天吵架，鸡飞狗跳。数据存储格式的选择，直接影响着数据的存储空间、查询效率、以及整个Hadoop集群的性能。

想象一下，你辛辛苦苦收集来的数据，堆在HDFS上，结果查询一次慢的要死，简直就是浪费生命啊！所以，选择一个合适的存储格式，至关重要！

二、Parquet：列式存储，瘦身健体，查询加速！

首先，让我们隆重请出第一位嘉宾——Parquet。Parquet是Apache基金会的顶级项目，是一种列式存储格式。啥叫列式存储呢？

打个比方，咱们平时看书，都是一页一页地看，这就像行式存储，把一行数据完整地存储在一起。而列式存储呢，就像把这本书拆开，把所有页面的第一行放在一起，所有页面的第二行放在一起，以此类推。

这样做有什么好处呢？

瘦身健体，减少存储空间：

Parquet针对每一列的数据，可以采用不同的压缩算法，比如对于重复率高的列，可以使用RLE（Run-Length Encoding）或者Dictionary Encoding，大大减少存储空间。就好比你给老婆减肥，让她穿上塑身衣，瞬间苗条！

举个例子，假设我们有一张用户表，包含姓名、年龄、性别、城市四个字段。如果使用行式存储，所有字段的数据都存储在一起。而如果使用Parquet，性别这一列，只有“男”和“女”两个值，就可以使用RLE或者Dictionary Encoding进行高效压缩。

数据类型行式存储大小 Parquet存储大小压缩率

用户表 (1000万行) 10GB 2GB 80%

看到了吧，瘦身效果杠杠的！
查询加速，只取所需：

在实际的查询场景中，我们往往只需要用到表中的几个字段，而不是所有字段。如果使用行式存储，即使只需要用到一个字段，也需要读取整行数据，浪费大量的IO资源。而使用Parquet，只需要读取需要的列，大大减少IO开销，提高查询速度。就像你只想吃苹果，没必要把整个水果拼盘都端上来！

比如，我们只想查询所有年龄大于30岁的用户的姓名，那么只需要读取姓名和年龄两列的数据即可。

查询场景行式存储耗时 Parquet存储耗时速度提升

年龄大于30岁的用户姓名 10分钟 2分钟 5倍

速度提升，就是这么简单粗暴！
支持谓词下推（Predicate Pushdown）：

谓词下推是一种优化技术，可以将过滤条件提前应用到数据读取阶段，减少需要读取的数据量。Parquet支持谓词下推，可以将过滤条件推送到存储引擎，只读取满足条件的数据，进一步提高查询效率。就好比你先筛选出符合条件的客户，再给他们打电话，而不是盲目地给所有人打电话！

数据类型	行式存储大小	Parquet存储大小	压缩率
用户表 (1000万行)	10GB	2GB	80%

查询场景	行式存储耗时	Parquet存储耗时	速度提升
年龄大于30岁的用户姓名	10分钟	2分钟	5倍

三、ORC：Parquet的升级版，性能更上一层楼！

接下来，让我们欢迎另一位重量级嘉宾——ORC（Optimized Row Columnar）。ORC是Hortonworks公司开发的，也是一种列式存储格式，可以看作是Parquet的升级版。

ORC在Parquet的基础上，做了更多的优化，性能更上一层楼。

Stripes：

ORC将数据分成一个个的Stripes，每个Stripe包含多个Row Group，每个Row Group包含多个列。Stripes是ORC的基本存储单元，可以进行独立压缩和解压缩。就好比你把一篇文章分成一个个段落，方便阅读和管理！
Index：

ORC为每个Stripe创建索引，可以快速定位到需要的数据。索引可以包含最小值、最大值、总和等信息，可以用于谓词下推，减少需要读取的数据量。就好比你给书本加上目录，方便查找！
多种压缩算法：

ORC支持多种压缩算法，包括Zlib、Snappy、LZO等，可以根据不同的数据类型选择合适的压缩算法，进一步提高压缩率。就好比你根据不同的食材选择不同的烹饪方式，才能做出美味佳肴！
更好的性能：

由于ORC做了更多的优化，所以在性能上通常比Parquet更好。尤其是在复杂查询场景下，ORC的优势更加明显。就好比你给汽车加了涡轮增压，动力更强劲！

查询场景 Parquet存储耗时 ORC存储耗时速度提升

复杂查询 5分钟 3分钟 1.67倍

性能提升，看得见摸得着！

查询场景	Parquet存储耗时	ORC存储耗时	速度提升
复杂查询	5分钟	3分钟	1.67倍

四、Parquet vs ORC：该选谁？

Parquet和ORC都是优秀的列式存储格式，那么该选谁呢？

通用性：

Parquet的通用性更好，被更多的计算引擎支持，比如Spark、Presto、Impala等。如果你需要与其他系统进行数据交换，或者需要使用多种计算引擎，那么Parquet可能更适合你。
性能：

ORC的性能通常比Parquet更好，尤其是在复杂查询场景下。如果你对性能要求很高，或者只需要使用Hive或者Spark进行查询，那么ORC可能更适合你。
成熟度：

Parquet的成熟度更高，经过了更多的实践验证。如果你对稳定性有更高的要求，那么Parquet可能更适合你。

总的来说，选择Parquet还是ORC，需要根据具体的业务场景和需求进行权衡。没有绝对的优劣之分，只有最合适的选择。

五、使用Parquet和ORC的注意事项：

合理设置分区：

分区可以将数据分成多个目录，可以根据查询条件快速定位到需要的数据。合理设置分区可以大大提高查询效率。就好比你把衣服按照季节分类存放，方便查找！
合理选择压缩算法：

不同的压缩算法对CPU和IO的消耗不同，需要根据具体的业务场景选择合适的压缩算法。一般来说，Snappy的压缩速度较快，但压缩率较低；Zlib的压缩率较高，但压缩速度较慢。
定期进行数据维护：

随着数据的不断增长，可能会出现数据碎片，影响查询效率。定期进行数据维护，可以清理数据碎片，提高查询效率。就好比你定期给房间打扫卫生，保持整洁！

六、实战演练：以Spark为例，演示如何使用Parquet和ORC

理论讲了一大堆，不如来点实际的。下面阿Q就以Spark为例，给大家演示一下如何使用Parquet和ORC。

// 创建SparkSession
val spark = SparkSession.builder()
  .appName("ParquetORCDemo")
  .master("local[*]")
  .getOrCreate()

// 创建一个DataFrame
val data = Seq(
  ("Alice", 25, "Female", "Beijing"),
  ("Bob", 30, "Male", "Shanghai"),
  ("Charlie", 35, "Male", "Guangzhou"),
  ("David", 40, "Male", "Shenzhen")
)
val df = spark.createDataFrame(data).toDF("name", "age", "gender", "city")

// 将DataFrame保存为Parquet格式
df.write.parquet("hdfs://localhost:9000/parquet_data")

// 将DataFrame保存为ORC格式
df.write.orc("hdfs://localhost:9000/orc_data")

// 从Parquet格式读取数据
val parquetDF = spark.read.parquet("hdfs://localhost:9000/parquet_data")
parquetDF.show()

// 从ORC格式读取数据
val orcDF = spark.read.orc("hdfs://localhost:9000/orc_data")
orcDF.show()

// 使用SQL查询Parquet数据
parquetDF.createOrReplaceTempView("parquet_table")
val result1 = spark.sql("SELECT name, age FROM parquet_table WHERE age > 30")
result1.show()

// 使用SQL查询ORC数据
orcDF.createOrReplaceTempView("orc_table")
val result2 = spark.sql("SELECT name, age FROM orc_table WHERE age > 30")
result2.show()

// 关闭SparkSession
spark.close()

代码很简单，大家可以自己动手试试，感受一下Parquet和ORC的魅力。

七、总结：选择适合自己的才是最好的！

各位观众老爷们，今天阿Q给大家介绍了Hadoop世界里两位重量级人物——Parquet和ORC。它们都是优秀的列式存储格式，可以有效减少存储空间，提高查询效率。选择Parquet还是ORC，需要根据具体的业务场景和需求进行权衡。记住，选择适合自己的才是最好的！

希望今天的分享对大家有所帮助。如果大家有什么问题，欢迎在评论区留言，阿Q会尽力解答。

最后，祝大家工作顺利，生活愉快！咱们下期再见！👋

发表回复 取消回复

发表回复取消回复