大数据文件格式揭秘：Parquet、Avro、ORC

Parquet、Avro、ORC格式

相同点
基于Hadoop文件系统优化出的存储结构
提供高效的压缩
二进制存储格式
文件可分割，具有很强的伸缩性和并行处理能力
使用schema进行自我描述
属于线上格式，可以在Hadoop节点之间传递数据

不同点
行式存储or列式存储：Parquet和ORC都以列的形式存储数据，而Avro以基于行的格式存储数据。就其本质而言，面向列的数据存储针对读取繁重的分析工作负载进行了优化，而基于行的数据库最适合于大量写入的事务性工作负载。
压缩率：基于列的存储区Parquet和ORC提供的压缩率高于基于行的Avro格式。
可兼容的平台：ORC常用于Hive、Presto；Parquet常用于Impala、Drill、Spark、Arrow；Avro常用于Kafka、Druid。
不同的案例和应用场景选择合适的存储格式，可以提升存储和读取的效率。

参考
Big Data File Formats Demystified；

File Format Benchmarks – Avro, JSON, ORC, & Parquet；
————————————————
版权声明：本文为CSDN博主「AlferWei」的原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/OiteBody/article/details/85055574

转载请注明：学时网 » 大数据文件格式揭秘：Parquet、Avro、ORC