orc和parquet的区别
时间: 2024-04-23 07:28:44 浏览: 115
1、通过亿级数据量在hive和impala中查询比较text、orc和parquet性能表现(一)
ORC和Parquet是两种常见的列式存储格式,它们在一些方面有一些区别。首先,ORC不支持直接的嵌套结构,但可以通过复杂数据类型如map<k,v>间接实现,而Parquet支持嵌套结构。其次,ORC在存储压缩率方面相对较高,而Parquet在某些情况下可能具有更好的查询性能。此外,ORC与Hive的兼容性较好,常被用作Hive的存储格式。\[1\]
如果你需要更高的存储压缩率,可以选择ORC。如果你更关注查询性能,Parquet可能是更好的选择。此外,你还可以考虑你的数据结构是否需要嵌套支持,以及与其他工具和系统的兼容性。最终的选择应该根据你的具体需求和场景来决定。\[2\]\[3\]
#### 引用[.reference_title]
- *1* [ORC与PARQUET的区别](https://blog.csdn.net/weixin_44087159/article/details/124472197)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insert_down28v1,239^v3^insert_chatgpt"}} ] [.reference_item]
- *2* [【大数据存储】ORC和Parquet区别](https://blog.csdn.net/JH_Zhai/article/details/123416965)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insert_down28v1,239^v3^insert_chatgpt"}} ] [.reference_item]
- *3* [【数仓】数据存储格式的选择:Parquet与ORC](https://blog.csdn.net/lsr40/article/details/107975889)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insert_down28v1,239^v3^insert_chatgpt"}} ] [.reference_item]
[ .reference_list ]
阅读全文