Parquet vs Avro vs ORC: Qual formato de arquivo escolher no seu projeto de dados?
- JP
- 18 de abr.
- 2 min de leitura

Introdução
Se você está começando a trabalhar com Big Data, provavelmente já se deparou com os formatos de arquivo Parquet, Avro e ORC. Esses formatos são usados para armazenar dados em sistemas distribuídos, como o Hadoop, o Apache Spark e até mesmo em ferramentas como AWS Athena e Google BigQuery.
Mas qual é o melhor? Qual usar em cada situação?
Neste post, vamos mergulhar nesses três formatos, comparar as principais características, explorar os casos de uso, entender as vantagens e desvantagens e te ajudar a tomar a melhor decisão para o seu projeto.
O que são Parquet, Avro e ORC?
Apache Parquet
Um formato colunar (ou columnar), otimizado para consultas rápidas e compressão eficiente. É amplamente utilizado com Apache Spark, Hive e ferramentas de análise de dados.
Apache Avro
Formato orientado a linhas (row-based), ótimo para serialização de dados e integração com pipelines de streaming, como o Apache Kafka.
Apache ORC (Optimized Row Columnar)
Outro formato colunar, desenvolvido originalmente pelo time do Hive para melhorar performance com grandes volumes de dados. É altamente eficiente para leitura e compressão em ambientes Hadoop.
Comparação entre Parquet, Avro e ORC

Casos de uso recomendados
Parquet
Ideal para:
Consultas analíticas em grandes volumes de dados.
Projetos com Apache Spark.
Armazenamento em data lakes como AWS S3 + Athena.
Avro
Ideal para:
Pipelines de dados em tempo real (streaming).
Serialização de mensagens com Apache Kafka.
Situações onde o schema evolui com frequência.
ORC
Ideal para:
Consultas de alto desempenho em ambientes Hadoop.
Cargas pesadas em Hive.
Processamento batch com grande volume de dados.
Vantagens e Desvantagens
Parquet
✅ Alta compressão (utiliza snappy como mecanismo de compressão)
✅ Leitura eficiente para consultas
❌ Escrita mais lenta
❌ Nem sempre ideal para dados mutáveis
Avro
✅ Rápido para escrita
✅ Ótimo para transporte de dados
✅ Forte suporte a schema evolution
❌ Não é ideal para análises com grandes volumes
ORC
✅ Excelente compressão e performance de leitura
✅ Suporte eficiente para Hive
❌ Menos suporte fora do ecossistema Hadoop
Quando usar cada um?

Use Parquet quando seu foco for análise de dados em larga escala.
Use Avro se estiver trabalhando com pipelines de dados e Kafka.
Use ORC se estiver no mundo Hive/Hadoop e busca performance máxima em leitura.
Conclusão final
A escolha entre Parquet, Avro e ORC depende muito do seu caso de uso. Nenhum é "melhor" universalmente — cada um brilha em contextos específicos.
Se você está montando uma arquitetura de dados robusta, vale até combinar os formatos conforme a etapa do pipeline!
Quer Aprender Mais? Inscreva-se na nossa Newsletter semanal!
Não perca nossas dicas exclusivas de Tech e Data!
Receba semanalmente:
Tutoriais práticos e diretos sobre Engenharia de Software e Dados
Insights de tecnologia e notícias da semana
Comentários