#7 Persistência e Formatos de Dados: CSV, JSON e Parquet
- JP
- há 7 horas
- 3 min de leitura
Série: Trilha prática para se tornar Engenheiro de Dados – Capítulo 7
Pré-requisitos importantes antes de começar este capítulo
Antes de mergulhar no Spark, garanta que você tem:
Ter acompanhado os Capítulos 1 a 6 e o ambiente preparado conforme mostrado neles:
Introdução
Depois de aprender a orquestrar pipelines e processar dados com Airflow e Spark, chegou a hora de entender como armazenar e compartilhar esses dados de forma eficiente.
A escolha do formato de persistência impacta diretamente a velocidade de leitura, o custo de armazenamento e até a forma como analistas e cientistas consomem a informação.

Neste capítulo, exploraremos os três formatos fundamentais da Engenharia de Dados moderna:
CSV: simples e universal
JSON: flexível e hierárquico
Parquet: otimizado e colunar
E o melhor: com exemplos reais de leitura, transformação e gravação de dados.
Conceito de Persistência de Dados
Persistir dados significa armazenar informações processadas para serem reutilizadas em etapas futuras — relatórios, dashboards ou modelos de Machine Learning.
Cada formato atende a um cenário diferente:

CSV (Comma-Separated Values)
Conceito
O CSV é o formato mais usado no mundo dos dados. Cada linha representa um registro, e as colunas são separadas por vírgulas.
Exemplo Prático – Lendo e Gravando CSV
Saída esperada:

Explicação:
O arquivo foi lido de uma URL e salvo localmente, simulando a etapa final de um pipeline de ETL — Extração, Transformação e Gravação.
JSON (JavaScript Object Notation)
Conceito
O formato JSON é muito usado em APIs e integrações entre sistemas. Ele suporta hierarquia, arrays e tipos de dados complexos.
Exemplo Prático – Coletando dados de uma API e salvando em JSON
Saída esperada

Conteúdo do arquivo produtos.json (trecho):

Explicação:
O JSON facilita a persistência de dados hierárquicos e estruturados — ideal para integrações com APIs e logs de sistemas.
Parquet
Conceito
O Parquet é um formato colunar e otimizado usado em Data Lakes. Ele é extremamente eficiente para leitura em larga escala, pois armazena colunas de forma compacta e com compressão nativa.
💡Se quiser entender mais a fundo sobre esse formato, leia o seguinte post: Parquet vs Avro vs ORC: Qual formato de arquivo escolher no seu projeto de dados?
Exemplo Prático – Lendo e Salvando em Parquet com Spark
Saída esperada

Explicação:
O Parquet é o formato mais comum em pipelines modernos, pois reduz custos de armazenamento e melhora o tempo de leitura em ferramentas como Athena, Redshift Spectrum e Spark SQL.
Comparativo dos Formatos

Dica Extra
👉 Sempre use Parquet ou ORC para armazenar dados processados em larga escala.
👉 Use CSV apenas quando a interoperabilidade for prioridade (ex.: exportar para BI ou Excel).
👉 Use JSON quando precisar preservar estrutura e relacionamentos.
Conclusão
Você acabou de aprender como persistir dados em diferentes formatos, entendendo como cada um impacta a performance e o consumo no seu ecossistema de dados.
Dominar CSV, JSON e Parquet é essencial para quem deseja trabalhar com pipelines modernos e eficientes.
Leituras recomendadas
O que vem a seguir?
👉 Capítulo 8 – Armazenamento e Consumo com AWS S3 e Redshift
Como conectar tudo isso em um ecossistema em nuvem de ponta a ponta.
Gostou desse capítulo?
👉 Assine a newsletter Coffee & Tips e receba os próximos capítulos direto no seu e-mail.
👉 Pré-venda exclusiva
Em breve também vamos lançar um E-Book avançado, com tutoriais em Spark, Airflow, Redshift, tudo para você se tornar um Engenheiro de Dados!
Cadastre-se agora na lista de pré-venda e garanta:
Acesso antecipado antes do lançamento oficial 🚀
Benefícios exclusivos para inscritos 💡
Conteúdo extra que não estará disponível gratuitamente
Fique ligado!
Comentários