#7 Persistência e Formatos de Dados: CSV, JSON e Parquet

JP
13 de out. de 2025
3 min de leitura

Série: Trilha prática para se tornar Engenheiro de Dados – Capítulo 7

Pré-requisitos importantes antes de começar este capítulo

Antes de mergulhar no Spark, garanta que você tem:

Ter acompanhado os Capítulos 1 a 6 e o ambiente preparado conforme mostrado neles:

Introdução

Depois de aprender a orquestrar pipelines e processar dados com Airflow e Spark, chegou a hora de entender como armazenar e compartilhar esses dados de forma eficiente.

A escolha do formato de persistência impacta diretamente a velocidade de leitura, o custo de armazenamento e até a forma como analistas e cientistas consomem a informação.

Neste capítulo, exploraremos os três formatos fundamentais da Engenharia de Dados moderna:

CSV: simples e universal
JSON: flexível e hierárquico
Parquet: otimizado e colunar

E o melhor: com exemplos reais de leitura, transformação e gravação de dados.

Conceito de Persistência de Dados

Persistir dados significa armazenar informações processadas para serem reutilizadas em etapas futuras — relatórios, dashboards ou modelos de Machine Learning.

Cada formato atende a um cenário diferente:

CSV (Comma-Separated Values)

Conceito

O CSV é o formato mais usado no mundo dos dados. Cada linha representa um registro, e as colunas são separadas por vírgulas.

Exemplo Prático – Lendo e Gravando CSV

Saída esperada:

Explicação:

O arquivo foi lido de uma URL e salvo localmente, simulando a etapa final de um pipeline de ETL — Extração, Transformação e Gravação.

JSON (JavaScript Object Notation)

Conceito

O formato JSON é muito usado em APIs e integrações entre sistemas. Ele suporta hierarquia, arrays e tipos de dados complexos.

Exemplo Prático – Coletando dados de uma API e salvando em JSON

Saída esperada

Conteúdo do arquivo produtos.json (trecho):

Explicação:

O JSON facilita a persistência de dados hierárquicos e estruturados — ideal para integrações com APIs e logs de sistemas.

Parquet

Conceito

O Parquet é um formato colunar e otimizado usado em Data Lakes. Ele é extremamente eficiente para leitura em larga escala, pois armazena colunas de forma compacta e com compressão nativa.

💡Se quiser entender mais a fundo sobre esse formato, leia o seguinte post: Parquet vs Avro vs ORC: Qual formato de arquivo escolher no seu projeto de dados?

Exemplo Prático – Lendo e Salvando em Parquet com Spark

Saída esperada

Explicação:

O Parquet é o formato mais comum em pipelines modernos, pois reduz custos de armazenamento e melhora o tempo de leitura em ferramentas como Athena, Redshift Spectrum e Spark SQL.

Comparativo dos Formatos

Dica Extra

👉 Sempre use Parquet ou ORC para armazenar dados processados em larga escala.

👉 Use CSV apenas quando a interoperabilidade for prioridade (ex.: exportar para BI ou Excel).

👉 Use JSON quando precisar preservar estrutura e relacionamentos.

Conclusão

Você acabou de aprender como persistir dados em diferentes formatos, entendendo como cada um impacta a performance e o consumo no seu ecossistema de dados.

Dominar CSV, JSON e Parquet é essencial para quem deseja trabalhar com pipelines modernos e eficientes.

Leituras recomendadas

O que vem a seguir?

👉 Capítulo 8 – Armazenamento e Consumo com AWS S3 e Redshift

Como conectar tudo isso em um ecossistema em nuvem de ponta a ponta.

Gostou desse capítulo?

👉 Assine a newsletter Coffee & Tips e receba os próximos capítulos direto no seu e-mail.

👉 Pré-venda exclusiva

Em breve também vamos lançar um E-Book avançado, com tutoriais em Spark, Airflow, Redshift, tudo para você se tornar um Engenheiro de Dados!

Cadastre-se agora na lista de pré-venda e garanta:

Acesso antecipado antes do lançamento oficial 🚀
Benefícios exclusivos para inscritos 💡
Conteúdo extra que não estará disponível gratuitamente

Garantir meu E-Book

Fique ligado!

Coffee and Tips Newsletter

#7 Persistência e Formatos de Dados: CSV, JSON e Parquet

Pré-requisitos importantes antes de começar este capítulo

Introdução

Conceito de Persistência de Dados

CSV (Comma-Separated Values)

Conceito

Exemplo Prático – Lendo e Gravando CSV

Saída esperada:

Explicação:

JSON (JavaScript Object Notation)

Conceito

Exemplo Prático – Coletando dados de uma API e salvando em JSON

Saída esperada

Conteúdo do arquivo produtos.json (trecho):

Explicação:

Parquet

Conceito

Exemplo Prático – Lendo e Salvando em Parquet com Spark

Saída esperada

Explicação:

Comparativo dos Formatos

Dica Extra

Conclusão

Leituras recomendadas

O que vem a seguir?

Gostou desse capítulo?

👉 Pré-venda exclusiva

Posts recentes