top of page

Coffee and Tips Newsletter

Inscreva-se na nossa newsletter semanal

Nos vemos em breve!

#7 Persistência e Formatos de Dados: CSV, JSON e Parquet

  • Foto do escritor: JP
    JP
  • há 7 horas
  • 3 min de leitura

Série: Trilha prática para se tornar Engenheiro de Dados – Capítulo 7


Pré-requisitos importantes antes de começar este capítulo


Antes de mergulhar no Spark, garanta que você tem:


  • Ter acompanhado os Capítulos 1 a 6 e o ambiente preparado conforme mostrado neles:



Introdução


Depois de aprender a orquestrar pipelines e processar dados com Airflow e Spark, chegou a hora de entender como armazenar e compartilhar esses dados de forma eficiente.

A escolha do formato de persistência impacta diretamente a velocidade de leitura, o custo de armazenamento e até a forma como analistas e cientistas consomem a informação.


parquet

Neste capítulo, exploraremos os três formatos fundamentais da Engenharia de Dados moderna:


  • CSV: simples e universal

  • JSON: flexível e hierárquico

  • Parquet: otimizado e colunar


E o melhor: com exemplos reais de leitura, transformação e gravação de dados.


Conceito de Persistência de Dados


Persistir dados significa armazenar informações processadas para serem reutilizadas em etapas futuras — relatórios, dashboards ou modelos de Machine Learning.


Cada formato atende a um cenário diferente:


parquet


  1. CSV (Comma-Separated Values)


Conceito


O CSV é o formato mais usado no mundo dos dados. Cada linha representa um registro, e as colunas são separadas por vírgulas.


Exemplo Prático – Lendo e Gravando CSV



Saída esperada:


spark e csv

Explicação:


O arquivo foi lido de uma URL e salvo localmente, simulando a etapa final de um pipeline de ETL — Extração, Transformação e Gravação.


  1. JSON (JavaScript Object Notation)


Conceito


O formato JSON é muito usado em APIs e integrações entre sistemas. Ele suporta hierarquia, arrays e tipos de dados complexos.


Exemplo Prático – Coletando dados de uma API e salvando em JSON



Saída esperada


spark e json

Conteúdo do arquivo produtos.json (trecho):


spark e json

Explicação:


O JSON facilita a persistência de dados hierárquicos e estruturados — ideal para integrações com APIs e logs de sistemas.


  1. Parquet


Conceito


O Parquet é um formato colunar e otimizado usado em Data Lakes. Ele é extremamente eficiente para leitura em larga escala, pois armazena colunas de forma compacta e com compressão nativa.


💡Se quiser entender mais a fundo sobre esse formato, leia o seguinte post: Parquet vs Avro vs ORC: Qual formato de arquivo escolher no seu projeto de dados?



Exemplo Prático – Lendo e Salvando em Parquet com Spark



Saída esperada


parquet

Explicação:


O Parquet é o formato mais comum em pipelines modernos, pois reduz custos de armazenamento e melhora o tempo de leitura em ferramentas como Athena, Redshift Spectrum e Spark SQL.


Comparativo dos Formatos

parquet

Dica Extra

👉 Sempre use Parquet ou ORC para armazenar dados processados em larga escala.

👉 Use CSV apenas quando a interoperabilidade for prioridade (ex.: exportar para BI ou Excel).

👉 Use JSON quando precisar preservar estrutura e relacionamentos.


 Conclusão


Você acabou de aprender como persistir dados em diferentes formatos, entendendo como cada um impacta a performance e o consumo no seu ecossistema de dados.

Dominar CSV, JSON e Parquet é essencial para quem deseja trabalhar com pipelines modernos e eficientes.


Leituras recomendadas



O que vem a seguir?


👉 Capítulo 8 – Armazenamento e Consumo com AWS S3 e Redshift

Como conectar tudo isso em um ecossistema em nuvem de ponta a ponta.



Gostou desse capítulo?


👉 Assine a newsletter Coffee & Tips e receba os próximos capítulos direto no seu e-mail.


👉 Pré-venda exclusiva


Em breve também vamos lançar um E-Book avançado, com tutoriais em Spark, Airflow, Redshift, tudo para você se tornar um Engenheiro de Dados!


Cadastre-se agora na lista de pré-venda e garanta:


  • Acesso antecipado antes do lançamento oficial 🚀

  • Benefícios exclusivos para inscritos 💡

  • Conteúdo extra que não estará disponível gratuitamente




Fique ligado!


 
 
 

Comentários


bottom of page