#7 Persistência e Formatos de Dados: CSV, JSON e Parquet

Série: Trilha prática para se tornar Engenheiro de Dados – Capítulo 7 Pré-requisitos importantes antes de começar este capítulo Antes de mergulhar no Spark, garanta que você tem: Ter acompanhado os Capítulos 1 a 6 e o ambiente preparado conforme mostrado neles: Capítulo 1: Seu primeiro pipeline ETL Capítulo 2: Python + SQL – a dupla inseparável Capítulo 3: Data Lake, Data Warehouse e o conceito de Lakehouse Capítulo 4: Orquestração de Pipelines com Airflow Capítulo 5:Apache Spark: Processamento Distribuído de Dados na Prática Capítulo 6:Orquestração de Pipelines: Airflow e Spark na prática Introdução Depois de aprender a orquestrar pipelines e processar dados com Airflow e Spark , chegou a hora de entender como armazenar e compartilhar esses dados de forma eficiente. A escolha do formato de persistência impacta diretamente a velocidade de leitura , o custo de armazenamento e até a forma como analistas e cientistas consomem a informação . Neste capítulo, exploraremos os três formatos fundamentais da Engenharia de Dados moderna: CSV: simples e universal JSON: flexível e hierárquico Parquet: otimizado e colunar E o melhor: com exemplos reais de leitura, transformação e gravação de dados . Conceito de Persistência de Dados Persistir dados significa armazenar informações processadas para serem reutilizadas em etapas futuras — relatórios, dashboards ou modelos de Machine Learning. Cada formato atende a um cenário diferente: CSV (Comma-Separated Values) Conceito O CSV é o formato mais usado no mundo dos dados. Cada linha representa um registro, e as colunas são separadas por vírgulas. Exemplo Prático – Lendo e Gravando CSV Saída esperada: Explicação: O arquivo foi lido de uma URL e salvo localmente, simulando a etapa final de um pipeline de ETL — Extração, Transformação e Gravação . JSON (JavaScript Object Notation) Conceito O formato JSON é muito usado em APIs e integrações entre sistemas . Ele suporta hierarquia, arrays e tipos de dados complexos. Exemplo Prático – Coletando dados de uma API e salvando em JSON Saída esperada Conteúdo do arquivo produtos.json (trecho): Explicação: O JSON facilita a persistência de dados hierárquicos e estruturados — ideal para integrações com APIs e logs de sistemas. Parquet Conceito O Parquet é um formato colunar e otimizado usado em Data Lakes . Ele é extremamente eficiente para leitura em larga escala, pois armazena colunas de forma compacta e com compressão nativa. 💡Se quiser entender mais a fundo sobre esse formato, leia o seguinte post: Parquet vs Avro vs ORC: Qual formato de arquivo escolher no seu projeto de dados? Exemplo Prático – Lendo e Salvando em Parquet com Spark Saída esperada Explicação: O Parquet é o formato mais comum em pipelines modernos, pois reduz custos de armazenamento e melhora o tempo de leitura em ferramentas como Athena, Redshift Spectrum e Spark SQL .
Comparativo dos Formatos

Dica Extra
👉 Sempre use Parquet ou ORC para armazenar dados processados em larga escala. 👉 Use CSV apenas quando a interoperabilidade for prioridade (ex.: exportar para BI ou Excel). 👉 Use JSON quando precisar preservar estrutura e relacionamentos. Conclusão Você acabou de aprender como persistir dados em diferentes formatos , entendendo como cada um impacta a performance e o consumo no seu ecossistema de dados. Dominar CSV, JSON e Parquet é essencial para quem deseja trabalhar com pipelines modernos e eficientes . Leituras recomendadas Capítulo 1: Seu primeiro pipeline ETL Capítulo 2: Python + SQL – a dupla inseparável Capítulo 3: Data Lake, Data Warehouse e o conceito de Lakehouse Capítulo 4: Orquestração de Pipelines com Airflow Capítulo 5:Apache Spark: Processamento Distribuído de Dados na Prática Capítulo 6:Orquestração de Pipelines: Airflow e Spark na prática Pandas Documentation – CSV & JSON I/O Apache Parquet Official Documentation O que vem a seguir? 👉 Capítulo 8 – Armazenamento e Consumo com AWS S3 e Redshift Como conectar tudo isso em um ecossistema em nuvem de ponta a ponta. Gostou desse capítulo? 👉 Assine a newsletter Coffee & Tips e receba os próximos capítulos direto no seu e-mail. 👉 Pré-venda exclusiva Em breve também vamos lançar um E-Book avançado , com tutoriais em Spark, Airflow, Redshift, tudo para você se tornar um Engenheiro de Dados! Cadastre-se agora na lista de pré-venda e garanta: Acesso antecipado antes do lançamento oficial 🚀 Benefícios exclusivos para inscritos 💡 Conteúdo extra que não estará disponível gratuitamente Fique ligado!