top of page

Coffee and Tips Newsletter

Inscreva-se na nossa newsletter semanal

Nos vemos em breve!

#6 Orquestração de Pipelines: Airflow e Spark na prática

  • Foto do escritor: JP
    JP
  • 2 de out.
  • 3 min de leitura

Série: Trilha prática para se tornar Engenheiro de Dados – Capítulo 6


Pré-requisitos importantes antes de usar o Apache Spark


Antes de mergulhar no Spark, garanta que você tem:


  • Ter acompanhado os Capítulos 1 a 5 e o ambiente preparado conforme mostrado neles:



Introdução


Spark + Airflow

Até aqui, você já aprendeu:


  • a importância do Engenheiro de Dados no ecossistema,

  • como Python e SQL se complementam,

  • os conceitos de Data Lake, Data Warehouse e Lakehouse,

  • como criar DAGs simples no Airflow,

  • e como processar dados em escala com o Spark.


Agora vamos conectar os pontos. Neste capítulo, você vai aprender a orquestrar um pipeline Spark dentro do Airflow, unindo a escalabilidade do Spark com o controle e monitoramento do Airflow.



Por que orquestrar Spark com Airflow?


Imagine que você já tem um ETL em Spark funcionando (como vimos no Capítulo 5). Mas e se você precisar:


  • rodar esse pipeline todos os dias,

  • monitorar erros,

  • registrar logs de execução,

  • e integrar com outros processos (ex.: enviar e-mail, mover arquivos, atualizar dashboards)?


Rodar tudo manualmente seria inviável. É aqui que entra a orquestração.O Airflow permite agendar, monitorar e coordenar jobs Spark (ou qualquer outro tipo de tarefa).



Criando a DAG que orquestra o Spark


Agora vamos criar uma DAG que orquestra o ETL em Spark desenvolvido no Capítulo 5.


Passo 1 – Crie o arquivo da DAG


Salve este código na pasta de DAGs (dags/spark_etl_dag.py):


Crie um arquivo Python e adicione o código abaixo:



Passo 2 – Valide no Airflow UI


  • Acessa a UI do Airflow acessando a URL http://localhost:8080

  • Para mais informações sobre como iniciar o Airflow, acesse o capítulo 4

  • Busque pela DAG spark_etl_pipeline

Airflow e Apache Spark

  • Clique no botão Trigger (▶) no canto superior direito do console.


Airflow e Apache Spark


  • Confira os logs no Airflow e verifique se os arquivos Parquet foram criados em /tmp/produtos_metricas_airflow.

  • Após a execução, acesse a aba Logs e veja o Output

Airflow e Apache Spark


Pronto! Você acaba de criar um ETL usando Spark integrada ao Airflow! Bora pra próxima?


Leituras recomendadas



 Conclusão


Agora você tem um pipeline Spark automatizado e monitorado pelo Airflow. Com isso, você aprendeu:


  • a importância da orquestração,

  • como rodar Spark de forma agendada,

  • e como monitorar resultados diretamente no Airflow.


O que vem a seguir?


👉 Nos próximos capítulos, vamos falar de persistência e formatos de dados (Cap. 7), explorando como salvar e ler dados em CSV, JSON e Parquet.



Gostou desse capítulo?


👉 Assine a newsletter Coffee & Tips e receba os próximos capítulos direto no seu e-mail.


👉 Pré-venda exclusiva


Em breve também vamos lançar um E-Book avançado, com tutoriais em Spark, Airflow, Redshift, tudo para você se tornar um Engenheiro de Dados!


Cadastre-se agora na lista de pré-venda e garanta:


  • Acesso antecipado antes do lançamento oficial 🚀

  • Benefícios exclusivos para inscritos 💡

  • Conteúdo extra que não estará disponível gratuitamente




Fique ligado!


 
 
 

Comentários


bottom of page