#6 Orquestração de Pipelines: Airflow e Spark na prática

JP
2 de out.
3 min de leitura

Série: Trilha prática para se tornar Engenheiro de Dados – Capítulo 6

Pré-requisitos importantes antes de usar o Apache Spark

Antes de mergulhar no Spark, garanta que você tem:

Ter acompanhado os Capítulos 1 a 5 e o ambiente preparado conforme mostrado neles:

Introdução

Até aqui, você já aprendeu:

a importância do Engenheiro de Dados no ecossistema,
como Python e SQL se complementam,
os conceitos de Data Lake, Data Warehouse e Lakehouse,
como criar DAGs simples no Airflow,
e como processar dados em escala com o Spark.

Agora vamos conectar os pontos. Neste capítulo, você vai aprender a orquestrar um pipeline Spark dentro do Airflow, unindo a escalabilidade do Spark com o controle e monitoramento do Airflow.

Por que orquestrar Spark com Airflow?

Imagine que você já tem um ETL em Spark funcionando (como vimos no Capítulo 5). Mas e se você precisar:

rodar esse pipeline todos os dias,
monitorar erros,
registrar logs de execução,
e integrar com outros processos (ex.: enviar e-mail, mover arquivos, atualizar dashboards)?

Rodar tudo manualmente seria inviável. É aqui que entra a orquestração.O Airflow permite agendar, monitorar e coordenar jobs Spark (ou qualquer outro tipo de tarefa).

Criando a DAG que orquestra o Spark

Agora vamos criar uma DAG que orquestra o ETL em Spark desenvolvido no Capítulo 5.

Passo 1 – Crie o arquivo da DAG

Salve este código na pasta de DAGs (dags/spark_etl_dag.py):

Crie um arquivo Python e adicione o código abaixo:

Passo 2 – Valide no Airflow UI

Acessa a UI do Airflow acessando a URL http://localhost:8080
Para mais informações sobre como iniciar o Airflow, acesse o capítulo 4
Busque pela DAG spark_etl_pipeline

Clique no botão Trigger (▶) no canto superior direito do console.

Confira os logs no Airflow e verifique se os arquivos Parquet foram criados em /tmp/produtos_metricas_airflow.
Após a execução, acesse a aba Logs e veja o Output

Pronto! Você acaba de criar um ETL usando Spark integrada ao Airflow! Bora pra próxima?

Leituras recomendadas

Conclusão

Agora você tem um pipeline Spark automatizado e monitorado pelo Airflow. Com isso, você aprendeu:

a importância da orquestração,
como rodar Spark de forma agendada,
e como monitorar resultados diretamente no Airflow.

O que vem a seguir?

👉 Nos próximos capítulos, vamos falar de persistência e formatos de dados (Cap. 7), explorando como salvar e ler dados em CSV, JSON e Parquet.

Gostou desse capítulo?

👉 Assine a newsletter Coffee & Tips e receba os próximos capítulos direto no seu e-mail.

👉 Pré-venda exclusiva

Em breve também vamos lançar um E-Book avançado, com tutoriais em Spark, Airflow, Redshift, tudo para você se tornar um Engenheiro de Dados!

Cadastre-se agora na lista de pré-venda e garanta:

Acesso antecipado antes do lançamento oficial 🚀
Benefícios exclusivos para inscritos 💡
Conteúdo extra que não estará disponível gratuitamente

Garantir meu E-Book

Fique ligado!

Coffee and Tips Newsletter