top of page

Coffee and Tips Newsletter

Inscreva-se na nossa newsletter semanal

Nos vemos em breve!

#1 O que é Engenharia de Dados e por que ela importa?

  • Foto do escritor: JP
    JP
  • há 2 dias
  • 5 min de leitura

Atualizado: há 8 horas

Série: Trilha prática para se tornar Engenheiro de Dados – Capítulo 1


Pré-requisitos


Para acompanhar e executar os exemplos deste capítulo, você vai precisar de:


  • Python 3.10+ – Instalação oficial

  • Pandas – biblioteca Python para manipulação de dados. Instale com:


pip install pandas requests

Documentação: Pandas Doc


  • SQLite – banco de dados leve (já vem instalado na maioria dos sistemas).


Não se preocupe: vamos usar apenas exemplos simples, que rodam localmente.



Introdução


Você já parou para pensar no caminho que os dados percorrem até virarem informação útil?Quando você pede um Uber, assiste a uma série na Netflix ou consulta seu extrato no banco digital, existe uma engrenagem invisível garantindo que esses dados fluam em tempo real, de forma organizada e confiável.

Essa engrenagem tem nome: Engenharia de Dados.

Engenheiros de Dados são os responsáveis por construir essa infraestrutura invisível. Eles criam pipelines que coletam, transformam e armazenam dados em escala, permitindo que analistas, cientistas de dados e gestores possam tomar decisões baseadas em dados.



Afinal, o que é Engenharia de Dados?


De forma simples: Engenharia de Dados é a área responsável por transformar dados brutos em informações acessíveis e utilizáveis.

Pense em dados como matéria-prima. O engenheiro de dados constrói a fábrica que organiza essa matéria-prima em insumos prontos para virar relatórios, análises e algoritmos de machine learning.


Exemplo real:


  • Uma loja online coleta dados de vendas (sistema de e-commerce).

  • Dados de clientes ficam em outro sistema (CRM).

  • Dados financeiros estão em um ERP. Sem integração, tudo fica espalhado.O engenheiro de dados conecta essas fontes, organiza, limpa e centraliza os dados em estruturas acessíveis.



Os Personagens do Ecossistema de Dados


A Engenharia de Dados faz parte de um ecossistema. Entender os papéis ajuda a visualizar o impacto do engenheiro no todo:


Analista de Dados – O contador de histórias com números

  • Cria relatórios e dashboards (ex: vendas por região).

  • Usa ferramentas como Power BI, Tableau e SQL.

  • Depende de dados limpos e acessíveis para trabalhar.

Cientista de Dados – O explorador do futuro

  • Cria modelos preditivos e algoritmos de machine learning.

  • Usa Python, R e frameworks como TensorFlow.

  • Sem engenharia de dados, passa 80% do tempo limpando dados.


Engenheiro de Dados – O arquiteto da infraestrutura


  • Constrói pipelines e plataformas de dados.

  • Responsável por ingestão, transformação, armazenamento e governança.

  • Garante que os dados certos cheguem às pessoas certas, na hora certa.


Engenheiro de Machine Learning – O guardião dos modelos em produção

  • Coloca modelos de ML em produção e garante sua performance.

  • Depende do engenheiro de dados para ter dados de qualidade.



A metáfora da Fórmula 1


  • Analista de Dados → o narrador da corrida, traduzindo números para o público.

  • Cientista de Dados → o estrategista que decide quando trocar pneus.

  • Engenheiro de ML → instala sensores inteligentes no carro.

  • Engenheiro de Dados → a equipe de mecânicos e engenheiros que mantêm o carro na pista.


Sem engenharia de dados, ninguém cruza a linha de chegada.



Mãos na massa – Seu primeiro mini-pipeline (ETL)


Engenharia de Dados
Criando seu primeiro pipeline de Dados


Vamos criar um mini-ETL local. O objetivo é simples:

  1. Extrair dados de uma API pública.

  2. Transformar em tabela organizada.

  3. Carregar em um arquivo CSV.



Passo 1 – Extrair (Extract)

Crie um arquivo chamado pipeline.py com o código:



# Importamos as bibliotecas necessárias:
# - requests: para acessar a API via HTTP
# - pandas: para organizar e manipular os dados

import requests
import pandas as pd

# URL da API que retorna as informações de um produto fictício

url = "https://dummyjson.com/products/1"

# Fazendo a requisição HTTP do tipo GET

response = requests.get(url)

# Verificando se a requisição foi bem-sucedida (status code 200)
# Se der erro (ex: internet fora, servidor em manutenção), o programa para aqui

response.raise_for_status()

# Convertendo a resposta em formato JSON para um dicionário Python

data = response.json()

# Mostrando os dados brutos (antes de qualquer transformação)

print("Dados brutos extraídos da API:")
print(data)


Passo 2 – Transformar (Transform)


Agora vamos organizar esses dados em formato de tabela (DataFrame) e arredondar os valores:


# Criamos um dicionário apenas com os campos que queremos destacar.
# Isso é o "T" do ETL: selecionar, limpar e organizar os dados.

produto = {
    "id": data["id"],                               # ID do produto
	"nome": data["title"],                          # Nome produto
	"categoria": data["category"],                  # Categoria
	"marca": data["brand"],                         # Marca
	"preco": data["price"],                         # Preço
	"estoque": data["stock"],                       # Estoque
	"avaliacao_media": data["rating"],              # Notareviews
	"quantidade_minima": data["minimumOrderQuantity"], # min compra
	"disponibilidade": data["availabilityStatus"],  # disponibil.
}

# Criamos um DataFrame (tabela) a partir do dicionário
# Usamos uma lista com um único item porque cada linha do DataFrame precisa ser um dicionário

df_produto = pd.DataFrame([produto])

# Exibindo a tabela transformada no console

print("\nTabela transformada:")
print(df_produto)

Passo 3 – Carregar (Load)


Por fim, vamos salvar tudo em um arquivo CSV:


# Exportamos o DataFrame para um arquivo CSV
# - index=False → evita salvar o índice (0,1,2) como coluna extra
# - encoding="utf-8" → garante que caracteres especiais (acentos) fiquem corretos

df_produto.to_csv("produto.csv", index=False, encoding="utf-8")

# Mensagem final confirmando que o pipeline foi concluído

print("\nArquivo 'produto.csv' salvo com sucesso!")
print("Abra no Excel ou LibreOffice para visualizar.")

Executando o pipeline


No terminal, acesse a pasta onde o arquivo python se encontra e rode o camando:


python pipeline.py

Você verá algo como:


ree

Agora abra o arquivo produto.csv no Excel ou LibreOffice e veja a tabela completa com dezenas de moedas.


Parabéns, você acabou de rodar seu primeiro pipeline de dados



Por que Engenharia de Dados é tão relevante hoje?


  1. Explosão de dados: nunca produzimos tanto quanto agora, olhe ao redor e veja o quanto de informação é gerado por segundo.

  2. Cloud computing: tornou possível processar em escala global.

  3. Demanda do mercado: empresas querem ser data-driven, o dado é o novo ouro!

  4. Carreira promissora: engenheiros de dados estão entre os profissionais mais bem pagos da tecnologia.


Leituras recomendadas




 Conclusão


Engenharia de Dados não é apenas sobre código. É sobre criar estruturas que tornam os dados realmente úteis.


Hoje você:


  • Entendeu o papel da Engenharia de Dados.

  • Conheceu os personagens do ecossistema.

  • Criou seu primeiro mini-ETL em Python.


Isso foi só o começo 🚀



O que vem a seguir?


👉 No próximo capítulo: Python e SQL – a dupla que sustenta a Engenharia de Dados moderna.Você vai aprender a integrar as duas linguagens e rodar consultas reais em um mini Data Warehouse local.



Gostou desse capítulo?


👉 Assine a newsletter Coffee & Tips e receba os próximos capítulos direto no seu e-mail.


Em breve também vamos lançar um EBook avançado, com tutoriais em Spark, Airflow, Redshift e muito mais.


Fique ligado!


 
 
 
bottom of page