#1 O que é Engenharia de Dados e por que ela importa?

JP
há 2 dias
5 min de leitura

Atualizado: há 8 horas

Série: Trilha prática para se tornar Engenheiro de Dados – Capítulo 1

Pré-requisitos

Para acompanhar e executar os exemplos deste capítulo, você vai precisar de:

Python 3.10+ – Instalação oficial
Pandas – biblioteca Python para manipulação de dados. Instale com:

pip install pandas requests

Documentação: Pandas Doc

SQLite – banco de dados leve (já vem instalado na maioria dos sistemas).

Guia: SQLite Download Page

Não se preocupe: vamos usar apenas exemplos simples, que rodam localmente.

Introdução

Você já parou para pensar no caminho que os dados percorrem até virarem informação útil?Quando você pede um Uber, assiste a uma série na Netflix ou consulta seu extrato no banco digital, existe uma engrenagem invisível garantindo que esses dados fluam em tempo real, de forma organizada e confiável.

Essa engrenagem tem nome: Engenharia de Dados.

Engenheiros de Dados são os responsáveis por construir essa infraestrutura invisível. Eles criam pipelines que coletam, transformam e armazenam dados em escala, permitindo que analistas, cientistas de dados e gestores possam tomar decisões baseadas em dados.

Afinal, o que é Engenharia de Dados?

De forma simples: Engenharia de Dados é a área responsável por transformar dados brutos em informações acessíveis e utilizáveis.

Pense em dados como matéria-prima. O engenheiro de dados constrói a fábrica que organiza essa matéria-prima em insumos prontos para virar relatórios, análises e algoritmos de machine learning.

Exemplo real:

Uma loja online coleta dados de vendas (sistema de e-commerce).
Dados de clientes ficam em outro sistema (CRM).
Dados financeiros estão em um ERP. Sem integração, tudo fica espalhado.O engenheiro de dados conecta essas fontes, organiza, limpa e centraliza os dados em estruturas acessíveis.

Os Personagens do Ecossistema de Dados

A Engenharia de Dados faz parte de um ecossistema. Entender os papéis ajuda a visualizar o impacto do engenheiro no todo:

Analista de Dados – O contador de histórias com números

Cria relatórios e dashboards (ex: vendas por região).
Usa ferramentas como Power BI, Tableau e SQL.
Depende de dados limpos e acessíveis para trabalhar.

Cientista de Dados – O explorador do futuro

Cria modelos preditivos e algoritmos de machine learning.
Usa Python, R e frameworks como TensorFlow.
Sem engenharia de dados, passa 80% do tempo limpando dados.

Engenheiro de Dados – O arquiteto da infraestrutura

Constrói pipelines e plataformas de dados.
Responsável por ingestão, transformação, armazenamento e governança.
Garante que os dados certos cheguem às pessoas certas, na hora certa.

Engenheiro de Machine Learning – O guardião dos modelos em produção

Coloca modelos de ML em produção e garante sua performance.
Depende do engenheiro de dados para ter dados de qualidade.

A metáfora da Fórmula 1

Analista de Dados → o narrador da corrida, traduzindo números para o público.
Cientista de Dados → o estrategista que decide quando trocar pneus.
Engenheiro de ML → instala sensores inteligentes no carro.
Engenheiro de Dados → a equipe de mecânicos e engenheiros que mantêm o carro na pista.

Sem engenharia de dados, ninguém cruza a linha de chegada.

Mãos na massa – Seu primeiro mini-pipeline (ETL)

Vamos criar um mini-ETL local. O objetivo é simples:

Extrair dados de uma API pública.
Transformar em tabela organizada.
Carregar em um arquivo CSV.

Passo 1 – Extrair (Extract)

Crie um arquivo chamado pipeline.py com o código:


# Importamos as bibliotecas necessárias:
# - requests: para acessar a API via HTTP
# - pandas: para organizar e manipular os dados

import requests
import pandas as pd

# URL da API que retorna as informações de um produto fictício

url = "https://dummyjson.com/products/1"

# Fazendo a requisição HTTP do tipo GET

response = requests.get(url)

# Verificando se a requisição foi bem-sucedida (status code 200)
# Se der erro (ex: internet fora, servidor em manutenção), o programa para aqui

response.raise_for_status()

# Convertendo a resposta em formato JSON para um dicionário Python

data = response.json()

# Mostrando os dados brutos (antes de qualquer transformação)

print("Dados brutos extraídos da API:")
print(data)

Passo 2 – Transformar (Transform)

Agora vamos organizar esses dados em formato de tabela (DataFrame) e arredondar os valores:


# Criamos um dicionário apenas com os campos que queremos destacar.
# Isso é o "T" do ETL: selecionar, limpar e organizar os dados.

produto = {
    "id": data["id"],                               # ID do produto
	"nome": data["title"],                          # Nome produto
	"categoria": data["category"],                  # Categoria
	"marca": data["brand"],                         # Marca
	"preco": data["price"],                         # Preço
	"estoque": data["stock"],                       # Estoque
	"avaliacao_media": data["rating"],              # Notareviews
	"quantidade_minima": data["minimumOrderQuantity"], # min compra
	"disponibilidade": data["availabilityStatus"],  # disponibil.
}

# Criamos um DataFrame (tabela) a partir do dicionário
# Usamos uma lista com um único item porque cada linha do DataFrame precisa ser um dicionário

df_produto = pd.DataFrame([produto])

# Exibindo a tabela transformada no console

print("\nTabela transformada:")
print(df_produto)

Passo 3 – Carregar (Load)

Por fim, vamos salvar tudo em um arquivo CSV:

# Exportamos o DataFrame para um arquivo CSV
# - index=False → evita salvar o índice (0,1,2) como coluna extra
# - encoding="utf-8" → garante que caracteres especiais (acentos) fiquem corretos

df_produto.to_csv("produto.csv", index=False, encoding="utf-8")

# Mensagem final confirmando que o pipeline foi concluído

print("\nArquivo 'produto.csv' salvo com sucesso!")
print("Abra no Excel ou LibreOffice para visualizar.")

Executando o pipeline

No terminal, acesse a pasta onde o arquivo python se encontra e rode o camando:

python pipeline.py

Você verá algo como:

Agora abra o arquivo produto.csv no Excel ou LibreOffice e veja a tabela completa com dezenas de moedas.

Parabéns, você acabou de rodar seu primeiro pipeline de dados

Por que Engenharia de Dados é tão relevante hoje?

Explosão de dados: nunca produzimos tanto quanto agora, olhe ao redor e veja o quanto de informação é gerado por segundo.
Cloud computing: tornou possível processar em escala global.
Demanda do mercado: empresas querem ser data-driven, o dado é o novo ouro!
Carreira promissora: engenheiros de dados estão entre os profissionais mais bem pagos da tecnologia.

Leituras recomendadas

Conclusão

Engenharia de Dados não é apenas sobre código. É sobre criar estruturas que tornam os dados realmente úteis.

Hoje você:

Entendeu o papel da Engenharia de Dados.
Conheceu os personagens do ecossistema.
Criou seu primeiro mini-ETL em Python.

Isso foi só o começo 🚀

O que vem a seguir?

👉 No próximo capítulo: Python e SQL – a dupla que sustenta a Engenharia de Dados moderna.Você vai aprender a integrar as duas linguagens e rodar consultas reais em um mini Data Warehouse local.

Gostou desse capítulo?

👉 Assine a newsletter Coffee & Tips e receba os próximos capítulos direto no seu e-mail.

Em breve também vamos lançar um EBook avançado, com tutoriais em Spark, Airflow, Redshift e muito mais.

Fique ligado!

Coffee and Tips Newsletter