#1 O que é Engenharia de Dados e por que ela importa?
Série: Trilha prática para se tornar Engenheiro de Dados – Capítulo 1 Pré-requisitos Para acompanhar e executar os exemplos deste capítulo, você vai precisar de: Python 3.10+ – Instalação oficial Pandas – biblioteca Python para manipulação de dados. Instale com: pip install pandas requests Documentação: Pandas Doc SQLite – banco de dados leve (já vem instalado na maioria dos sistemas).
Guia: SQLite Download Page Não se preocupe: vamos usar apenas exemplos simples, que rodam localmente. Introdução Você já parou para pensar no caminho que os dados percorrem até virarem informação útil?Quando você pede um Uber, assiste a uma série na Netflix ou consulta seu extrato no banco digital, existe uma engrenagem invisível garantindo que esses dados fluam em tempo real, de forma organizada e confiável.
Essa engrenagem tem nome: Engenharia de Dados.
Engenheiros de Dados são os responsáveis por construir essa infraestrutura invisível. Eles criam pipelines que coletam, transformam e armazenam dados em escala, permitindo que analistas, cientistas de dados e gestores possam tomar decisões baseadas em dados. Afinal, o que é Engenharia de Dados? De forma simples: Engenharia de Dados é a área responsável por transformar dados brutos em informações acessíveis e utilizáveis.
Pense em dados como matéria-prima. O engenheiro de dados constrói a fábrica que organiza essa matéria-prima em insumos prontos para virar relatórios, análises e algoritmos de machine learning. Exemplo real: Uma loja online coleta dados de vendas (sistema de e-commerce). Dados de clientes ficam em outro sistema (CRM). Dados financeiros estão em um ERP.
Sem integração, tudo fica espalhado.O engenheiro de dados conecta essas fontes, organiza, limpa e centraliza os dados em estruturas acessíveis. Os Personagens do Ecossistema de Dados A Engenharia de Dados faz parte de um ecossistema. Entender os papéis ajuda a visualizar o impacto do engenheiro no todo: Analista de Dados – O contador de histórias com números
Cria relatórios e dashboards (ex: vendas por região). Usa ferramentas como Power BI, Tableau e SQL. Depende de dados limpos e acessíveis para trabalhar.
Cientista de Dados – O explorador do futuro
Cria modelos preditivos e algoritmos de machine learning. Usa Python, R e frameworks como TensorFlow. Sem engenharia de dados, passa 80% do tempo limpando dados. Engenheiro de Dados – O arquiteto da infraestrutura Constrói pipelines e plataformas de dados. Responsável por ingestão, transformação, armazenamento e governança. Garante que os dados certos cheguem às pessoas certas, na hora certa. Engenheiro de Machine Learning – O guardião dos modelos em produção
Coloca modelos de ML em produção e garante sua performance. Depende do engenheiro de dados para ter dados de qualidade. A metáfora da Fórmula 1 Analista de Dados → o narrador da corrida, traduzindo números para o público. Cientista de Dados → o estrategista que decide quando trocar pneus. Engenheiro de ML → instala sensores inteligentes no carro. Engenheiro de Dados → a equipe de mecânicos e engenheiros que mantêm o carro na pista. Sem engenharia de dados, ninguém cruza a linha de chegada. Mãos na massa – Seu primeiro mini-pipeline (ETL) Criando seu primeiro pipeline de Dados Vamos criar um mini-ETL local. O objetivo é simples:
Extrair dados de uma API pública. Transformar em tabela organizada. Carregar em um arquivo CSV. Passo 1 – Extrair (Extract)
Crie um arquivo chamado pipeline.py com o código:
# Importamos as bibliotecas necessárias:
# - requests: para acessar a API via HTTP
# - pandas: para organizar e manipular os dados
import requests
import pandas as pd
# URL da API que retorna as informações de um produto fictício
url = "https://dummyjson.com/products/1"
# Fazendo a requisição HTTP do tipo GET
response = requests.get(url)
# Verificando se a requisição foi bem-sucedida (status code 200)
# Se der erro (ex: internet fora, servidor em manutenção), o programa para aqui
response.raise_for_status()
# Convertendo a resposta em formato JSON para um dicionário Python
data = response.json()
# Mostrando os dados brutos (antes de qualquer transformação)
print("Dados brutos extraídos da API:")
print(data) Passo 2 – Transformar (Transform) Agora vamos organizar esses dados em formato de tabela (DataFrame) e arredondar os valores:
# Criamos um dicionário apenas com os campos que queremos destacar.
# Isso é o "T" do ETL: selecionar, limpar e organizar os dados.
produto = {
"id": data["id"], # ID do produto
"nome": data["title"], # Nome produto
"categoria": data["category"], # Categoria
"marca": data["brand"], # Marca
"preco": data["price"], # Preço
"estoque": data["stock"], # Estoque
"avaliacao_media": data["rating"], # Notareviews
"quantidade_minima": data["minimumOrderQuantity"], # min compra
"disponibilidade": data["availabilityStatus"], # disponibil.
}
# Criamos um DataFrame (tabela) a partir do dicionário
# Usamos uma lista com um único item porque cada linha do DataFrame precisa ser um dicionário
df_produto = pd.DataFrame([produto])
# Exibindo a tabela transformada no console
print("\nTabela transformada:")
print(df_produto) Passo 3 – Carregar (Load) Por fim, vamos salvar tudo em um arquivo CSV: # Exportamos o DataFrame para um arquivo CSV
# - index=False → evita salvar o índice (0,1,2) como coluna extra
# - encoding="utf-8" → garante que caracteres especiais (acentos) fiquem corretos
df_produto.to_csv("produto.csv", index=False, encoding="utf-8")
# Mensagem final confirmando que o pipeline foi concluído
print("\nArquivo 'produto.csv' salvo com sucesso!")
print("Abra no Excel ou LibreOffice para visualizar.") Executando o pipeline No terminal, acesse a pasta onde o arquivo python se encontra e rode o camando: python pipeline.py Você verá algo como: Agora abra o arquivo produto.csv no Excel ou LibreOffice e veja a tabela completa com dezenas de moedas. Parabéns, você acabou de rodar seu primeiro pipeline de dados Por que Engenharia de Dados é tão relevante hoje? Explosão de dados: nunca produzimos tanto quanto agora, olhe ao redor e veja o quanto de informação é gerado por segundo. Cloud computing: tornou possível processar em escala global. Demanda do mercado: empresas querem ser data-driven, o dado é o novo ouro! Carreira promissora: engenheiros de dados estão entre os profissionais mais bem pagos da tecnologia. Leituras recomendadas The Rise of Data Engineering (Medium) ETL Concepts Explained – IBM SQLite Docs Análise de dados usando Pandas: O Guia completo para iniciantes Conclusão Engenharia de Dados não é apenas sobre código. É sobre criar estruturas que tornam os dados realmente úteis. Hoje você: Entendeu o papel da Engenharia de Dados. Conheceu os personagens do ecossistema. Criou seu primeiro mini-ETL em Python. Isso foi só o começo 🚀 O que vem a seguir? 👉 No próximo capítulo: Python e SQL – a dupla que sustenta a Engenharia de Dados moderna.Você vai aprender a integrar as duas linguagens e rodar consultas reais em um mini Data Warehouse local. Gostou desse capítulo? 👉 Assine a newsletter Coffee & Tips e receba os próximos capítulos direto no seu e-mail. 👉 Pré-venda exclusiva Em breve também vamos lançar um E-Book avançado, com tutoriais em Spark, Airflow, Redshift, tudo para você se tornar um Engenheiro de Dados! Cadastre-se agora na lista de pré-venda e garanta: Acesso antecipado antes do lançamento oficial 🚀 Benefícios exclusivos para inscritos 💡 Conteúdo extra que não estará disponível gratuitamente Fique ligado!
