Engenheiro de Dados Sênior especializado em arquitetura de dados distribuída, ingestão de alta volumetria e processamento em tempo real. Foco em construção de pipelines resilientes, governança de dados e otimização de infraestrutura em nuvem.
Atualmente na RD Station, desenvolvendo soluções de CDC e infraestrutura como código. Anteriormente, exerci liderança técnica na Shopee.
Core Engineering & Streaming
- Streaming & Processing: Apache Flink, Spark (PySpark), Apache Beam (Dataflow), Apache Kafka.
- Storage & Formats: Apache Hudi, Hive, HDFS, Redis.
- Orchestration: Apache Airflow (Custom Operators), Argo Workflows.
Infrastructure & Cloud
- Cloud Providers: Google Cloud Platform (GCP), AWS, Microsoft Azure.
- IaC & Containers: Terraform, Kubernetes (K8s), Docker.
- CI/CD: GitLab CI, CircleCI, Jenkins.
- Real-Time Data Pipelines: Desenvolvimento de pipelines Near Real Time utilizando Kafka e Flink, reduzindo a latência de disponibilidade de dados para segundos em ambientes de e-commerce de alta escala.
- Change Data Capture (CDC): Implementação de arquiteturas de CDC utilizando Dataflow e Java, com enriquecimento em memória via Redis.
- High Scalability: Otimização de processos ELT para manipulação de datasets com bilhões de registros, garantindo performance e integridade.
- Data Reliability: Liderança na implementação de arquitetura de medalhões (Bronze/Silver/Gold) e automação de deploys para garantir estabilidade operacional.