DaCodes logo

Senior GCP DevOps con Especialización en MLOps & GenAI

DaCodes
Remoto
Colombia
Description

🧭 Descripción General

Buscamos un/a Senior GCP DevOps Engineer con profundo dominio de infraestructura en Google Cloud, automatización, Kubernetes, Terraform y CI/CD; que además cuente con experiencia o especialización en MLOps y GenAI, para habilitar y operar plataformas de IA basadas en modelos de Machine Learning y LLMs.

Este rol es clave para garantizar que los modelos, workflows y sistemas multiagente del equipo de IA puedan ejecutarse de forma escalable, confiable, segura y eficiente.

Senior GCP DevOps Engineer (MLOps & GenAI)

100% remoto | LATAM
¿Te apasiona GCP, Kubernetes, IaC y quieres trabajar con modelos de IA/LLMs en producción?
Este rol es para ti.

Buscamos a alguien que domine:

🔥 GCP (IAM, VPCs, Cloud Run, Compute Engine, Pub/Sub…)
🔥 Kubernetes/GKE (mejor aún si has trabajado con GPU)
🔥 Terraform avanzado
🔥 GitLab CI/CD
🔥 Observabilidad / costos / seguridad

Y que además tenga experiencia o interés fuerte en:
🤖 Vertex AI, MLflow
🤖 Despliegue de modelos ML
🤖 LLMs, RAG, workflows multiagente
🤖 Sistemas de IA escalables

Serás quien habilite la infraestructura que permite que la IA cobre vida en producción.



Requirements

🔧 Responsabilidades Principales

Infraestructura & DevOps (Core del rol)

  • Diseñar, automatizar y operar infraestructura en GCP (IAM, redes, VPCs, Cloud Run, Compute Engine, Pub/Sub, Cloud SQL).
  • Implementar prácticas de Infraestructura como Código usando Terraform (módulos, state remoto, workspaces multiambiente).
  • Construir y mantener pipelines CI/CD con GitLab, asegurando buenas prácticas de branching, versionado y despliegue.

Kubernetes / GKE

  • Administrar clústeres en GKE, incluyendo nodepools con GPU, autoscaling, seguridad, networking y monitoreo.
  • Desplegar aplicaciones de IA/ML y servicios de inferencia en GKE o Cloud Run.

MLOps

  • Integrar y operar plataformas de Machine Learning como Vertex AI, MLflow o equivalentes.
  • Desplegar modelos en endpoints online, batch jobs o contenedores.
  • Gestionar experiment tracking, model registry y artefactos.

GenAI & Sistemas Multiagente

  • Consumir APIs de LLMs (GPT, Gemini, Claude, etc.).
  • Implementar workflows con RAG, embeddings, pasos multiagente o pipelines de concurrencia.
  • Desplegar servicios basados en LLM en GCP, optimizando rendimiento y costos.

Observabilidad & Costos

  • Configurar monitoreo y trazabilidad (Grafana, Datadog, Looker Studio).
  • Monitorear consumo de tokens de LLMs, recursos de GPU/CPU y costos de GCP.
  • Implementar alertas de latencia, fallas y carga.

🧩 Requisitos Obligatorios

Base DevOps/Cloud (lo más importante)

  • +4 años de experiencia con GCP en producción.
  • +3 años con Terraform avanzado.
  • +3 años administrando Kubernetes/GKE, idealmente con GPU.
  • +3 años construyendo pipelines CI/CD.
  • Dominio de Docker, seguridad en cloud, redes y observabilidad.

Especialización MLOps

  • Haber colaborado con squads de datos/IA (no hace falta que sea el que entrena modelos, pero sí que haya desplegado modelos o servicios de ML).
  • Experiencia desplegando modelos ML en endpoints batch u online.
  • Alguna experiencia con GenAI: LLMs, RAG o al menos consumo de APIs (OpenAI, Gemini, etc.).
  • Vertex AI / MLflow / SageMaker / Azure ML (cualquiera aplicable).
  • Conocimientos de experiment tracking y versionado de modelos.

Experiencia en GenAI

  • Uso de LLM APIs.
  • Familiaridad con RAG o workflows multiagente.
  • Comprensión de tokens, latencia, concurrencia y costos en inferencia.

⭐ Nice to Have

  • Certificación GCP (Cloud Architect, Data Engineer o ML Engineer).
  • Experiencia con Dataflow, BigQuery o pipelines de datos.
  • Conocimientos en NLP o frameworks como LangChain, LangGraph, LlamaIndex.



Benefits

🚀 Integración a marcas globales y startups disruptivas.

🏡 Trabajo remoto/Home office.

📍 En caso de requerir modalidad híbrida o presencial, serás informado desde la primera sesión.

⏳ Horario ajustado a la célula de trabajo/proyecto asignado.

📅 Trabajo de lunes a viernes.

🎉 Día off en tu cumpleaños.

🏥 Seguro de gastos médicos mayores (aplica para México).

🛡️ Seguro de vida (aplica para México).

🌎 Equipos de trabajo multiculturales.

🎓 Acceso a cursos y certificaciones.

📢 Meetups con invitados especiales del área de IT.

📡 Eventos virtuales de integración y grupos de interés.

📢 Clases de inglés.

🏆 Oportunidades dentro de nuestras diferentes líneas de negocio.

🏅 Orgullosamente certificados como Great Place to Work.

Postularme
Comparte este trabajo