TRIBE (LTD STARTRIBE)

MLOps Engineer

Не указана
  • Тбилиси
  • От 3 до 6 лет
  • Kubernetes
  • Python
  • Prometheus
  • Victoria Metrics
  • Grafana
  • MLflow
  • ClearML
  • Kubeflow
  • GitOps
  • ArgoCD
Наш клиент - международная продуктовая IT компания, которая занимается разработкой и поддержкой высоконагруженных проектов для крупных компаний, основная часть которых представляет собой развлекательные онлайн-сервисы, в поисках MLOps-инженера в платформенную команду.
Команда AI/ML отвечает за разработку и внедрение AI/ML-решений, сопровождение пользователей AI/ML-платформы и эксплуатацию inference-сервисов.
Внимание!!! Данная вакансия предполагает релокацию на Кипр или в Сербию и офисный формат работы
Почему эта позиция интересна:
Реальный ML в production — inference-сервисы с высокой нагрузкой, эксперименты, модели в Kubernetes
Современный стек — Kubeflow, ClearML, Kuberay, не легаси
Влияние на платформу — участие в архитектурных решениях ML-инфраструктуры
Команда инженеров — ресурсы для реализации амбициозных проектов
Без ночных дежурств — отдельная команда поддержки, здоровый work-life balance
GitOps-подход — инфраструктура как код, ArgoCD, Helm
Чем предстоит заниматься:
ML-платформа (Kubeflow / ClearML):
  • Развивать и поддерживать ML-платформу на базе Kubeflow и ClearML
  • Настраивать и оптимизировать ML-пайплайны: подготовка данных, обучение, валидация
  • Развивать объектное хранилище артефактов (MinIO / S3-compatible)
  • Внедрять GitOps-подход для ML-инфраструктуры (ArgoCD, Helm, GitLab CI)
Inference-сервисы:
  • Эксплуатировать и оптимизировать inference-сервисы в Kubernetes
  • Обеспечивать observability: метрики (Victoria Metrics, Grafana), логи (Vector)
  • Оптимизировать latency и throughput inference-пайплайнов
Сопровождение пользователей ML-платформы:
  • Помогать data scientist'ам и ML-инженерам использовать платформу эффективно
  • Разрабатывать документацию и runbooks по работе с ML-платформой
  • Участвовать в onboarding новых ML-проектов на платформу
  • Проводить root cause analysis инцидентов ML-инфраструктуры
Необходимые навыки и опыт:
  • Опыт работы с Kubernetes в production от 5 лет
  • Знание ML-экосистемы: пайплайны обучения, версионирование моделей, эксперименты
  • Опыт с одной из платформ: Kubeflow, MLflow, ClearML или аналогами
  • Уверенное программирование на Python (автоматизация, скрипты, ML-код)
  • Опыт с системами мониторинга (Prometheus, Victoria Metrics, Grafana)
  • Знание GitOps и ArgoCD
  • Понимание работы GPU в Kubernetes (расписание, квоты, изоляция)
  • Опыт с объектным хранилищем S3-compatible (MinIO, AWS S3 или аналоги)
Будет плюсом:
  • Опыт с Kuberay (Ray clusters для распределённого обучения)
  • Знание MLflow (эксперименты, model registry, serving)
  • Знание inference-фреймворков: vLLM, Triton Inference Server, TorchServe, SGLang
  • Опыт с векторными базами данных (Milvus, Qdrant, Weaviate)
  • Понимание LLM fine-tuning и deployment (LoRA, quantization)
  • Опыт с OpenWebUI или аналогичными LLM-интерфейсами
  • Сертификации Kubernetes (CKA) или cloud (AWS, GCP)
  • Опыт с HashiCorp Vault для управления секретами ML-сервисов
Условия:
  • Релокация ни Кипр или в Сербию за счет компании
  • Официальное оформление по ТК Кипра/Сербии
  • Годовой бонус по результатам работы
  • Оплачиваемый отпуск
  • 4 дополнительных day off в год
  • Реферальная программа
  • Подарки сотрудникам и их детям
  • Корпоративное питание - завтраки и обеды за счет компании
  • График: 5/2 с гибким началом рабочего дня с 8:00 до 11:00
  • Современное оборудованное рабочее место
  • Русскоязычная команда
  • Минимум бюрократии
  • Поездки на IT-конференции, митапы и обучение
  • Возможность профессионального и финансового роста
  • Компенсация оплаты занятий по английскому языку от SkyEng в размере 50%
  • Насыщенная корпоративная жизнь - регулярные спортивные, развлекательные, образовательные мероприятия для сотрудников и их детей