TRIBE (LTD STARTRIBE)

MLOps Engineer

Не указана

Тбилиси
От 3 до 6 лет

Kubernetes
Python
Prometheus
Victoria Metrics
Grafana
MLflow
ClearML
Kubeflow
GitOps
ArgoCD

Наш клиент - международная продуктовая IT компания, которая занимается разработкой и поддержкой высоконагруженных проектов для крупных компаний, основная часть которых представляет собой развлекательные онлайн-сервисы, в поисках MLOps-инженера в платформенную команду.

Команда AI/ML отвечает за разработку и внедрение AI/ML-решений, сопровождение пользователей AI/ML-платформы и эксплуатацию inference-сервисов.

Внимание!!! Данная вакансия предполагает релокацию на Кипр или в Сербию и офисный формат работы

Почему эта позиция интересна:

Реальный ML в production — inference-сервисы с высокой нагрузкой, эксперименты, модели в Kubernetes
Современный стек — Kubeflow, ClearML, Kuberay, не легаси
Влияние на платформу — участие в архитектурных решениях ML-инфраструктуры
Команда инженеров — ресурсы для реализации амбициозных проектов
Без ночных дежурств — отдельная команда поддержки, здоровый work-life balance
GitOps-подход — инфраструктура как код, ArgoCD, Helm

Чем предстоит заниматься:

ML-платформа (Kubeflow / ClearML):

Развивать и поддерживать ML-платформу на базе Kubeflow и ClearML
Настраивать и оптимизировать ML-пайплайны: подготовка данных, обучение, валидация
Развивать объектное хранилище артефактов (MinIO / S3-compatible)
Внедрять GitOps-подход для ML-инфраструктуры (ArgoCD, Helm, GitLab CI)

Inference-сервисы:

Эксплуатировать и оптимизировать inference-сервисы в Kubernetes
Обеспечивать observability: метрики (Victoria Metrics, Grafana), логи (Vector)
Оптимизировать latency и throughput inference-пайплайнов

Сопровождение пользователей ML-платформы:

Помогать data scientist'ам и ML-инженерам использовать платформу эффективно
Разрабатывать документацию и runbooks по работе с ML-платформой
Участвовать в onboarding новых ML-проектов на платформу
Проводить root cause analysis инцидентов ML-инфраструктуры

Необходимые навыки и опыт:

Опыт работы с Kubernetes в production от 5 лет
Знание ML-экосистемы: пайплайны обучения, версионирование моделей, эксперименты
Опыт с одной из платформ: Kubeflow, MLflow, ClearML или аналогами
Уверенное программирование на Python (автоматизация, скрипты, ML-код)
Опыт с системами мониторинга (Prometheus, Victoria Metrics, Grafana)
Знание GitOps и ArgoCD
Понимание работы GPU в Kubernetes (расписание, квоты, изоляция)
Опыт с объектным хранилищем S3-compatible (MinIO, AWS S3 или аналоги)

Будет плюсом:

Опыт с Kuberay (Ray clusters для распределённого обучения)
Знание MLflow (эксперименты, model registry, serving)
Знание inference-фреймворков: vLLM, Triton Inference Server, TorchServe, SGLang
Опыт с векторными базами данных (Milvus, Qdrant, Weaviate)
Понимание LLM fine-tuning и deployment (LoRA, quantization)
Опыт с OpenWebUI или аналогичными LLM-интерфейсами
Сертификации Kubernetes (CKA) или cloud (AWS, GCP)
Опыт с HashiCorp Vault для управления секретами ML-сервисов

Условия:

Релокация ни Кипр или в Сербию за счет компании
Официальное оформление по ТК Кипра/Сербии
Годовой бонус по результатам работы
Оплачиваемый отпуск
4 дополнительных day off в год
Реферальная программа
Подарки сотрудникам и их детям
Корпоративное питание - завтраки и обеды за счет компании
График: 5/2 с гибким началом рабочего дня с 8:00 до 11:00
Современное оборудованное рабочее место
Русскоязычная команда
Минимум бюрократии
Поездки на IT-конференции, митапы и обучение
Возможность профессионального и финансового роста
Компенсация оплаты занятий по английскому языку от SkyEng в размере 50%
Насыщенная корпоративная жизнь - регулярные спортивные, развлекательные, образовательные мероприятия для сотрудников и их детей

Источник вакансии

Вернуться, к списку вакансий