X5 Tech

Senior Data Engineer

Не указана
  • Москва
  • От 3 до 6 лет
  • Python
  • SQL
  • Hadoop

В команде разработывается ML-система, детекирующая Out-of-stock ситуации и аномалии в продажах, которая в near-real-time выявляет потенциальные проблемы с наличием товара и отправляет предупреждения сотрудникам магазинов для оперативной проверки и выкладки.

🔹 Задача

Мы строим end-to-end пайплайны, которые собирают данные из разных источников (онлайн и оффлайн-продажи, ERP, внешние API), очищают, трансформируют и подготавливают их для моделей машинного обучения (бустинг и нейронные сети). От качества этих пайплайнов зависит точность прогноза и миллионы управленческих решений в закупках и логистике

🔹 Что предстоит

• Разрабатывать и оптимизировать Spark-пайплайны для обработки данных в масштабе (200+ млн строк ежедневно)

• Настраивать хранение и доступность данных в DWH

• Автоматизировать интеграцию данных: продажи, акции, цены, остатки, погода, календари

• Работать в связке с Data Science-командой, обеспечивая стабильный и качественный поток данных для моделей

• Участвовать в развитии платформы прогнозирования спроса, делая её более надёжной, масштабируемой и удобной

🔹 Наш стек

• PySpark{2,3} / Spark SQL

• Hadoop / Hive / Trino / S3 / clickhouse / postgres/ greenplum

• Airflow

• Python3

• Docker, YARN / k8s

• pytest