Cloud.ru

Системный инженер (L4)

Не указана
  • Москва
  • Более 6 лет
  • Linux
  • BGP
  • Kubernetes

Чем предстоит заниматься:

  • Участие в критичных инцидентах в роли ведущего технического эксперта (L4);
  • Контроль и координация процесса устранения инцидента от обнаружения до полного восстановления сервиса;
  • Глубокий технический разбор инцидентов и выработка корректирующих мероприятий;
  • Проектирование и внедрение изменений, направленных на предотвращение повторения инцидентов;
  • Анализ архитектуры высоконагруженных и отказоустойчивых систем, поиск узких мест и потенциальных точек отказа;
  • Консультирование команд эксплуатации и разработки по сложным инфраструктурным и сетевым вопросам;
  • Участие в разработке и актуализации runbook’ов, operational-документации и best practices;
  • Повышение общей надёжности и устойчивости платформы.

Что мы ждем от кандидата​​​​​​​:

  • Большой практический опыт участия в инцидентах высоконагруженных и критичных систем (роль L3/L4);

  • Глубокие навыки troubleshooting’а в распределённых системах и инфраструктуре;

  • Отличное понимание виртуальных сетей и принципов их построения;

  • Знание и практический опыт работы с сетевыми протоколами: BGP, EVPN;

  • Опыт работы с балансировщиками нагрузки (L4/L7);

  • Понимание принципов работы SDN и overlay-сетей;

  • Уверенное владение Linux (диагностика, сеть, утилиты);

  • Стрессоустойчивость и умение сохранять хладнокровие в условиях аварий и ограниченного времени.

Дополнительно приветствуем:

  • Опыт работы в роли SRE, Production Engineer или Incident Manager;
  • Опыт участия в построении отказоустойчивых архитектур и DR-решений;
  • Опыт работы и диагностики SDN (OVN+OVS);
  • Опыт работы с Kubernetes (CNI cilium или calico) и контейнерной инфраструктурой;
  • Понимание принципов работы распределённых систем (consistency, latency, fault tolerance);
  • Опыт автоматизации диагностики и устранения инцидентов (скрипты, tooling);
  • Опыт работы и диагностики OpenStack.