Cloud.ru

Системный инженер (L4)

Не указана

Чем предстоит заниматься:

Участие в критичных инцидентах в роли ведущего технического эксперта (L4);
Контроль и координация процесса устранения инцидента от обнаружения до полного восстановления сервиса;
Глубокий технический разбор инцидентов и выработка корректирующих мероприятий;
Проектирование и внедрение изменений, направленных на предотвращение повторения инцидентов;
Анализ архитектуры высоконагруженных и отказоустойчивых систем, поиск узких мест и потенциальных точек отказа;
Консультирование команд эксплуатации и разработки по сложным инфраструктурным и сетевым вопросам;
Участие в разработке и актуализации runbook’ов, operational-документации и best practices;
Повышение общей надёжности и устойчивости платформы.

Что мы ждем от кандидата:

Большой практический опыт участия в инцидентах высоконагруженных и критичных систем (роль L3/L4);
Глубокие навыки troubleshooting’а в распределённых системах и инфраструктуре;
Отличное понимание виртуальных сетей и принципов их построения;
Знание и практический опыт работы с сетевыми протоколами: BGP, EVPN;
Опыт работы с балансировщиками нагрузки (L4/L7);
Понимание принципов работы SDN и overlay-сетей;
Уверенное владение Linux (диагностика, сеть, утилиты);
Стрессоустойчивость и умение сохранять хладнокровие в условиях аварий и ограниченного времени.

Дополнительно приветствуем:

Опыт работы в роли SRE, Production Engineer или Incident Manager;
Опыт участия в построении отказоустойчивых архитектур и DR-решений;
Опыт работы и диагностики SDN (OVN+OVS);
Опыт работы с Kubernetes (CNI cilium или calico) и контейнерной инфраструктурой;
Понимание принципов работы распределённых систем (consistency, latency, fault tolerance);
Опыт автоматизации диагностики и устранения инцидентов (скрипты, tooling);
Опыт работы и диагностики OpenStack.