Обязанности:
- Участвовать в дежурствах:
-реагировать на инциденты, проблемы клиентов (переданные со второй линии поддержки) и оповещения мониторинга;
-проводить диагностику, выявлять причины сбоев и восстанавливать работу сервиса. Участвовать в разборе корневых причин инцидентов;
- Формировать документацию и инструкции для инженеров поддержки 3-го и 2-го уровней;
- Вместе с инженерами SRE работать над повышением надёжности системы (мониторинг и пр.)
Требования:
-
Имеет опыт сопровождения критических информационных систем и инфраструктуры (чем сложнее – тем лучше);
-
Имеете опыт администрирования Linux;
-
Имеете опыт работы с Kubernetes;
-
Имеет опыт работы с Ansible;
-
Знакомы с инструментами мониторинга и логирования (Zabbix / Prometheus, / Grafana / ELK);
-
Имеете базовые знания в области сетевых технологий;
-
Не теряетесь в критической ситуации и можете планомерно работать над поиском причины неисправности и её устранением;
-
Можете читать или писать на Python или Go;
-
Имеет базовые знания о системах контроля версий (Git) и CI/CD (Gitlab, Jenkins).