SRE Инженер - remote

Вакансия № 21887638 от компании М.Видео-Эльдорадо. ИТ на Электронной Службе Занятости Населения Москвы.

✷ Смотрите другие предложения работы от компании М.Видео-Эльдорадо. ИТ.

☑ Основной блок:

Опыт работы: 3–6 лет.

Тип занятости: полная занятость.

График работы: удаленная работа.

Зарплата: по результату собеседования.

Примерное место работы: Россия, Москва.

☑ Актуальность объявления:

Это объявление № 21887638 добавлено в базу данных: Четверг, 30 января 2025 года.

Дата его обновления на этом интернет-ресурсе: Вторник, 18 марта 2025 года.

☑ Статистика предложения работы № 21887638:

Прочитано соискателями - 136 раз(а);
Отправлено откликов - 0 раз(а);

☑ Репутация компании "М.Видео-Эльдорадо. ИТ":

Читайте свежие отзывы сотрудников об этом работодателе здесь!

Оставить своё мнение об этой компании можно тут без регистрации и бесплатно.

☑ Подробности о вакантном месте:

Если тебе интересны задачи, подходы и инструменты, описанные ниже, ты хочешь получить опыт в крупнейшем е-коме РФ, при этом ты подходишь под наши требования - нам стоит пообщаться что бы обсудить все детали!

В команду нового сайта и нового движка поиска/каталога мы ищем инженеров, пришедших (или переходящих) в SRE как из разработки (SRE/SWE), так и из администрирования (SRE/SE).

Что мы предлагаем:

Возможность работать удалённо (из любого города и региона);
Нетривиальные задачи и real highload;
Большая и сильная команда профессионалов (которые будут рады как поделиться опытом с тобой, так и перенять опыт у тебя), мы нацелены на результат;
В проектах нет legacy, вся разработка ведётся на современном стэке;
Ещё у нас есть отдельная команда дежурных инженеров с присутствием 24x7 - наши глаза и руки, которые в случае проблем прода, требующих вызова on-call SRE, уже смогут дать контекст к моменту нашего подключения;
Конкурентоспособная з/п;
При необходимости предоставляем оборудование для работы;
Официальное оформление по ТК РФ, белая заработная плата;
ДМС после испытательного срока (3 месяца);
Развитая корпоративная культура.

Чем предстоит заниматься:

Делать так что бы наши клиенты получали высокий уровень сервиса, при этом обеспечивать продуктовые команды возможностью выводить новый функционал сколь угодно часто и в любое время суток (и даже в высокий сезон);
Активным и проактивным поиском возможных проблем в архитектуре систем, их устранением, включая консультации на стадии дизайна, разработки, а так же планирование необходимых для работы сервиса ресурсов и т. д.;
Используя практики SRE, управлять количеством нештатных ситуаций в проде таким образом, что бы их количество не приводило к превышению error budget;
Автоматизацией и оптимизацией процессов, связанных с обслуживанием систем, усилением их отказоустойчивости, масштабированием - снижать операционную нагрузку на команду;
Работой с инцидентами (анализ возникших инцидентов, поиск вариантов их решения, устранение последствий, расследование причин возникновения инцидентов, предотвращение инцидентов и их последствий);
Диагностикой и решением проблем, включая кросс-системные;
Развитием системы мониторинга для активного и проактивного подхода к сопровождению сервисов;
Настраивать мониторинг не только инфрастуктуры, приложений и их производительности, но и бизнес показателей, разрабатывать дашборды, на которых будет видна их корреляция и baseline;
Участвовать в развитии системы сквозного трейсинга;
Настраивать получение и агрегацию метрик от всех слоёв приложений, начиная от браузера и заканчивая низкоуровневыми инфраструктурными компонентами;
Участвовать в определении SLI/SLO/SLA;
Быть частью продуктовых команд, находиться рядом с продуктами и фичами от момента их планирования и дизайна, до разработки, тестирования, вывода в прод и обновления;
Участвовать в on-call дежурствах;
Разрабатывать тулинг, направленный на автоматизацию нашей работы и на решение нестандартных задач (экспортеры, операторы);
Формировать реестр рисков доступности и отказоустойчивости, участвовать в оценке таких рисков, планировать и реализовывать мероприятия по их предотвращению;
Участвовать в выстраивании практик хаос-инжиниринга, в мероприятиях по регулярной проверке средств резервирования.

От тебя нам важно:

Опыт разработки/сопровождения микросервисных, высоконагруженных, отказоустойчивых асинхронных многокомпонентных веб-, frontend-, backend- приложений;
Знание и понимание SRE подходов;
Kubernetes - опыт развёртывания и эксплуатации, как в on-prem так и в managed вариантах (облака AWS / YC / MCS);
Опыт работы на позиции ведущего разработчика, ведущего инженера по автоматизации (DevOps), SRE от 3-х лет;
Хороший опыт работы со следующими инструментами (не обязательно со всеми!): Prometheus, Grafana, ELK, Jaeger, Loki, Zabbix, AppDynamics, Nginx, OpenResty, HAProxy, Envoy, keepalived, PostgreSQL, ElasticSearch, Redis, Couchbase, MongoDB, Kafka, Git, Gitlab CI, Jira, Confluence, Ansible, Terraform, Thanos, VictoriaMetrics, Helm, Harbor, SonarQube, Hashicorp Vault (почти всё из этого у нас так или иначе используется);
Опыт в системах observability;
Знания сетевых протоколов, понимание маршрутизации и фильтрации трафика;
Высшее образование (техническое);

Значительным преимуществом будет следующее:

Опыт продуктовой разработки (на любом стэке, но будет плюсом если это Java/Kotlin или Node.js);
Экспертиза по базам данных - настройка под высокую нагрузку, настройка высокой доступности, репликация, шардирование, эксплуатация - причём как поддержка, так работа с запросами и данными. У нас используются разные базы данных, но в основном это Postgres, Couchbase и Elasticsearch (как движок поиска, а не только как буква в ELK);
Kafka;
Наличие сертификации (или прохождение подготовки) по CKA/CKAD/CKS exams;
Опыт нагрузочного тестирования (у нас отдельная команда «нагрузочников», но полезно понимать о чём тесты, и иногда мы можем взять их сценарии и самостоятельно прогнать, если коллеги заняты на другом подпроекте)
Опыт с OpenTelemetry/OpenTracing/OpenCensus;
Опыт настройки и эксплуатации L4/L7 балансировщиков под высоконагруженные задачи;
Понимание и опыт построения высоконагруженных распределённых систем;
Опыт построения Multicloud распределенных систем;
Service mesh (Istio);
Настройка автоскейлинга Stateful сервисов;
Опыт локализации проблем в больших и сложных системах;
GitOps;
Знания серверной виртуализации (VMware, KVM).

Отбор обычно проходит в несколько этапов:

небольшое интервью с нашими рекрутерами, на 5-10 минут;
познакомимся и расскажем друг о друге, обсудим технологии, которые есть у нас, и которыми владеешь ты;
на следующем этапе будут технические вопросы, как в ширину, так и в глубину;

Второй и третий этапы примерно по 45-60 минут, но можем объединить их в один, длительностью в 90-120 минут - если и тебе и нам будет удобно, как по слотам времени, так и по продолжительности.

После последнего этапа в течение недели мы дадим тебе обратную связь.