Galaktica — українська продуктова IT-компанія, що з 2019 року створює мобільні застосунки та вебпродукти для ринків Tier-1. У команді 350+ фахівців з провідною експертизою, які працюють з різних куточків світу. Ми розвиваємо міжнародні продукти, експериментуємо з підходами і швидко масштабуємо рішення, які покращують життя мільйонів користувачів.

Важливою складовою бізнесу Galaktica є благодійність. З 2022 року ми спрямували велику кількість волонтерської допомоги в різні напрямки. У першу чергу, підтримка ЗСУ: десятки позашляховиків і комерційних квадрокоптерів, сотні FPV-дронів, НРК з турелями, квадроцикли. Також розвиваємо два благодійні фонди: фокус на реабілітації військових і на підтримці дітей військовослужбовців та постраждалих від війни. Про роль: Ми шукаємо першого Site Reliability Engineer, який закладе фундамент культури надійності в компанії. У міру зростання продуктів і команд зростають і вимоги до стабільності систем, тому нам потрібна людина, яка буде проводити глибокий аналіз інцидентів, знаходити системні причини проблем і допомагати будувати процеси та практики, що підвищують надійність наших сервісів.

На даній посаді вам необхідно буде вирішити наступні задачі:

Визначити і підтримувати SLI/SLO для критичних продуктових сервісів.

Побудувати regular reliability reporting.

Створити і розвивати observability-стратегію в компанії.

Вибудувати здатність команд володіти надійністтю своїх сервісів і продуктів.

Виступати incident commander для критичних cross-service інцидентів.

Впровадити глибокий розбір складних причинно-наслідкових зв’язків між сервісами і командами при вирішенні проблем.

Створювати runbooks для типових інцидентів.

Які навички та критерії нам зараз важливі:

5+ років досвіду роботи з production distributed systems, з них 2+ роки у явній SRE-ролі або еквівалентній позиції з SRE-обов’язками.

Практичний досвід впровадження SLO/SLI.

Глибока експертиза в observability на рівні проектування.

Практичний досвід підтримки процесів Incident management в ролі incident commander, ведення blameless postmortems як фасилітатора.

Досвід дебагу розподілених production систем в середовищі AWS/Kubernetes.

Здатність читати й аналізувати production-код сервісів для пошуку кореневих причин інцидентів

Експертиза в реляційних БД під навантаженням.

Вміння аналізувати production-код (Node JS/PHP) для пошуку кореневих причин інцидентів.

Буде плюсом:

Досвід першого SRE в компанії або побудови SRE-практик з ранньої стадії

Досвід складних production-міграцій з збереженням доступності

Що ми раді вам запропонувати:

Формат роботи: обирайте, як вам зручніше — віддалено, гібридно або в офісі в Києві, Львові, Одесі чи на Кіпрі (Ларнака). Усі українські офіси обладнані генераторами зі Starlink і доступні для команди 24/7. Робочий графік — з 10:00 до 18:30;

Обладнання: надаємо все необхідне для комфортної роботи та для вирішення масштабних завдань, експериментів — ноутбук/ПК/додаткові монітори чи спеціалізовані гаджети;

Безпека та страховка: ми не лише слідкуємо за рівнем задоволеності співробітників, а й дбаємо про вас у скрутні моменти. Кожен співробітник має медичне страхування за рахунок компанії (на території України) або грошову компенсацію на спорт;

Відпочинок та баланс: 3 тижні оплачуваної відпустки щороку, необмежені day off та гнучкі sick leaves без зайвої бюрократії. Ми довіряємо команді, тому підтримуємо здоровий баланс між роботою та особистим життям;

Колеги та атмосфера: люди, які вас оточують, визначають рівень життя та розвиток. Завдяки якісним етапам співбесіди, ми підбираємо найкращих з найкращих. Ви працюватимете зі справжніми професіоналами у своїй сфері;

Безперервний розвиток: оплачуємо тренінги, семінари, онлайн-курси, конференції. Маємо власну LMS-систему, бібліотеку та книжковий клуб, які об’єднують тих, хто не зупиняється в навчанні. Крім того, у нас є 3 сертифіковані коучи, які проводять внутрішні навчання та персональні коуч-сесії для співробітників — це допомагає краще розуміти с

Senior Site Reliability Engineer

Схожі вакансії

З блогу Trackr