Galaktica — українська продуктова IT-компанія, що з 2019 року створює мобільні застосунки та вебпродукти для ринків Tier-1. У команді 350+ фахівців з провідною експертизою, які працюють з різних куточків світу. Ми розвиваємо міжнародні продукти, експериментуємо з підходами і швидко масштабуємо рішення, які покращують життя мільйонів користувачів.
Важливою складовою бізнесу Galaktica є благодійність. З 2022 року ми спрямували велику кількість волонтерської допомоги в різні напрямки. У першу чергу, підтримка ЗСУ: десятки позашляховиків і комерційних квадрокоптерів, сотні FPV-дронів, НРК з турелями, квадроцикли. Також розвиваємо два благодійні фонди: фокус на реабілітації військових і на підтримці дітей військовослужбовців та постраждалих від війни. Про роль: Ми шукаємо першого Site Reliability Engineer, який закладе фундамент культури надійності в компанії. У міру зростання продуктів і команд зростають і вимоги до стабільності систем, тому нам потрібна людина, яка буде проводити глибокий аналіз інцидентів, знаходити системні причини проблем і допомагати будувати процеси та практики, що підвищують надійність наших сервісів.
На даній посаді вам необхідно буде вирішити наступні задачі:
Визначити і підтримувати SLI/SLO для критичних продуктових сервісів.
Побудувати regular reliability reporting.
Створити і розвивати observability-стратегію в компанії.
Вибудувати здатність команд володіти надійністтю своїх сервісів і продуктів.
Виступати incident commander для критичних cross-service інцидентів.
Впровадити глибокий розбір складних причинно-наслідкових зв’язків між сервісами і командами при вирішенні проблем.
Створювати runbooks для типових інцидентів.
Які навички та критерії нам зараз важливі:
5+ років досвіду роботи з production distributed systems, з них 2+ роки у явній SRE-ролі або еквівалентній позиції з SRE-обов’язками.
Практичний досвід впровадження SLO/SLI.
Глибока експертиза в observability на рівні проектування.
Практичний досвід підтримки процесів Incident management в ролі incident commander, ведення blameless postmortems як фасилітатора.
Досвід дебагу розподілених production систем в середовищі AWS/Kubernetes.
Здатність читати й аналізувати production-код сервісів для пошуку кореневих причин інцидентів
Експертиза в реляційних БД під навантаженням.
Вміння аналізувати production-код (Node JS/PHP) для пошуку кореневих причин інцидентів.
Буде плюсом:
Досвід першого SRE в компанії або побудови SRE-практик з ранньої стадії
Досвід складних production-міграцій з збереженням доступності
Що ми раді вам запропонувати:
Формат роботи: обирайте, як вам зручніше — віддалено, гібридно або в офісі в Києві, Львові, Одесі чи на Кіпрі (Ларнака). Усі українські офіси обладнані генераторами зі Starlink і доступні для команди 24/7. Робочий графік — з 10:00 до 18:30;
Обладнання: надаємо все необхідне для комфортної роботи та для вирішення масштабних завдань, експериментів — ноутбук/ПК/додаткові монітори чи спеціалізовані гаджети;
Безпека та страховка: ми не лише слідкуємо за рівнем задоволеності співробітників, а й дбаємо про вас у скрутні моменти. Кожен співробітник має медичне страхування за рахунок компанії (на території України) або грошову компенсацію на спорт;
Відпочинок та баланс: 3 тижні оплачуваної відпустки щороку, необмежені day off та гнучкі sick leaves без зайвої бюрократії. Ми довіряємо команді, тому підтримуємо здоровий баланс між роботою та особистим життям;
Колеги та атмосфера: люди, які вас оточують, визначають рівень життя та розвиток. Завдяки якісним етапам співбесіди, ми підбираємо найкращих з найкращих. Ви працюватимете зі справжніми професіоналами у своїй сфері;
Безперервний розвиток: оплачуємо тренінги, семінари, онлайн-курси, конференції. Маємо власну LMS-систему, бібліотеку та книжковий клуб, які об’єднують тих, хто не зупиняється в навчанні. Крім того, у нас є 3 сертифіковані коучи, які проводять внутрішні навчання та персональні коуч-сесії для співробітників — це допомагає краще розуміти с


