Как SRE делает HeadHunter стабильным

DevOps Доклад 30 минут Антон Иванов DevOps(зал Технология) :   Jun 17 11:00
Антон Иванов
Тимлид команды SRE (site reability engineering) в HeadHunter
HeadHunter - сайт, где соискатели находят работу, а работодатели - сотрудников.
К нам приходит до 4,500 запросов в секунду, которые превращаются в 32,000 запросов в секунду к бэкендам и более 70,000 запросов в секунду к базам данных.
Еще 2 года назад доступность сайта падала ниже 99%, но мы исправились и теперь стабильно выходим из 99,9%.
В докладе расскажу о том, чем занимается команда SRE (site reliability engineering) в HeadHunter.
Большую часть времени посвящу граблям, на которые мы напоролись, и решениям:
- Проблема протухающих запросов и fail-fast
- Лавина ретраев и как правильно балансировать между сервисами
- Лишние промежуточные звенья архитектуры
- Наш опыт использования микросервисов




Презентация
Постоянная ссылка на доклад: https://devconf.ru/offer/234